您现在的位置是：首页 > 后端

当前栏目

40 爬虫 - BeautifulSoup4 CSS选择器

爬虫 CSS 选择器 40

2023-09-11 14:15:43 时间

这就是另一种与 find_all 方法有异曲同工之妙的查找方法.

写 CSS 时，标签名不加任何修饰，类名前加.，id名前加#

在这里我们也可以利用类似的方法来筛选元素，用到的方法是 soup.select()，返回类型是 list

（1）通过标签名查找

print soup.select('title') 
#[<title>The Dormouse's story</title>]

print soup.select('a')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

print soup.select('b')
#[<b>The Dormouse's story</b>]

（2）通过类名查找

print soup.select('.sister')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

（3）通过 id 名查找

print soup.select('#link1')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

（4）组合查找

组合查找即和写 class 文件时，标签名与类名、id名进行的组合原理是一样的，例如查找 p 标签中，id 等于 link1的内容，二者需要用空格分开

print soup.select('p #link1')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

直接子标签查找，则使用 > 分隔

print soup.select("head > title")
#[<title>The Dormouse's story</title>]

（5）属性查找

查找时还可以加入属性元素，属性需要用中括号括起来，注意属性和标签属于同一节点，所以中间不能加空格，否则会无法匹配到。

print soup.select('a[class="sister"]')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

print soup.select('a[href="http://example.com/elsie"]')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

同样，属性仍然可以与上述查找方式组合，不在同一节点的空格隔开，同一节点的不加空格

print soup.select('p a[href="http://example.com/elsie"]')
#[<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>]

(6) 获取内容

以上的 select 方法返回的结果都是列表形式，可以遍历形式输出，然后用 get_text() 方法来获取它的内容。

soup = BeautifulSoup(html, 'lxml')
print type(soup.select('title'))
print soup.select('title')[0].get_text()

for title in soup.select('title'):
    print title.get_text()

猜你喜欢

Spring实战——通过Java代码装配bean
【CS Round #48 (Div. 2 only)】Dominant Free Sets
统一日志处理
内网渗透之MSF框架模块详细作用介绍
Java实现蓝桥杯VIP 算法训练明明的随机数
珠联璧合太香了，Pandas 与 lambda 合起来用才真棒
浅谈基于多源数据集成的城市地下管廊运维与智慧管控研究
哈希表专题~专治各种重复症状
WPF 知识点总结
使用Weka进行数据挖掘
java实现第四届蓝桥杯危险系数
HTML Email 编写指南
888
Java基础（10）-JavaDoc命令行生成方式和Intellij IDEA 生成方式
[Javascript] Object mental model
JavaFX给控件添加css样式
和 VMware、深信服、天翼云、招商云专家一起聊聊云原生边缘计算
【JVM】肝了一周，吐血整理出这份超硬核的JVM笔记（升级版）！！

相关主题

python 爬虫项目
python爬虫图片
python-爬虫
爬虫框架scrapy
爬虫笔记2
网络爬虫
网络爬虫(1)
爬虫介绍
爬虫解析
记第一个爬虫
Go分布式爬虫学习(七)
Python爬虫之scrapy框架
爬虫与反爬虫
python爬虫2
分布式爬虫

zl程序教程