zl程序教程

您现在的位置是:首页 >  后端

当前栏目

爬虫日记(6):beautifulsoup的基本使用2

爬虫 基本 日记 BeautifulSoup 使用
2023-09-14 09:10:04 时间

前面已经介绍了怎么样下载beautifulsoup库,以及初步地使用它,本文将深入一些来学习它。我们要使用beautifulsoup库,大部分的原因就是直接去搜索HTML文本很费力气,用了这个库之后就可以快速地查找到合适的元素。

 

beautifulsoup库为了方便地去查找到指定的元素,它需要遍历整个HTML文本,然后把它们生成一串python对象,再把这些对象构建成一颗树。Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment 。

 

要产生beautifulsoup对象,那么可以使用两种办法,一种是直接输入HTML或XML文本,另外一种是传入文件句柄。

from bs4 import BeautifulSoup

 

soup = BeautifulSoup(open("index.html"))

 

soup = BeautifulSoup("<html>data<