爬虫日记(6):beautifulsoup的基本使用2
爬虫 基本 日记 BeautifulSoup 使用
2023-09-14 09:10:04 时间
前面已经介绍了怎么样下载beautifulsoup库,以及初步地使用它,本文将深入一些来学习它。我们要使用beautifulsoup库,大部分的原因就是直接去搜索HTML文本很费力气,用了这个库之后就可以快速地查找到合适的元素。
beautifulsoup库为了方便地去查找到指定的元素,它需要遍历整个HTML文本,然后把它们生成一串python对象,再把这些对象构建成一颗树。Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comment 。
要产生beautifulsoup对象,那么可以使用两种办法,一种是直接输入HTML或XML文本,另外一种是传入文件句柄。
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("index.html"))
soup = BeautifulSoup("<html>data<
相关文章
- Python爬虫从入门到精通——基本库re的使用:正则表达式
- python实现简单爬虫功能
- 第三百六十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作、增、删、改、查
- 爬虫最为聚集的5个领域-转
- 爬虫 DATA/URL 去重
- python-爬虫
- Python爬虫开发:requests库的使用--发送带参数post请求
- Python爬虫:使用lxml解析网页内容
- Python爬虫:Scrapy调试运行单个爬虫
- 爬虫日记(33):爬虫的基本数据库MongoDB
- 爬虫日记(4):urllib的基本使用
- scrapy基本爬虫,采集多页
- 爬虫----mumu模拟器如何开启root权限
- selenium+python headless 爬虫环境配置
- 从零开始,学会Python爬虫不再难!!! -- (5)截流:从网络包中获取数据 丨蓄力计划