爬虫日记(5):beautifulsoup的基本使用1
爬虫 基本 日记 BeautifulSoup 使用
2023-09-14 09:10:04 时间
由前面的文章可知,一个爬虫的基本构造,就是向一个网站下载网页,比如使用库urllib来下载,接着就是分析下载的数据。在前面只是实现了下载数据,并且打印出来查看一下,并没有涉及到用代码去分析HTML等数据,因而也没办法进行数据分析,也就没有办法进行更进一步的动作。
拿到HTML数据之后,怎么样来分析它呢?如果直接动手从头写代码去分析它也是可行的,不过有更加聪明的方法,就是使用一些现成的库,这样对于我们来分析HTML数据,就起到事半功倍的效果。beautifulsoup库就是这样一个库,它的名称就是靓汤,它是从HTML和XML文件中提取数据的Python库。
在Python里要先安装它才能使用,它是一个外部的库,不是Python内置的库。可以按下面的命令行来安装,先来到网站:
https://pypi.org/project/beautifulsoup4/
然后在命令行里运行下面的命令:
pip install beautifulsoup4
相关文章
- Python爬虫从入门到精通——基本库re的使用:正则表达式
- 小白学 Python 爬虫(40):爬虫框架 Scrapy 入门基础(七)对接 Selenium 实战
- 多线程爬虫链家基本信息
- python 爬虫抓取心得
- Python爬虫
- 爬虫智能解析库 Readability 和 Newspaper 的用法
- 【Python3网络爬虫开发实战】1.2.5-PhantomJS的安装
- python爬虫面试总结
- Python爬虫:selenium模块基本使用
- Python爬虫:关于scrapy模块的请求头
- Python爬虫:python2使用scrapy输出unicode乱码
- 爬虫日记(66):Scrapy的设置参数-抓取风格
- 爬虫日记(33):爬虫的基本数据库MongoDB
- 爬虫日记(6):beautifulsoup的基本使用2
- python爬虫从入门到放弃(四)之 Requests库的基本使用(转)
- Java 爬虫实战二之获取CSDN博主排名
- Python pyppeteer通过cookie获取数据(cookie爬虫)
- 爬虫学习(8):xpath helper使用教程
- Scrapy爬虫框架详解