zl程序教程

您现在的位置是:首页 >  后端

当前栏目

爬虫日记(5):beautifulsoup的基本使用1

爬虫 基本 日记 BeautifulSoup 使用
2023-09-14 09:10:04 时间

由前面的文章可知,一个爬虫的基本构造,就是向一个网站下载网页,比如使用库urllib来下载,接着就是分析下载的数据。在前面只是实现了下载数据,并且打印出来查看一下,并没有涉及到用代码去分析HTML等数据,因而也没办法进行数据分析,也就没有办法进行更进一步的动作。

 

拿到HTML数据之后,怎么样来分析它呢?如果直接动手从头写代码去分析它也是可行的,不过有更加聪明的方法,就是使用一些现成的库,这样对于我们来分析HTML数据,就起到事半功倍的效果。beautifulsoup库就是这样一个库,它的名称就是靓汤,它是从HTML和XML文件中提取数据的Python库。

 

在Python里要先安装它才能使用,它是一个外部的库,不是Python内置的库。可以按下面的命令行来安装,先来到网站:

https://pypi.org/project/beautifulsoup4/

然后在命令行里运行下面的命令:

pip install beautifulsoup4