您现在的位置是：首页 > 后端

当前栏目

爬虫日记(5)：beautifulsoup的基本使用1

爬虫基本日记 BeautifulSoup 使用

2023-09-14 09:10:04 时间

由前面的文章可知，一个爬虫的基本构造，就是向一个网站下载网页，比如使用库urllib来下载，接着就是分析下载的数据。在前面只是实现了下载数据，并且打印出来查看一下，并没有涉及到用代码去分析HTML等数据，因而也没办法进行数据分析，也就没有办法进行更进一步的动作。

拿到HTML数据之后，怎么样来分析它呢？如果直接动手从头写代码去分析它也是可行的，不过有更加聪明的方法，就是使用一些现成的库，这样对于我们来分析HTML数据，就起到事半功倍的效果。beautifulsoup库就是这样一个库，它的名称就是靓汤，它是从HTML和XML文件中提取数据的Python库。

在Python里要先安装它才能使用，它是一个外部的库，不是Python内置的库。可以按下面的命令行来安装，先来到网站：

https://pypi.org/project/beautifulsoup4/

然后在命令行里运行下面的命令：

pip install beautifulsoup4

猜你喜欢

MySQL Error number: MY-011545; Symbol: ER_GRP_RPL_AUTO_INC_OFFSET_RESET; SQLSTATE: HY000 报错故障修复远程处理
多云融合和安全集成推动 SD-WAN 的大规模应用
Linux驱动工程师收获双赢：薪水与技术提升.（linux驱动工程师待遇）
限制Linux输入参数数量限制：25字概括（linux输入参数个数）
MySQL注入攻击的高级防范方法（mysql注入高级）
实用指南：如何搭建高可用的Redis集群架构（redis集群方式）
Linux如何显示网卡信息（linux显示网卡）
MySQL Error number: MY-013565; Symbol: ER_IB_MSG_DBLWR_1323; SQLSTATE: HY000 报错故障修复远程处理
8 岁依图的「斜杠」人生
Linux软RAID：提升系统性能的秘密武器（linux软raid性能）
在Repeater控件中通过Eval的方式绑定Style样式代码
用Go学设计模式-提炼流程，减少重复开发就靠它了!
不同之处MySQL模式的特性比较（mysqlmode）
pycharm彻底卸载_pycharm如何更新
AIOMySQL简单无缝迁移实践（aio mysql）
Oracle中触发器功能应用介绍（oracle中触发器介绍）
“揾”钱，最紧要系稳
MySQL Error number: MY-014010; Symbol: ER_GRP_RPL_HAS_STARTED; SQLSTATE: HY000 报错故障修复远程处理
如何在Linux系统下运行Jar文件（linux执行jar文件）

相关主题

爬虫技术实战
爬虫案例
爬虫笔记
爬虫之request

zl程序教程

当前栏目

爬虫日记(5)：beautifulsoup的基本使用1

相关文章