您现在的位置是：首页 > 后端

当前栏目

【Python3网络爬虫开发实战】3.1-使用urllib

Python3 爬虫网络开发实战 3.1 urllib 使用

2023-09-14 08:57:19 时间

【摘要】在Python 2中，有urllib和urllib2两个库来实现请求的发送。而在Python 3中，已经不存在urllib2这个库了，统一为urllib，其官方文档链接为：https://docs.python.org/3/library/urllib.html。

首先，了解一下urllib库，它是Python内置的HTTP请求库，也就是说不需要额外安装即可使用。它包含如下4个模块。

request：它是最基本的HTTP请求模块，可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样，只需要给库方法传入URL以及额外的参数，就可以模拟实现这个过程了。
error：异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作以保证程序不会意外终止。
parse：一个工具模块，提供了许多URL处理方法，比如拆分、解析、合并等。
robotparser：主要是用来识别网站的robots.txt文件，然后判断哪些网站可以爬，哪些网站不可以爬，它其实用得比较少。

这里重点讲解一下前3个模块。

【快速入口】：3.1.1-发送请求

【快速入口】：3.1.2处理异常

【快速入口】：3.1.3解析链接

来源：华为云社区作者：崔庆才丨静觅

猜你喜欢

Oracle 视图 V$TIMER 官方解释，作用，如何使用详细说明
Oracle客户端备份：让数据更安全（oracle客户端备份）
Oracle数据库全表查询效率优化（oracle全表查询效率）
Linux防火墙脚本：构建安全网络基础（linux防火墙脚本）
Java中的this指针
MelGeek推出Mojo68透明机械键盘可编程且支持定制
R语言使用虚拟变量(Dummy Variables) 回归分析工资影响因素|附代码数据
Mac上旅行Linux的故事（mac上的linux）
Qt:　中文－常量中有换行符[通俗易懂]
酒驾有多可怕？VR 视频第一视角还原车祸全过程
推荐几个好用的AI生成工具和办公效率网站
96 - or exists写法分析与优化方法
不务正业，捣鼓了一个破网站，全过程记录
Linux下反汇编技术探索（linux反汇编软件）
掌握Linux目录执行权限的重要性与方法（linux目录执行权限）
[栈] 表达式求值 – C语言（多位数求值，2位数以上）

相关主题

Python3 运算符
Python3模块
Centos安装python3
python3爬虫
Python3 模块
Python3位运算符
python3安装
python3的函数
python3报错
python3 学习
Python3-运算符
Python3函数
爬虫与反爬虫
Python3.X爬虫

zl程序教程

当前栏目

【Python3网络爬虫开发实战】3.1-使用urllib

【快速入口】：3.1.1-发送请求

【快速入口】：3.1.2处理异常

【快速入口】：3.1.3解析链接

相关文章