【Python3网络爬虫开发实战】3.1-使用urllib
2023-09-14 08:57:19 时间
【摘要】在Python 2中,有urllib和urllib2两个库来实现请求的发送。而在Python 3中,已经不存在urllib2这个库了,统一为urllib,其官方文档链接为:https://docs.python.org/3/library/urllib.html。
首先,了解一下urllib库,它是Python内置的HTTP请求库,也就是说不需要额外安装即可使用。它包含如下4个模块。
-
request:它是最基本的HTTP请求模块,可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样,只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程了。
-
error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止。
-
parse:一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并等。
-
robotparser:主要是用来识别网站的robots.txt文件,然后判断哪些网站可以爬,哪些网站不可以爬,它其实用得比较少。
这里重点讲解一下前3个模块。
【快速入口】:3.1.1-发送请求
【快速入口】:3.1.2处理异常
【快速入口】:3.1.3解析链接
来源:华为云社区 作者:崔庆才丨静觅
相关文章
- python3——unboundlocalerror报错原因
- python3·7创建虚拟环境_python激活虚拟环境
- python3中eval函数用法简介[通俗易懂]
- python3 requests 运行时提示 InsecureRequestWarning
- python3 不小心 卸载了 pip,重装 pip 办法
- python3进阶开发-第一个仿博客园的项目(1)详解编程语言
- python3开发进阶-Django框架中form的查看校验方法is_valid()的源码,自定义验证方法详解编程语言
- Python3.x:BeautifulSoup()解决中文乱码问题详解编程语言
- Python3.x:定义一个类并且调用详解编程语言
- Python3.x:抢票详解编程语言
- Python3.x:定时任务实现方式详解编程语言
- Python3 实现淘女郎照片爬虫