zl程序教程

您现在的位置是:首页 >  后端

当前栏目

【Python3网络爬虫开发实战】3.1-使用urllib

Python3爬虫网络开发 实战 3.1 urllib 使用
2023-09-14 08:57:19 时间

【摘要】在Python 2中,有urllib和urllib2两个库来实现请求的发送。而在Python 3中,已经不存在urllib2这个库了,统一为urllib,其官方文档链接为:https://docs.python.org/3/library/urllib.html

首先,了解一下urllib库,它是Python内置的HTTP请求库,也就是说不需要额外安装即可使用。它包含如下4个模块。

  • request:它是最基本的HTTP请求模块,可以用来模拟发送请求。就像在浏览器里输入网址然后回车一样,只需要给库方法传入URL以及额外的参数,就可以模拟实现这个过程了。

  • error:异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作以保证程序不会意外终止。

  • parse:一个工具模块,提供了许多URL处理方法,比如拆分、解析、合并等。

  • robotparser:主要是用来识别网站的robots.txt文件,然后判断哪些网站可以爬,哪些网站不可以爬,它其实用得比较少。

这里重点讲解一下前3个模块。

【快速入口】:3.1.1-发送请求

【快速入口】:3.1.2处理异常

【快速入口】:3.1.3解析链接

来源:华为云社区  作者:崔庆才丨静觅