zl程序教程

您现在的位置是:首页 >  后端

当前栏目

爬虫日记(4):urllib的基本使用

爬虫 基本 日记 urllib 使用
2023-09-14 09:10:04 时间

前面已经看到urllib库的魔力,了了数行就可以把网页的内容抓取下来,为了以后打下坚实的基础,在本文里对urllib库更进一步了解,学会它的基本使用方法。

 

urllib 是一个 python 内置包,不需要额外安装即可使用,包里面包含了以下几个用来处理 url 的模块:

urllib.request,用来打开和读取 url,意思就是可以用它来模拟发送请求,就像在浏览器里输入网址然后敲击回车一样,获取网页响应内容。

urllib.error,用来处理 urllib.request 引起的异常,保证程序的正常执行。

urllib.parse,用来解析 url,可以对 url 进行拆分、合并等。

urllib.robotparse,用来解析 robots.txt 文件,判断网站是否能够进行爬取。

 

在前面我们使用了urllib.request库,使用urllib库需要导入urllib库中对应的模块。

  import urllib.request