爬虫日记(4):urllib的基本使用
爬虫 基本 日记 urllib 使用
2023-09-14 09:10:04 时间
前面已经看到urllib库的魔力,了了数行就可以把网页的内容抓取下来,为了以后打下坚实的基础,在本文里对urllib库更进一步了解,学会它的基本使用方法。
urllib 是一个 python 内置包,不需要额外安装即可使用,包里面包含了以下几个用来处理 url 的模块:
urllib.request,用来打开和读取 url,意思就是可以用它来模拟发送请求,就像在浏览器里输入网址然后敲击回车一样,获取网页响应内容。
urllib.error,用来处理 urllib.request 引起的异常,保证程序的正常执行。
urllib.parse,用来解析 url,可以对 url 进行拆分、合并等。
urllib.robotparse,用来解析 robots.txt 文件,判断网站是否能够进行爬取。
在前面我们使用了urllib.request库,使用urllib库需要导入urllib库中对应的模块。
import urllib.request