您现在的位置是：首页 > 后端

当前栏目

爬虫日记(4)：urllib的基本使用

爬虫基本日记 urllib 使用

2023-09-14 09:10:04 时间

前面已经看到urllib库的魔力，了了数行就可以把网页的内容抓取下来，为了以后打下坚实的基础，在本文里对urllib库更进一步了解，学会它的基本使用方法。

urllib 是一个 python 内置包，不需要额外安装即可使用，包里面包含了以下几个用来处理 url 的模块：

urllib.request，用来打开和读取 url，意思就是可以用它来模拟发送请求，就像在浏览器里输入网址然后敲击回车一样，获取网页响应内容。

urllib.error，用来处理 urllib.request 引起的异常，保证程序的正常执行。

urllib.parse，用来解析 url，可以对 url 进行拆分、合并等。

urllib.robotparse，用来解析 robots.txt 文件，判断网站是否能够进行爬取。

在前面我们使用了urllib.request库，使用urllib库需要导入urllib库中对应的模块。

　　import urllib.request

猜你喜欢

综合设置及实操
TRICONEX 3008 用于数据配置和集成到交钥匙解决方案
中国 Oracle 未来发展期待与挑战并存（oracle中国未来发展）
MySQL下载微软轻松获取数据库管理工具（MySQL下载微软）
MySQL表的最大行数限制（mysql表的最大行数）
【组合数学】组合恒等式总结 ( 十一个组合恒等式 | 组合恒等式证明方法 | 求和方法 ) ★
MySQL内核大揭秘深入解析两种不同的内核架构（mysql两种内核）
Linux设备命名知多少：从sda到tty，一个不漏地讲给你听！（linux 设备的名称）
【企业架构框架】TOGAF 10 现已发布并可用！
2022算法岗秋招复盘(一) 各大厂ssp+ offer
服务器轻松链接 Oracle 到本地服务器（oracle连接本地）

相关主题

python爬虫学习
Python 爬虫篇
Python scrapy爬虫
爬虫框架scrapy
爬虫笔记1
图片爬虫
65 爬虫 - Scrapy 框架
Python爬虫示例
爬虫与反爬虫
爬虫工具
分布式爬虫
爬虫入门教程
爬虫笔记
爬虫实践-01

zl程序教程

当前栏目

爬虫日记(4)：urllib的基本使用

相关文章