爬虫日记(90):Scrapy的HTTP11DownloadHandler类
2023-09-14 09:10:04 时间
在爬虫里,使用最多的下载机制,还是HTTP协议,因此这个协议的实现就非常关键了,也是一个比较复杂的实现,要读懂这个类要比较费时间和精力。虽然比较复杂,我们还是一步一步地去分析这些代码实现,以便我们可以自己实现HTTP协议,或者修改HTTP协议,又或者整个这部分源码自己的工程。
在scrapy引入这个类,并不是直接以这个类的名称,而是改为别名HTTPDownloadHandler,如下所示:
因此下载HTTP/HTTPS协议的时候,就是调用HTTP11DownloadHandler类。
接着下来,我们就来先看看这个类的构造函数:
相关文章
- 第三百六十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mapping映射管理
- 第三百四十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—编写spiders爬虫文件循环抓取内容—meta属性返回指定值给回调函数—Scrapy内置图片下载器
- 第三百四十节,Python分布式爬虫打造搜索引擎Scrapy精讲—css选择器
- 小白学 Python 爬虫(40):爬虫框架 Scrapy 入门基础(七)对接 Selenium 实战
- 小白学 Python 爬虫(34):爬虫框架 Scrapy 入门基础(二)
- Python爬虫:scrapy-splash的请求头和代理参数设置
- 爬虫日记(85):Scrapy的ExecutionEngine类(四)
- 爬虫日记(85):Scrapy的ExecutionEngine类(一)
- 爬虫日记(76):Scrapy的命令行源码分析三
- 爬虫日记(76):Scrapy的命令行源码分析
- 爬虫日记(75):Scrapy的Settings源码分析(二)
- 爬虫日记(75):Scrapy的Settings源码分析
- 爬虫日记(72):Scrapy安装程序入口点分析
- 爬虫日记(65):Scrapy的设置参数-Telnet
- 爬虫日记(60):Scrapy的过滤性管道
- 爬虫日记(28):scrapy使用中间件调用浏览器