您现在的位置是：首页 > 后端

当前栏目

爬虫日记(83)：Scrapy的CrawlerProcess类（一）

爬虫 scrapy 日记 83

2023-09-14 09:10:04 时间

前面学习了Twisted的基础知识了，接着回过头来再看整个Scrapy程序，在执行 Scrapy 命令时，主要经过以下几步：

1）调用 cmdline.py 的 execute 方法

2）找到对应的命令实例解析命令行

3）构建 CrawlerProcess 实例，调用 crawl 和 start 方法开始抓取

而 crawl 方法最终是调用了 Cralwer 实例的 crawl，这个方法最终把控制权交给了Engine，而 start 方法注册好协程池，就开始异步调度执行了。

在 cmdline.py有execute方法里进行如下创建：

调用时CrawlerProcess(settings)来创建一个对象保存到cmd.crawler_process变量，这个CrawlerProcess对象才是我们需要关注的对象，因为它接管了execute的执行权，而要理解CrawlerProcess对象，就得理解CrawlerProcess类，它是在文件scrapy\crawler.py里，crawler.py文件里只有三个类，如下图：

猜你喜欢

快速清理Redis中无用的数据（清除redis中的数据）
Linux Yum源地址，下载软件包的最佳选择（linuxyum源地址）
【应用安全】软件开发生命周期
Bazel genrule
vivo 霍金实验平台设计与实践-平台产品系列02
Spring MVC框架：第十二章：运行原理
Table 'xxx'is marked as crashed and last (automatic) repair failed
intellij idea配置yuicompressor
将企业文件共享解决方案与数据丢失防护配对
深入探讨Linux C段错误问题（linuxc段错误）
人工智障ChatGPT的奇葩操作
浅谈javascript迭代方法
如何在MySQL中保存中文字符时避免乱码问题？（mysql保存乱码）
Linux虚拟机：哪款最适合你？（linux虚拟机哪个好用）
SmartGit ：图形化Git客户端
js获取元素相对于document的坐标
Java数据库编程中的技巧
解析MSSQL中索引列的最大数量（mssql索引列最大数）
【说站】javascript函数去抖如何理解

相关主题

python爬虫学习
go爬虫
Python爬虫四

zl程序教程

当前栏目

爬虫日记(83)：Scrapy的CrawlerProcess类（一）

相关文章