zl程序教程

您现在的位置是:首页 >  后端

当前栏目

爬虫日记(66):Scrapy的设置参数-抓取风格

爬虫scrapy 设置 参数 日记 风格 抓取 66
2023-09-14 09:10:04 时间

Scrapy允许我们采用不同的风格来抓取网页。针对不同的需求,需要采用不同的抓取方式。比如我们去抓取小说网站的时候,就需要采用深度优先的方式,因为一部小说是一章接着一章更新下去的,所以同一时间更新的很少。但是当我们去抓取新闻网站时,就不能这样做了,因为新闻网站都会把最新的新闻放在每一个页面的最前面,这时应该采用广度优先的方法,可以采用下面的设置:

# 先进先出,广度优先

DEPTH_PRIORITY = 1

SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'

SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'

这样的参数设置就修改为广度优先的原则。

 

如果想限制深度层次,可以设置参数DEPTH_LIMIT。如果不想限制深度,就把这个参数设置为0。