爬虫日记(66):Scrapy的设置参数-抓取风格
2023-09-14 09:10:04 时间
Scrapy允许我们采用不同的风格来抓取网页。针对不同的需求,需要采用不同的抓取方式。比如我们去抓取小说网站的时候,就需要采用深度优先的方式,因为一部小说是一章接着一章更新下去的,所以同一时间更新的很少。但是当我们去抓取新闻网站时,就不能这样做了,因为新闻网站都会把最新的新闻放在每一个页面的最前面,这时应该采用广度优先的方法,可以采用下面的设置:
# 先进先出,广度优先
DEPTH_PRIORITY = 1
SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleFifoDiskQueue'
SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'
这样的参数设置就修改为广度优先的原则。
如果想限制深度层次,可以设置参数DEPTH_LIMIT。如果不想限制深度,就把这个参数设置为0。
相关文章
- Python 有道翻译爬虫,破解 sign 参数加密反爬机制,解决{"errorCode":50}错误
- scrapy框架爬虫_bootstrap是什么框架
- 一个Scrapy爬虫实例
- scrapy爬虫案例_Python爬虫 | 一条高效的学习路径
- Scrapy爬虫框架,入门案例(非常详细)「建议收藏」
- 【python】秀人集-写真集-爬虫-1.0「建议收藏」
- 爬虫项目#4567电影网scrapy数据爬取moviePro/持久化储存handReqPro
- 爬虫+反爬虫+js代码混淆
- selenium+webdriver_python爬虫安装
- 一个帅气的py爬虫模块
- 看完这个,还不会【Python爬虫环境】,请你吃瓜
- java爬虫利器Jsoup的使用
- scrapy 向爬虫服务发送请求详解程序员
- etlpy: 并行爬虫和数据清洗工具(开源)详解大数据
- Go语言网络爬虫的接口设计
- 高效爬虫利器:Redis与Scrapy的完美结合(redis scrapy)
- 爬虫借助Scrapy的Redis爬虫提速效率(scrapy的redis)
- 零基础写python爬虫之使用Scrapy框架编写爬虫