您现在的位置是：首页 > 后端

当前栏目

scrapy download delay, CONCURRENT_REQUESTS

scrapy requests Download concurrent delay

2023-09-14 09:00:32 时间

设置delay有起码两个好处，一个是对被爬对象表示礼貌，另一个是爬的太快，很多服务器会封ip，或限制访问。

效果：每x秒左右来一个request

先建立一个项目来找CONCURRENT_REQUESTS与DOWNLOAD_DELAY的联系

大致给出粗略代码：

jianshuspider.py：

import scrapy
from JianshuSpider_author_1.items

import JianshuspiderAuthor1Item

from scrapy.selector
import Selector

class JianshuSpider(scrapy.Spider):

name ="jianshu"

def start_requests(self):

urls = ['http://www.jianshu.com/users/958f740aed52/followers']

for url
in urls:

yield scrapy.Request(
url = url,
callback=
self.parse_author)

def parse_author(

self,

response):
item = JianshuspiderAuthor1Item()

selector = Selector(response)

fans_href = selector.xpath("//div[@class='info']/a/@href").extract()

for fan_href
in fans_href:

fan_href ='http://www.jianshu.com/users/'+ fan_href.split('/')[-1] +'/followers'

# fan_href = 'http://www.google.com.hk/'+ fan_href.split('/')[-1] + '/followers'#需要timeout时调用

yield scrapy.Request(fan_href,
callback=self.parse_author)

item['author'] = selector.xpath("//div[@class='title']/a/text()").extract_first()

yield item

requestlimit.py(downlomiddleware):

class RequestLimitMiddleware(object):

count =0

def process_request(self,request,spider):

self.count +=1

print(self.count)

以上两个文件的代码为核心代码。

测试结果：

一：

settings.py

CONCURRENT_REQUESTS =8

DOWNLOAD_DELAY =0

并且jianshuspider.py中关闭递归简书链接，打开Google链接语句

效果：8个request同时来，同时timeout。8个request又来，又timeout。如此循环。

二：

settings.py

CONCURRENT_REQUESTS =1

DOWNLOAD_DELAY =5

并且jianshuspider.py中打开递归简书链接，关闭Google链接语句

效果：每5秒左右来一个request

三：

settings.py

CONCURRENT_REQUESTS =2
DOWNLOAD_DELAY =5

并且jianshuspider.py中打开递归简书链接，关闭Google链接语句

效果：一开始来2个request（A，B），但5秒后只处理了一个request(A)，新来一个request(C),5秒后又处理一个request（B）,排队一个request（D）。如此循环。

总结：

DOWNLOAD_DELAY 会影响 CONCURRENT_REQUESTS，不能使并发显现出来。

思考：

当有CONCURRENT_REQUESTS，没有DOWNLOAD_DELAY 时，服务器会在同一时间收到大量的请求。

当有CONCURRENT_REQUESTS，有DOWNLOAD_DELAY 时，服务器不会在同一时间收到大量的请求。

猜你喜欢

ORA-24326: handle passed in is already initialized ORACLE 报错故障修复远程处理
Spring Boot集成Disruptor
的信息查看Oracle当前实例的基本信息（查看oracle当前实例）
SQL Server：零除零运算的神奇一幕（sqlserver零除零）
MySQL Error number: MY-012600; Symbol: ER_IB_MSG_775; SQLSTATE: HY000 报错故障修复远程处理
MySQL 中 concat 函数
活跃用户MySQL实现每天活跃用户统计（mysql统计每天）
138. 复制带随机指针的链表
88 O粉节进行中，8亿补贴回馈O粉，OPPO为年轻人的梦想助力
云中购买，Oracle P6放心选择（oracle p6购买）
MySQL运行顺畅的秘诀解析（mysql不卡顿的原因）
MySQL与NoSQL的比较和选择（mysqlnosql）
pytest-allure_什么是思想报告
Linux查看本机IP地址的简易方法（linux查看本机地址）
Linux D文件：终极保护神器（linuxd是什么文件）
银河麒麟 V10 安装 Oracle 19C 详细步骤支持远程维护技术支持

相关主题

scrapy 教程
scrapy框架爬虫
Scrapy学习
scrapy小实例
小刮刮Scrapy
Scrapy问题
Python爬虫之scrapy框架
Python安装scrapy库
14.Scrapy-介绍
Scrapy爬虫
Scrapy 安装
Python-Scrapy框架

zl程序教程

当前栏目

scrapy download delay, CONCURRENT_REQUESTS

相关文章