您现在的位置是：首页 > 后端

当前栏目

scrapy 下载器中间件随机切换user-agent

scrapy 中间件下载切换随机 user Agent

2023-09-14 09:12:12 时间

下载器中间件如下列表

['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',

'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',

'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',

'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',

'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',

'scrapy.downloadermiddlewares.retry.RetryMiddleware',

'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',

'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',

'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',

'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',

'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',

'scrapy.downloadermiddlewares.stats.DownloaderStats']

下载器中间件的四个函数

from_crawler(cls,crawler) 配置函数

process_reuquest 处理请求

process_response 处理响应

process_exception 异常出现时触发

随机切换user_agent

from faker import Faker
class MySpiderMiddleware(object):
    def __init__(self):
        self.fake = Faker()

    def process_request(self,request,spider):
        request.headers.setdefault('User-Agent',self.fake.user_agent())

DOWNLOADER_MIDDLEWARES = {
   #'middle.middlewares.MyCustomDownloaderMiddleware': 543,
   'middle.middlewares.MySpiderMiddleware': 100,
   'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}


第一种方式 在setting 配置里面配置，我也没测试过，到底是一直是随机取其中一个还是每次请求都随机一个

USER_AGENT_LIST=[
'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]
USER_AGENT = random.choice(USER_AGENT_LIST)

第二种方式写一个自己的randomUseragent中间件并且在setting里面启用，但是要修改顺序靠前，比如100 或者直接把默认启用的user_agent 设置为None

第三种方式直接继承默认的userAgent中间件，然后改写方法

中间件可以用faker来实现或者自己招个列表也可以

def process_request(self,request,spider):
        request.headers.setdefault('User-Agent',self.fake.user_agent())

猜你喜欢

更数数据库用户密码
Qt Qwdget 汽车仪表知识点拆解1 速度表示
Vijos、洛谷——采药（部分背包问题）（java实现）
C++ vector 删除和排序的相关函数
测试命令运行时间：timeit和profile
将自定义包的路径加入到环境变量中
当我们开发一个接口时需要注意些什么
NodeJs——（12）添加路由
Linux系统调优详解（十二）——网卡绑定技术
rust字符串的slice
MySQL运维---客户端与服务器模型
Angular self study 3 - data binding
One order text browser tool
运行caffe自带的mnist实例教程
@RabbitListener组合注解消费消息
GSM系统的空中接口
使用Visual Studio调试Core Dump
数据库中的事务是什么?
Database specific hint in One order search
社会工程学框架

相关主题

scrapy 教程
python scrapy
scrapy爬虫框架
爬虫框架scrapy
Scrapy安装
Python之scrapy框架
python 爬虫 scrapy
Python爬虫框架Scrapy
scrapy中的request
Scrapy爬虫
Scrapy 安装

zl程序教程

当前栏目

scrapy 下载器中间件随机切换user-agent

相关文章

当前栏目

scrapy 下载器中间件 随机切换user-agent

相关文章

scrapy 下载器中间件随机切换user-agent