您现在的位置是：首页 > 后端

当前栏目

Python爬虫：scrapy防止爬虫被禁的策略

Python 爬虫 scrapy 策略防止

2023-09-14 09:07:14 时间

爬虫策略:

1、动态User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息）,使用中间件

class RandomUserAgentMiddleware(object):
    def process_request(self, request, spider):
        request.headers.setdefault('User-Agent', "xxx")

2、禁用Cookies（也就是不启用cookies middleware，不向Server发送cookies，有些网站通过cookie的使用发现爬虫行为）可以通过COOKIES_ENABLED 控制 CookiesMiddleware 开启或关闭

# 禁用cookies，防止某些网站根据Cookie来封锁爬虫。
COOKIES_ENABLED = False

3、 延迟下载（防止访问过于频繁，设置为 2秒或更高）

# 设置下载延迟
DOWNLOAD_DELAY = 3

4、 缓存数据 Google Cache 和 Baidu Cache：如果可能的话，使用谷歌/百度等搜索引擎服务器页面缓存获取页面数据。

5、IP地址池：VPN和代理IP，现在大部分网站都是根据IP来ban的。

class RandomProxyMiddleware(object):
    def process_request(self, request, spider):
        request.meta["proxy"] = "127.0.0.1:8888"

6、 Crawlera（专用于爬虫的代理组件），正确配置和设置下载中间件后，项目所有的request都是通过crawlera发出。

DOWNLOADER_MIDDLEWARES = {
    'scrapy_crawlera.CrawleraMiddleware': 600
}

CRAWLERA_ENABLED = True
CRAWLERA_USER = '注册/购买的UserKey'
CRAWLERA_PASS = '注册/购买的Password'

参考

爬虫框架Scrapy之Downloader Middlewares
下载器中间件(Downloader Middleware)

猜你喜欢

PHP获取数组中重复最多的元素的实现方法
javascript去字符串空格终极版(支持utf8)
一文带你了解激光雷达重要指标及参数
如何设置eclipse代码自动补全「建议收藏」
MySQL数据库中的日期格式研究（mysql数据库日期格式）
Java中Oracle使用实践（java中oracle题）
展现Redis的强大究竟有哪些通道（redis通道有哪些）
日志Linux查看系统日志：轻松解决难题（linux查看系统）
mysqllimit查询优化分析
如何在命令行启动MySQL服务（命令行如何启动mysql）
JS用户界面事件（UI事件）
STM8S之STVD问题解决47 can’t openfile crtsi0.sm8「建议收藏」
ORA-00484: LMS* process terminated with error ORACLE 报错故障修复远程处理
［转］iOS证书(.p12)和描述文件(.mobileprovision)申请
如何拍摄一张航拍全景图及全景图片制作教程
java数组转换为List注意地方详解编程语言
Oracle 视图 DBA_ROLLING_STATUS 官方解释，作用，如何使用详细说明
深入剖析Oracle 11索引功能（oracle11索引）
mysql8.0.27配置步骤以及注意事项

相关主题

Python爬虫基础1
python 基础
python简单爬虫
python指令
python 爬虫笔记
Python是真的火

zl程序教程

当前栏目

Python爬虫：scrapy防止爬虫被禁的策略

相关文章