您现在的位置是：首页 > 后端

当前栏目

第三百四十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—cookie禁用、自动限速、自定义spider的settings，对抗反爬机制

Python 爬虫 scrapy 自动分布式 Cookie 分布式自定义

2023-09-14 08:58:24 时间

第三百四十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—cookie禁用、自动限速、自定义spider的settings，对抗反爬机制

cookie禁用

就是在Scrapy的配置文件settings.py里禁用掉cookie禁用，可以防止被通过cookie禁用识别到是爬虫，注意，只适用于不需要登录的网页，cookie禁用后是无法登录的

settings.py里禁用掉cookie禁用

COOKIES_ENABLED = False 禁用cookie

# Disable cookies (enabled by default)
COOKIES_ENABLED = False

自动限速

Scrapy默认没有限速的，只要遇到URL就访问，没有间隙

自动限速(AutoThrottle)扩展

settings.py里设置

DOWNLOAD_DELAY = 下载器在下载同一个网站下一个页面前需要等待的时间。该选项可以用来限制爬取速度，减轻服务器压力。同时也支持小数（单位秒）

# Configure a delay for requests for the same website (default: 0)
# See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs
DOWNLOAD_DELAY = 10

AUTOTHROTTLE_ENABLED = True 开启限速，启用AutoThrottle扩展

# Enable and configure the AutoThrottle extension (disabled by default)
# See http://doc.scrapy.org/en/latest/topics/autothrottle.html
AUTOTHROTTLE_ENABLED = True

自定义spider的settings，也就是为每一个爬虫单独设置配置文件里的值，将覆盖掉settings.py里的相同设置

custom_settings = {键值对} 为每一个爬虫单独设置配置文件里的值，将覆盖掉settings.py里的相同设置，在爬虫文件里设置

举例：

# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest

class PachSpider(scrapy.Spider):                            #定义爬虫类，必须继承scrapy.Spider
    name = 'pach'                                           #设置爬虫名称
    allowed_domains = ['www.kuaidaili.com']                 #爬取域名

    custom_settings = {
        "COOKIES_ENABLED": True                             #覆盖掉settings.py里的相同设置，开启COOKIES
    }

    def start_requests(self):    #起始url函数，会替换start_urls
        """第一次请求一下登录页面，设置开启cookie使其得到cookie，设置回调函数"""
        return [Request(
            url='http://www.kuaidaili.com/free/inha/2/',
            meta={'cookiejar':1},       #开启Cookies记录，将Cookies传给回调函数
            callback=self.parse
        )]


    def parse(self, response):
        title = response.xpath('//*[@id="list"]/table/tbody/tr')

猜你喜欢

flask你一定要知道的上下文管理机制
PHP时间戳和日期转换
Gradle中依赖任务产生的不同输出
first head in html 笔记
C# 自己对delegate的总结和认识
Linux中Shell脚本--awk的用法
linux 多线程基础3
Sql Server强制清空所有数据表中的记录
CV之LabelImg：图片标注工具之LabelImg(图像标注工具)的简介、安装、使用方法详细攻略
oracle基本笔记整理及案例分析2
Go 变量字符串与字符编码
【大数据开发运维解决方案】Sqoop增量同步Oracle数据到hive：merge-key再次详解
【华为OD机试 2023】网上商城优惠活动 / 模拟商场优惠打折II（C++ Java Javascript Python）
谈谈 SAP 产品 UI 开发中的组件概念
【华为云技术分享】STM32L476移植华为LiteOS系列教程------背景知识 1
[Leetcode]-Min Stack

相关主题

Python爬虫
00在python中
python爬虫多url
Python之数组
python进度条
python爬虫2
[转] python-docx
Python爬虫二

zl程序教程

当前栏目

第三百四十九节，Python分布式爬虫打造搜索引擎Scrapy精讲—cookie禁用、自动限速、自定义spider的settings，对抗反爬机制

相关文章