您现在的位置是：首页 > 后端

当前栏目

18. python爬虫——基于scrapy框架设置下载器中间件中的UA伪装和代理IP

Python 代理爬虫 scrapy 中间件下载框架 IP

2023-09-11 14:20:02 时间

中间件

下载中间件
1. 位置：引擎和下载器之间
2. 作用：批量拦截到整个工程中所有的请求和响应
3. 拦截请求：
  （1）UA伪装：process_request
  （2）代理IP设定：process_exception:return request
4. 拦截响应：
  篡改响应数据，响应对象

【前期准备】

创建工程文件：
scrapy startproject middlePro

创建spiders：
scrapy genspiders middle www.xxx.com

文件结构如下：
在这里插入图片描述

代码部分

中间件文件
更改middlewares.py为

import random

class MiddleproDownloaderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.
    user_agent_list = [
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "
        "(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
    ]
    PROXY_http = [
        '153.180.102.104:80',
        '195.208.131.189:56055',
    ]
    PROXY_https = [
        '120.83.49.90:9000',
        '95.189.112.214:35508',
    ]
    #拦截请求
    def process_request(self, request, spider):
        #UA伪装
        request.headers['User-Agent'] = random.choice(self.user_agent_list)

        #为了验证代理的操作是否生效
        request.meta['proxy'] = 'http://183.146.213.198:80'
        return None
    #拦截所有的响应
    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response
    #拦截发生异常的请求
    def process_exception(self, request, exception, spider):
        if request.url.split(':')[0] == 'http':
            #代理
            request.meta['proxy'] = 'http://'+random.choice(self.PROXY_http)
        else:
            request.meta['proxy'] = 'https://' + random.choice(self.PROXY_https)

        return request  #将修正之后的请求对象进行重新的请求发送

数据：需要UA池、http、https代理列表
方法：拦截请求（process_request）、拦截所有的响应（process_response）、拦截发生异常的请求（process_exception）

更改settings.py为

ROBOTSTXT_OBEY = False

DOWNLOADER_MIDDLEWARES = {
   'middlePro.middlewares.MiddleproDownloaderMiddleware': 543,
}

从而开启配件

更改middle.py为

import scrapy


class MiddleSpider(scrapy.Spider):
    #爬取百度
    name = 'middle'
    # allowed_domains = ['www.xxxx.com']
    start_urls = ['http://www.baidu.com/s?wd=ip']

    def parse(self, response):
        page_text = response.text

        with open('./ip.html','w',encoding='utf-8') as fp:
            fp.write(page_text)

将结果保存至本地

猜你喜欢

win10开机右下角网络图标突然变成小地球，显示无internet连接，但是可以正常上网
NLP模型笔记2022-01:浅谈语言模型
分布式数据库DDM Sidecar模式负载均衡
用 Python 和 Gensim 库进行文本主题识别
go gin框架：PostFormArray接收数组类请求参数
go语言笔记——指针，和C用法以及本质一样，但不支持指针的+-运算！
早安Visual Studio！一次重构之旅，夏洛特烦恼
centos8上安装openresty
使用metasploit自带模块进行端口扫描
八大排序算法总结
( “树” 之 DFS) 572. 另一棵树的子树 ——【Leetcode每日一题】
TBS 手册 --phpv 翻译
告别递归，连刷40道题，谈谈我的经验
paip.jdk1.4 1.5(5.0) 1.6(6.0) 7.0 8.0特点比较与不同
D3DXMatrixOrthoLH 函数
GeoServer发布shapfile字段名和值乱码问题解决
ubuntu服务器php7.2启用mysqli（不用reboot超简单）
Http服务器实现文件上传与下载(五)

相关主题

Python代理使用
PYTHON小CASE

zl程序教程

当前栏目

18. python爬虫——基于scrapy框架设置下载器中间件中的UA伪装和代理IP

中间件

【前期准备】

代码部分

相关文章