您现在的位置是：首页 > 后端

当前栏目

python如何通过分布式爬虫爬取舆情数据

Python 爬虫数据分布式分布式如何通过爬取

2023-06-13 09:18:17 时间

作为爬虫，有时候会经历过需要爬取站点多吗，数据量大的网站，我们身边接触最频繁、同时也是最大的爬虫莫过于几大搜索引擎。今天我们来聊一个同样是站点多数据量的爬取方向，那就是舆情方向的爬虫。

一般的爬虫是在一台机器上进行爬取某个网站的数据，分布式爬虫是多台机器上同时爬取某个网站的数据。无论是舆情方向的爬虫还是电商方向的爬虫，要承担的爬取量都是非常大的。少则每日百万数据，多则每日数十亿数据，因此分布式爬虫对这种大型数据的爬取很适用。

但是这些网站可不会轻易让你爬取站点上面的内容，它们往往会从网络协议、浏览器特征、编程语言差异、人机差异等方面给爬虫工程师设置障碍，常见的有滑块验证码、拼图验证码、封 IP、检查 COOKIE、要求登录、设定复杂的加密逻辑、混淆前端代码等。不过水来土掩、兵来将挡！爬虫工程师与目标网站的工程师你来我往的过招就像兵家尔虞我诈一般精彩，就如最常见的封IP，做为爬虫工程师来说，一份优质爬虫代理就简单的解决了这个障碍，但是这种大型的网站和数据建议使用产品质量好，技术支持到位，售后服务到位的代理商。这里简单分享下代理IP在分布式爬虫中的实现过程：

#! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text

猜你喜欢

mongodb高效的读写性能让它成为优选解决方案（mongodb读写性能）
实时重置 Redis 计数器（redis 计数器清零）
工地渣土车清洗识别检测系统
会议整理 | 2023年度国内外图像图形学术会议
Linux安全防护：安全狗的存在（linux安全狗）
《Hyperledger Fabric官方文档》Hyperledger Fabric Model
一文读懂，硬核 Apache DolphinScheduler3.0 源码解析
字符串索引越界_字符串的索引和切片
深入浅出 Linux 项目实践经验（linux项目经验）
C++模板（初阶）
autotest自动化测试：Linux下使用Pylint实现（linuxpylint）
进击的巨人（有限制的DP)--------C语言—菜鸟级
探究Linux平台下炉石如何畅玩：玩转Linux炉石攻略（linux炉石）
Oracle数据安全保障之MD5加密码服务（md5密码 oracle）
PostgreSQL 42830: invalid_foreign_key 报错故障修复远程处理
Python封装底层实现原理详解（通俗易懂）
深入研习Oracle 监视命令Watch的使用（oracle中watch）
实体-联系图(ER图)_实体关系图
Linux下切换用户命令：su（linux切换用户命令）
多种数据类型SQLServer实现多种数据类型的完美组合（sqlserver包含）

zl程序教程

当前栏目

python如何通过分布式爬虫爬取舆情数据

相关文章