python如何通过分布式爬虫爬取舆情数据
2023-06-13 09:18:17 时间
作为爬虫,有时候会经历过需要爬取站点多吗,数据量大的网站,我们身边接触最频繁、同时也是最大的爬虫莫过于几大搜索引擎。今天我们来聊一个同样是站点多数据量的爬取方向,那就是舆情方向的爬虫。
一般的爬虫是在一台机器上进行爬取某个网站的数据,分布式爬虫是多台机器上同时爬取某个网站的数据。无论是舆情方向的爬虫还是电商方向的爬虫,要承担的爬取量都是非常大的。少则每日百万数据,多则每日数十亿数据,因此分布式爬虫对这种大型数据的爬取很适用。
但是这些网站可不会轻易让你爬取站点上面的内容,它们往往会从网络协议、浏览器特征、编程语言差异、人机差异等方面给爬虫工程师设置障碍,常见的有滑块验证码、拼图验证码、封 IP、检查 COOKIE、要求登录、设定复杂的加密逻辑、混淆前端代码等。不过水来土掩、兵来将挡!爬虫工程师与目标网站的工程师你来我往的过招就像兵家尔虞我诈一般精彩,就如最常见的封IP,做为爬虫工程师来说,一份优质爬虫代理就简单的解决了这个障碍,但是这种大型的网站和数据建议使用产品质量好,技术支持到位,售后服务到位的代理商。这里简单分享下代理IP在分布式爬虫中的实现过程:
#! -*- encoding:utf-8 -*-
import requests
import random
# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"
# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text
相关文章
- Python "爬虫"出发前的装备之二数据先行( Requests 模块)
- python电脑版微信-微信PC版的API接口 | 可通过Python调用微信功能
- Python - 手把手教你用Scrapy编写一个爬虫
- python安装不了whl文件_Python安装whl文件过程图解
- Python爬虫系列:爬取小说并写入txt文件
- python爬虫—–Python访问http的几种方式「建议收藏」
- Python – 0b、0o、0x
- python爬虫之BeautifulSoup4使用
- Python抓取数据_python抓取游戏数据
- Python: “股票数据Scrapy爬虫”实例
- 【说站】如何用python绘制彩色蟒蛇
- 【说站】python Fixture模块级的使用
- python修改第三方库重写_对Python第三方库,再次封装
- selenium+webdriver_python爬虫安装
- 使用Python批量实现某一Excel文件中每3行数据存一个Excel文件
- Python爬虫 | 美国特斯拉充电桩位置信息(含经纬度)爬取
- 谁说只有Python才能写爬虫了?Javaer转身甩出这个框架:给爷爬!
- Python 爬虫进阶必备 | 某策网数据返回值 data 解密逻辑分析
- 通过Python爬虫获取【小说网站GUI】数据,保姆级教学
- python-Python与MongoDB数据库-使用Python执行MongoDB查询(一)
- 简单的电子邮件爬虫Python代码详解编程语言
- Python 获取CentOS主机信息详解编程语言
- Python学习:6.python内置函数详解编程语言
- Python urllib2爬虫爬取图片下载
- 使用Python连接SQL Server数据库(python连接sqlserver)
- 零基础写python爬虫之爬虫编写全记录