利用爬虫解决公众号阅读的一个小障碍
爬虫 解决 利用 一个 阅读 公众 障碍
2023-06-13 09:15:42 时间
在这个各种短视频爆红的时代,很多人已经把微信公众号丢弃了,不过我还是比较喜欢看公众号的,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章。但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦。
于是便想着能不能把某个公众号所有的文章都保存下来,这样就很方便自己阅读历史文章了。刚好自己又是做数据采集工作的,那这件事还不简单吗?
今天就跟大家分享下通过使用 Python 脚本获取公众号所有历史文章数据,获取公众号号数据是有以下3个步骤:
1 使用 Fiddler 抓取公众号接口数据
2 使用 Python 脚本获取公众号所有历史文章数据
3 保存历史文章
今天就重点分享下使用 Python 脚本获取公众号所有历史文章数据,这里重点提一下,网站封ip比较严重,所以需要提前准备好高质量代理,不然就采集不到数据啦。
今天的代码示例如下:
` #! encoding:utf-8
import requests import random # 要访问的目标页面 targetUrl = "https://mp.weixin.qq.com/" # 要访问的目标HTTPS页面 # targetUrl = "https://mp.weixin.qq.com/" # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text`
采集到的数据我们保存下来经过处理就可以啦,那么关于用python爬取公众号的方法就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/52987.html
python相关文章
- python 爬虫 通过搜索引擎搜索好看的图片进行多线程高效率爬取(解决href关联问题)
- 学习爬虫之Scrapy框架学习(六)–1.直接使用scrapy;使用scrapy管道;使用scrapy的媒体管道类进行猫咪图片存储。媒体管道类学习。自建媒体管道类存储图片
- Python爬虫——爬取王者荣耀全英雄台词语音
- 精通Python爬虫框架Scrapy_php爬虫框架哪个好用
- 爬虫练习题(五)
- 爬虫常用正则表达式
- Python爬虫设置静态IP代理服务报错什么原因?如何解决?
- 使用动态IP代理进行爬虫业务时遇到反爬措施如何解决?
- java搜索引擎爬虫,抓取url示例详解编程语言
- Python + PyQt5 实现美剧爬虫可视工具详解编程语言
- 构建基于redis分布式爬虫系统(基于redis分布式爬虫)
- 零基础写Java知乎爬虫之先拿百度首页练练手
- Nginx限制搜索引擎爬虫频率、禁止屏蔽网络爬虫配置示例