您现在的位置是：首页 > 后端

当前栏目

利用爬虫解决公众号阅读的一个小障碍

爬虫解决利用一个阅读公众障碍

2023-06-13 09:15:42 时间

在这个各种短视频爆红的时代，很多人已经把微信公众号丢弃了，不过我还是比较喜欢看公众号的，有时遇到一个感兴趣的公众号时，都会感觉相逢恨晚，想一口气看完所有历史文章。但是微信的阅读体验挺不好的，看历史文章得一页页的往后翻，下一次再看时还得重复操作，很是麻烦。
于是便想着能不能把某个公众号所有的文章都保存下来，这样就很方便自己阅读历史文章了。刚好自己又是做数据采集工作的，那这件事还不简单吗？
今天就跟大家分享下通过使用 Python 脚本获取公众号所有历史文章数据，获取公众号号数据是有以下3个步骤：
1 使用 Fiddler 抓取公众号接口数据
2 使用 Python 脚本获取公众号所有历史文章数据
3 保存历史文章
今天就重点分享下使用 Python 脚本获取公众号所有历史文章数据，这里重点提一下，网站封ip比较严重，所以需要提前准备好高质量代理，不然就采集不到数据啦。
今天的代码示例如下：
` #! encoding:utf-8

import requests

import random

# 要访问的目标页面

targetUrl = "https://mp.weixin.qq.com/"

# 要访问的目标HTTPS页面

# targetUrl = "https://mp.weixin.qq.com/"

# 代理服务器(产品官网 www.16yun.cn)

proxyHost = "t.16yun.cn"

proxyPort = "31111"

# 代理验证信息

proxyUser = "username"

proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {

 "host" : proxyHost,

 "port" : proxyPort,

 "user" : proxyUser,

 "pass" : proxyPass,

# 设置 http和https访问都是用HTTP代理

proxies = {

 "http" : proxyMeta,

 "https" : proxyMeta,

# 设置IP切换头

tunnel = random.randint(1,10000)

headers = {"Proxy-Tunnel": str(tunnel)}

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code

print resp.text`

采集到的数据我们保存下来经过处理就可以啦，那么关于用python爬取公众号的方法就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

原创文章，作者：ItWorker，如若转载，请注明出处：https://blog.ytso.com/52987.html

python

猜你喜欢

Oracle事务控制语句实现数据安全事务处理（oracle事物控制语句）
清华软件论坛 | DeepMind研究科学家李宇佳分享“AlphaCode：编程竞赛级的程序自动生成”
深入解析 Oracle 触发器类型（oracle触发器类型）
掌握Oracle SQL函数：一步一个脚印（oraclesql函数）
Linux LL命令详解：揭示文件系统隐藏信息（linux的ll命令详解）
Maven 入门教程
关于Github CC-attack脚本实测
Linux下安装显卡驱动指南（linux装显卡驱动）
ORA-15454: ALTER DISKGROUP ALL cannot use single volume names ORACLE 报错故障修复远程处理
一份研究发现到2050年实现深度脱碳目前是不可能的
Oracle默认排序顺序定义你的数据（oracle默认排序）
睿智谨慎：mssql数据安全备份高效方案（睿备份+mssql备份）
Linux服务器克隆：快速、简便且高效的服务器部署方案（linux服务器克隆）
再论CVE-2014-7911安卓序列化漏洞
web安全——XSS跨站脚本攻击

zl程序教程

当前栏目

利用爬虫解决公众号阅读的一个小障碍

相关文章