【开放源代码】集齐转评赞!微博点赞详细信息抓取
2023-03-14 22:40:09 时间
微博的转评赞都是构成微博社交关系网络的重要组成部分,其中转发和评论都在之前的推送中发布过。
今天就来补齐赞的信息,并开放源代码,以李医生的最后一条微博为例子。
其URL地址为:
https://m.weibo.cn/detail/4467107636950632#attitude
抓取保存的 csv 格式如下:
其中 lid 为微博赞的 id,user_verfied_type 为给该微博点赞的用户的认证类型,-1 就是没用认证,普通用户。其他认证类型的对应关系如下:
verified_dict = {
-1: '普通用户',
0: '名人',
1: '政府',
2: '',
3: '媒体',
220: ''
}
遗憾的是,测试发现,一条微博暂时只能抓到的赞上限在 3000,按照当前的时间线往前回溯的。
本次抓取是针对 m.weibo.cn 的,其接口是
https://m.weibo.cn/api/attitudes/show
打开
https://m.weibo.cn/detail/4467107636950632#attitude
就能看到,并获取它的登录后的 cookie
初始化时指定id的微博 wid,起始抓取页码 page, cookie 等信息
def __init__(self, wid, page=1, cookie=None, proxies=None):
self.wid = wid
self.page = page
if cookie:
self.cookie = cookie
self.proxies = proxies
self.initConfig()
self.got_likes = []
self.got_likes_num = 0
self.written_likes_num = 0
if not os.path.exists(self.like_folder):
os.mkdir(self.like_folder)
self.result_file = os.path.join(self.like_folder, f'{self.wid}.csv')
然后这样就能 run 起来了
if __name__ == '__main__':
WeiboLikeSpider(wid='4467107636950632', cookie='你的 cookie').run()
主要可供修改的配置信息如下:
# 每个 request 休眠 8 s
slp_sec_per_req = 8
# 每个 request 连接超时 8 s
timeout = 8
# 每翻 5 页保存一次
save_per_n_page = 5
# 结果 csv 文件所在的文件夹
like_folder = 'like'
相关文章
- Linux 下使用Trickle限制下载/上传带宽
- API时代,每个人都能拥有阿凡达,天了撸!
- 戴文的Linux内核专题:11 配置内核(7)
- 戴文的Linux内核专题:13 配置内核(9)
- TeamViewer 9发布-在Linux下安装运行
- 【新人报道】如何快速正确搭建一个网站?
- 十一个鲜为人知的 Linux 命令 - Part 1
- 15分钟学会使用Git和远程代码库
- Linux date命令 - 显示和设置系统日期与时间
- 成为 Linux 终端高手的七种武器
- 每日 Ubuntu 小技巧 - 更改 Ubuntu 使用语言
- Linux mpstat 命令- 报告处理器的相关统计信息
- Linux系统 whoami 命令 – 知晓当前登录用户
- 在openSUSE 13.1中配置FTP服务器
- netstat 的10个基本用法
- 重要通知 | 比特币勒索席卷全球,如何防范?
- R语言数据挖掘
- Linux下Nagios的安装与配置
- 在 CentOS 6.4(64位) 安装 docker.io
- 暗渡陈仓:用低功耗设备进行破解和渗透测试