微博爬虫解决 Meiko 之问,冠军皮肤选猫咪还是选露露呢
2023-03-14 22:40:14 时间
S11 结束了,EDG 牛逼就完事了。
作为 Meiko 十年老粉,我看到他发了这样一条微博:
所以是选露露还是猫咪呢?广大网友在评论区讨论得不亦乐乎。
我突然灵光一闪,可以用爬虫把这些评论抓取下来,提取每一条评论中的包含露露、猫咪等英雄的关键词,每一条评论出现某一个英雄的关键词 vote 就 + 1,然后可视化出来大家都想选啥英雄,说干就干。昨晚下班后熬夜干到快 12 点,终于 done 了。
差不多把这 3 w条评论全部抓取下来了,评论数据时间是截止 2021.11.11 晚上 11 点。
然后就是抽取分析统计了,核心的统计代码如下:
if '猫咪' in comment_content or '猫' in comment_content:
vote_dict['猫咪'] = vote_dict.get('猫咪', 0) + 1
elif '露露' in comment_content or '璐璐' in comment_content:
vote_dict['露露'] = vote_dict.get('露露', 0) + 1
elif '娜美' in comment_content:
vote_dict['娜美'] = vote_dict.get('娜美', 0) + 1
else:
vote_dict['其他'] = vote_dict.get('其他', 0) + 1
因为有一些网友可能会把露露打成璐璐,把猫咪只写成猫,所以做了一些边界 case 处理。
还有一种情况是如果评论内容同时包含露露和猫咪这两个关键词,是给露露投票还是给猫咪投票呢?我测试发现,确实有这种评论,但是只有几条,可以忽略,就不单独处理了。
把各英雄的投票数可视化如下:
最后对评论投票粉丝的性别比例做了个统计,果然是女粉多哈哈~。
相关文章
- 在 Go 里用 CGO?这 7 个问题你要关注!
- 9款优秀的去中心化通讯软件 Matrix 的客户端
- 求职数据分析,项目经验该怎么写
- 在OKR中,我看到了数据驱动业务的未来
- 火山引擎云原生大数据在金融行业的实践
- OpenHarmony富设备移植指南(二)—从postmarketOS获取移植资源
- 《数据成熟度指数》报告:64%的企业领袖认为大多数员工“不懂数据”
- OpenHarmony 小型系统兼容性测试指南
- 肯睿中国(Cloudera):2023年企业数字战略三大趋势预测
- 适用于 Linux 的十大命令行游戏
- GNOME 截图工具的新旧截图方式
- System76 即将推出的 COSMIC 桌面正在酝酿大变化
- 2GB 内存 8GB 存储即可流畅运行,Windows 11 极致精简版系统 Tiny11 发布
- 迎接 ecode:一个即将推出的具有全新图形用户界面框架的现代、轻量级代码编辑器
- loongarch架构介绍(三)—地址翻译
- Go 语言怎么解决编译器错误“err is shadowed during return”?
- 敏捷:可能被开发人员遗忘的部分
- Denodo预测2023年数据管理和分析的未来
- 利用数据推动可持续发展
- 在 Vue3 中实现 React 原生 Hooks(useState、useEffect),深入理解 React Hooks 的