我用Python爬了22440条热门短评,告诉你网播60亿的《猎场》到底值不值得看?
11月6日,湖南卫视已经开播被称作年度***的大戏“猎场”,迅速占领各大榜单,成为一部高热度的电视剧,但是在豆瓣上却形成了两极分化。
截止到11月26日,该剧在豆瓣上的评分为6.1分。相比较胡歌之前《琅琊榜》的9.1,《伪装者》的8.3等来说,这一评分确实不高。
有趣的是,首页的评分比例与“短评”“剧评”的比例存在非常大的差异!
首页总评分评分两级分化严重,“差评”占主在目前11463个评价中两级分化严重,“1星”占比***为28.6%,其次为“5星”的25.4%。
“好评”(5星、4星)占比为 35.80%,“一般”(3星)为16.50%,“差评”(2星、1 星)占比为47.80%。很明显,“差评”占了接近一半的比例。
《猎场》豆瓣评分占比分布在短评和剧评中的另一种景象:首页的豆瓣评分中“差评”占比很高,但是在豆瓣的短评和剧评中却是另一番天地。
在目前5979条短评中,“好评”占比 71%,“一般”为5%,“差评”占比24%。而在392条剧评中,“5星”占了非常高的比例!84.7%的剧评给了“好评”。
《猎场》剧评评分分布:我们将三个位置的评分放在一起比较就会出现非常明显的差异。
根据这个差异,我们可以大致判断:写出短评或者剧评的观众大部分给予了“好评”,但仍有大量观众直接给了差评,并没有说明任何原因。
当然,我们并没有考虑那些不写评论,而只是点“有用”和“没用”观众。
才刚刚上映不久,剧情还在慢慢的铺,所以现在给整部剧下定论还太早。
《猎场》到底好不好看?我们还是想通过以 11月8日为界,看看短评人的情绪,是积极,还是消极。利用词云看看大家都说了什么,希望能给大家就是否建议观看给出建议。
爬取《猎场》热门短评
豆瓣的反爬虫做的比较好,不登录爬虫很快就会被屏蔽掉,登录后获取cookies如下:
同时建议在循环抓取的时候进行sleep,例如:
time.sleep(1 + float(random.randint(1, 100)) / 20)
《猎场》热门短评内容和时间爬取了22440条评论,代码如下:
对数据进行清洗
样本数量:
情感分析和词云
对热门短评基于原有SnowNLP进行积极和消极情感分类,读取每段评论并依次进行情感值分析,***会计算出来一个0-1之间的值。
当值大于0.5时,代表句子的情感极性偏向积极;当分值小于0.5时,情感极性偏向消极,当然越偏向两边,情绪越偏激。
情感分析代码:
2017-11-06 – 2017-11-08情感分析
从上图情感分析来看,影评者还是非常积极的,对《猎场》的期望很高。
2017-11-09 – 2017-11-17 情感分析
从上图情感分析来看,积极的情绪已经远远超过消极的情绪,还是受到大家的好评。
生成词云代码:
2017-11-06 – 2017-11-08词云分析
2017-11-09 – 2017-11-17词云分析
从词云上来看,出现好看、剧情、期待、喜欢等词。
总结
词云的背景是胡歌,大家看出来了嘛?目前豆瓣的分数已经是 6.1分,目前剧情过半,相信接下来会更精彩,个人认为分数会在7.5 分以上。
抛开豆瓣的推荐分数,通过热门短评的情感和词云分析,《猎场》是一部不错的现实剧,剧情犀利、深刻、启迪,很多人期待。如果您有时间,不妨看一下,或许能收获一些意想不到的东西。
作者:布道,大型互联网公司运维技术负责人,拥有10 年的互联网开发和运维经验。一直致力于运维工具的开发和运维专家服务的推进,赋能开发,提高效能。***给自己代个盐~~欢迎大家有空时翻下我牌子,看看之前的文章,再点个赞呗。顺便关注下专栏“开发运维”。
相关文章
- 图像处理工具Python扩展库,你了解吗?
- 十个常用的损失函数解释以及Python代码实现
- 30 个数据科学工作中必备的 Python 包
- 如何在 Windows 上安装 Python
- 几行 Python 代码就可以提取数百个时间序列特征
- 使用Python快速搭建接口自动化测试脚本实战总结
- 哪种编程语言最适合开发网页抓取工具?
- 不要在 Python 中使用循环,这些方法其实更棒!
- 震惊!用Python探索《红楼梦》的人物关系!
- 如何最简单、通俗地理解Python模块?
- 酷炫,Python实现交通数据可视化!
- 为什么急于寻找Python的替代者?
- 30 个数据工程必备的Python 包
- 去字节面试被面这题能答上来吗?谈谈你对时间轮的理解?
- 火山引擎在行为分析场景下的 ClickHouse JOIN 优化
- 用Python爬取了某宝1166家月饼数据进行可视化分析,终于找到最好吃的月饼~
- 在 Linux 上试试这个基于 Python 的文件管理器
- Python列表解析式到底该怎么用?
- 如何快速把你的 Python 代码变为 API
- 十个Python初学者常犯的错误