十季剧集数据分析,《老友记》中的C位原来是TA!
大数据文摘出品
编译:Ivy、睡不着的iris、魏子敏
距《老友记(Friends)》***一集播出至今已有13年之久,但人们对它热情几乎未减分毫。至少文摘菌每次吃饭的时候都会随机选择一集《老友记》佐饭。
来自印度的数据科学家Yashu Seth也是资深《老友记》粉丝,一次观看中,他开始思索,到底谁才是《老友记》中真正的主角?
是有情人终成眷属的Ross 和Rachel 吗?是讽刺幽默的Chandler 吗?是洁癖星人Monica吗?是妇女之友Joey吗?还是我们最喜欢的歌手Phoebe?
一千个读者就有一千个哈姆雷特,每个人对于谁是主角都有不同的答案。但是,我们可以利用数据分析出,到底是谁站在《老友记》中的C位!
为了确定这个问题的答案,Yashu Seth从GitHub中下载了《老友记》十季的剧集对白,并且用不同的参数来找出这六个人中谁是最突出的。
整个分析是使用R语言完成的,因为要涉及到将原始的对白文件转换成结构化的表格形式,然后再进行探索性的数据分析。
你可以在GitHub中找到源代码:https://github.com/yashu-seth/friends-analysis-blog
首先,让我们看看每个人的台词。我们无法得到每个角色在屏幕中实际出现的时间,但每个人的台词量可以作为一个合理的估算标准,所以究竟是哪位朋友的台词最多呢。
Rachel 和Ross 都有9千多句台词,他们两的戏份差不多。 Phoebe 说的最少,只有7400句。Chandler,Monica 和Joey 的台词量几乎相同。接下来,让我们再来看看每一季每个人的台词量。
这张图给我的直观感受就是,编导均衡分配六个朋友的台词。 Ross 在前三季和***一季的台词数最多,剧中这几季是Ross-Rachel的感情线发展的***的时候,所以Ross台词最多有没有可能是这个原因呢?
Chandler 在第四季和第六季中拥有最多的台词,而Joey在第五季以小优势击败了他。Rachel 主宰着第七季到第九季,在几乎所有的剧集里,Monica在六人中都有超过半数人的台词量。
好几季中,Phoebe的台词量都最少。但她依旧用她自己的方式让我们爱上了她,难道不是吗?
既然我们已经看了台词的数量,接下来再看看所说的单词数量是否也有相同的分布。
可以看出,单词的数量或多或少遵循相同的分布。那么现在谁处于上位呢?Ross 和Rachel之间的竞争很激烈啊。
现在,让我们来看看他们出现在荧屏上的次数,这里我假定一个角色只有在有台词的情况下才算在屏幕中出现。
数据结果非常有趣,Chandler在银幕上出现的次数最多 ,出场次数高达1400多。Ross 和Rachel 的出场次数也不少,分别是1330次和1370次。Phoebe依旧是小可怜,出现的次数最少。
单人出场次数也是一个很好的参考指标。在这一部分中,我假定六个角色中只有一人出场的场景,此处包含其他配角的场景也计算在内。
这种情况下,Ross 显然是赢家,这一次Rachel 与他差了一大截。
***,我们来分析一下他们在剧集标题中到底被提到过多少次。
这次Rachel 是冠军,她总计被提到27次,排名第二的为Ross,他被提到24次。Monica 被提到次数最少,一共只提到过8次。
分析结论
让我们来快速回顾一下。
- Rachel 和Ross 的台词数量最多,并且两人之间的差异微不足道。单词数量的情况与台词量类似。
- Chandler 在银幕上的出场次数最多,Rachel 和Ross 的出场次数也处于上位。
- Ross 显然是个人银幕出现次数最多的赢家,Rachel与他的差了一大截 。
- Rachel 在剧集标题中提到的次数最多,但Ross只落后了3集。
Ross 和Rachel的地位真的很接近,但是Ross 在个人场景中的表现大大超过了Rachel ,因为他们在其他参数上差异很小,所以我必须把C位给Ross。
做《老友记》的数据分析真的很有趣,我发现了一些你可能会感兴趣的其他事实。
- 整个系列有一个场景只有Ross、Monica、Joey和Phoebe 在场,没有Chandler、Rachel 和其他人。这段插曲属于“The One with the Blackout”,当时Chandler 被困在自动取款机的柜台中。
- Chandler 和Joey作为一对,在银幕上的出现次数最多。
- 除了6个主要角色外,Gunther的银幕出现次数最多。
- 在所有场景中,Central Perk占16%左右,Monica的公寓占26%。
- Phoebe在Central Perk中的露面次数比其他任何人都多。场景为Central Perk时,大约三分之二的剧情里都能看到Phoebe。
毋庸置疑,Monica在她公寓拍摄的场景中出现的次数最多,其次是Chandler和Rachel。
当然抛开数据分析,我们也想知道,你心中的老友记C位到底是谁呢?
相关报道:https://yashuseth.blog/2017/12/29/data-analysis-lead-character-of-friends-data-science/
【本文是51CTO专栏机构大数据文摘的原创译文,微信公众号“大数据文摘( id: BigDataDigest)”】
相关文章
- 新增功能 – 使用标签策略跨多个 AWS 账户管理标签
- 宣布推出适用于 AWS WAF 的 AWS 托管规则
- 联合身份新增功能 – 在 AWS 中使用员工属性实施访问控制
- 使用 Amazon EMR 6.0.0(测试版)在 Docker 上运行 Spark 应用程序
- EMR Notebooks: 基于 Jupyter Notebook 的托管分析环境
- Amazon Elastic Container Registry 中的 EventBridge 支持
- 通过倾听客户的意见来改善容器
- 新增功能 – 将单区域 Amazon DynamoDB 表转换为全局表
- java rmi 详解
- 将一个应用程序的日志拆分为多个流:Fluent 教程
- 欢迎参与 AWS 存储日
- 新增功能 – Amazon EBS 快速快照恢复 (FSR)
- Amazon FSx For Windows File Server 更新-多可用区、新的企业就绪功能
- S3 复制更新:复制 SLA、指标和事件
- 使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能
- 在 Amazon EMR 上使用 S3DistCp 在 HDFS 和 Amazon S3 之间高效迁移数据的七个技巧
- 使用 AWS License Manager 跟踪您的 Microsoft SQL Server 许可证
- 新增功能 – 使用 Step Functions 协调 Amazon EMR 工作负载
- Service Broker 在 AWS 中国区的落地
- 使用阻止公有访问配置保护您的 Amazon EMR 集群免受意外网络攻击