我分析了 6.5W 字的歌词,看到了这样的周杰伦
雷锋网(公众号:雷锋网)按:本文作者冬鑫,原文载于作者知乎专栏,雷锋网已获授权。
前一段时间分析民谣歌词的那边文章特别火,刚好在研究使用python处理数据,就也想弄个类似东西练练手。于是乎,拉上自己亲妹妹 @张小黑 就开始分工。
一、准备歌词素材歌词选择:杰伦至今的所有专辑(从最开始的 JAY 到最新的 周杰伦的床边故事 )
由于爬虫木有学会,就只能手动收集歌词。经过一系列的 google、baidu,终于找到别人整理好的歌词全集。ok,就这样歌词文件搞定了,一共也没多大,也就207K(想想周董这么多年唱的歌词大半都在这207K的txt文件里就不免有些感慨)。
这是最难的部分,产品汪只会跟程序猿们相爱相杀,哪会写代码呀!!!
没办法,硬着头皮也要写。网上goolge各种关键字,看博客,花了半天的时间,连蒙带猜,勉勉强强看懂了网上的代码示例,比着葫芦画瓢写了一点点写。
千难万险,终于写完调通,最终主要的部分一共也就12行,没有任何注释(简直乞丐版代码,根本看不出来哪里sexy ~~~~( _ )~~~~)
好,我们终于到了正文,以上都是废话,下边才是重要结论。(如果以这种方式写邮件一定会被老板打死 ♪(^∇^*) )
结论一:杰伦最喜欢的唱的主题 情歌 (我自己也知道这是废话 O(∩_∩)O)
拉了下出现频率 top20 的词语,满满的都是文艺、伤感、爱情 :
我们 / 怎么 / 没有 / 微笑 / 离开 / 爱情 / 回忆 / 不要 / 开始 / 如果 / 怎么 / 开始
我擦,感觉随机排列组合都能成歌词,方文山以后是不是就可以下岗了 ♪(^∇^*)
结论二:杰伦喜欢妈妈胜过爸爸,喜欢外婆胜过爷爷以及外公(歌词中没有出现奶奶)
大家应该都听过 听妈妈的话 。
杰伦专门为外婆写了一首歌 外婆 ,其中也就1句歌词提到了外公。
至于爷爷,杰伦也有那首 爷爷泡的茶
结论三:杰伦喜欢黑色、白色胜过其他颜色
很符合周董的形象,歌词里高大上的黑色 白色力压其他颜色。看到黑白两色频率这么高,我第一时间想到的是 以父之名 ,感觉很符合那个气质。还有就是青色出现了6次,大概率是因为 青花瓷 吧。
结论四:杰伦最喜欢的语气词是 oh~
毋庸置疑,杰伦最喜欢 oh~ ,排除大小写的因素,[oh] 出现的频率甚至超过 [我们] 成为出现词频最高的词汇。此外杰伦经典的 哎呦不错哦~ 中的 [哎呦] 也名列前茅,看来杰伦真的很喜欢讲这句话。
总结:只是从歌词来看,大概杰伦就是一个穿着黑白帽衫,表面上酷酷的,但是骨子里满是深情、文艺, 只喜欢喝爷爷泡的茶,听妈妈的话,爱自己外婆的 ,嘴里时不时地冒出一句‘哎呦,不错哦’ 的 五好青年 ^_^
注:以上内容纯属胡说八道,如有雷同,纯属巧合。
另,头图不是 python 生成,是使用一个国外的网站(wordart)生成的。文章中使用的分词代码、歌词文本、头图已通过有道云笔记分享(文章末尾有链接),内容如下:
有道云笔记链接:http://t.cn/RaICFIV
TensorFlow 神经网络算法高级应用班” 要开课啦!从初级到高级,理论 + 实战,一站式深度了解 TensorFlow!
本课程面向深度学习开发者,讲授如何利用 TensorFlow 解决图像识别、文本分析等具体问题。课程跨度为 10 周,将从 TensorFlow 的原理与基础实战技巧开始,一步步教授学员如何在 TensorFlow 上搭建 CNN、自编码、RNN、GAN 等模型,并最终掌握一整套基于 TensorFlow 做深度学习开发的专业技能。
两名授课老师佟达、白发川身为 ThoughtWorks 的资深技术专家,具有丰富的大数据平台搭建、深度学习系统开发项目经验。
时间:每周二、四晚 20:00-21:00
开课时长:总学时 20 小时,分 10 周完成,每周 2 次,每次 1 小时
线上授课地址:http://www.mooc.ai/
雷锋网(公众号:雷锋网)相关阅读:
不再收费!MapD数据库开源,过来人指点如何上手
你和真正的数据科学究竟差在哪里
雷锋网版权文章,未经授权禁止转载。详情见。
原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/84434.html
aliyungoogleiPhoneLGPhone开源相关文章
- 使用坐标系分析Paxos算法
- 练习成绩与考试成绩的SPSS相关分析、回归预测2021.7.30
- zookeeper投票选举源码分析
- 转录组差异分析这样做能行吗?
- 杭州出租车行驶轨迹数据空间时间可视化分析|附代码数据
- 2022智能仓储与工业物流行业分析
- Python 爬虫进阶必备 | 某 d 榜单数据请求参数 k 加密逻辑分析
- PE格式:分析IatHook并实现
- 开心档-软件开发入门之MongoDB 查询分析
- 北邮一号卫星搭载 IoTDB 成功发射!高效轻量数据管理,助力航天观测分析
- 【Android 逆向】类加载器 ClassLoader ( 加载 Android 组件的类加载器 | 双亲委派机制实例分析 )
- HTTP/3特性分析及未来发展
- redis 设置生存和过期时间的原理分析
- 函数Linux系统中atoi函数实现原理分析(linuxatoi)
- 缺失的白皮书:DPOS共识算法工作原理及鲁棒性根源分析
- Linux下的日志分析: 解析你的数据(日志分析软件 linux)
- Linux系统面临CC攻击:威胁分析与防御策略(cc攻击 linux)
- p人们构建基于Oracle XPT进行复杂业务分析(oracle_xpt)
- Oracle 与 SAP深度对比分析(oracle sap对比)
- 使用Oracle MDX语句分析数据分析结果(oracle mdx语句)
- Oracle ADW加速数据库分析的卓越平台(oracle adw)
- 脚本分析、压缩、混淆工具JSA新版本发布,压缩效率提高大约10%