自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据|附代码数据
全文链接:http://tecdat.cn/?p=12310
最近我们被客户要求撰写关于自然语言处理NLP的研究报告,包括一些图形和统计输出。
新冠肺炎的爆发让今年的春节与往常不同。与此同时,新闻记录下了这场疫情发展的时间轴
▼
为此我们分析了疫情相关的新闻内容、发布时期以及发布内容的主题和情感倾向这些方面的数据,希望通过这些数据,能对这场疫情有更多的了解。
新闻对疫情相关主题的情感倾向
通过对疫情相关的新闻进行主题分析和情感分析,我们可以得到每个主题的关键词以及情感分布。
图表1
症状检测主题的新闻内容表达出最多积极情感,该话题下讨论的是医院中检测患者的症状,其次是城市服务以及学校相关的新闻内容,讨论了商店关闭,社区隔离和学校延迟开学等话题,生活主题也表达出较多的积极情感(关键词:时间、家庭),疫情增加了家人相处的时间(图1)。
点击标题查阅往期相关内容
左右滑动查看更多
01
02
03
04
新闻表达的情感倾向随时间变化
考虑到新闻发布的时间、新闻相关的话题因素,图2显示了通过情感交叉分析得到的结果。
图表2
从话题排名来看,不同时间段的新闻中最热门的话题都有经济、出行和政治。从情感分布来看,1月份的经济主题新闻表达出较多的负面情绪(如股市因对冠状病毒的日益关注而下跌)。3月份随着疫情逐渐好转,城市主题新闻(如疫情期间保证商店服务和生产经营)的热度排名超过防护主题(关键词:口罩,洗手,健康等)。从1月到3月,各个主题下的积极情感比例都在不断增加。
新闻对不同主题关键词的关注度
考虑到不同话题的关注度,图3显示了高频关键词的分布。
图表3
从中我们可以看到疫情相关的新闻中最关注的方面,首先是健康,家庭和隔离和出行,其中健康出现的频率最高。然后关注的话题,包含冠状病毒、疫情期间的工作和病毒检测。其次关注的话题包含区分健康和感染的症状。其他关注的热门关键词包含学校、商业、旅行和经济等。
本文章中的所有信息(包括但不限于分析、预测、建议、数据、图表等内容)仅供参考,拓端数据(tecdat)不因文章的全部或部分内容产生的或因本文章而引致的任何损失承担任何责任。
本文摘选 《 自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据 》
相关文章
- CVPR 2022 oral 面向丰富数据集的out-of-distribution检测
- 自然语言处理NLP:情感分析疫情下的新闻数据|附代码数据
- 生态学建模:增强回归树(BRT)预测短鳍鳗生存分布和影响因素|附代码数据
- 自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据|附代码数据
- Cacti数据采集周期修改为一分钟一次的方法
- NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据|附代码数据
- R语言用贝叶斯层次模型进行空间数据分析|附代码数据
- R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据|附代码数据
- 【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享|附代码数据
- kafka之一 入门介绍详解大数据
- MySQL如何读取XML数据?(mysql读取xml)
- 优化实现高效存储,优化数据存入Redis的代码(数据存入redis的代码)
- ORACLE代码0936开启数据新纪元(ORACLE代码0936)
- 借助Oracle轻松实现数据插入(oracle中插入值)
- Sql语句与存储过程查询数据的性能测试实现代码
- XMLHttpRequest处理xml格式的返回数据(示例代码)
- js清空表单数据的两种方式(遍历+reset)