【毕业设计_课程设计】基于 K-means 算法的校园微博热点话题发现系统(源码+论文)
0 前言
基于 K-means 算法的校园微博热点话题发现系统
提示:适合用于课程设计或毕业设计,工作量达标,源码开放
1 项目说明
微博由其 “短平快 ” 的信息能力和快速传播能力 ,已广泛流行于高校学生的常生活中。但微博上的负面舆情信息给社会 、学校和个人带来巨大的危害 。由于微博的多而快特点 ,无法依赖人工对相关信息进行收集 、筛选和发掘热点话题 。因此研究并开发校园微博热点话题发现系统 ,对高校舆情工作有重要的意义。
本文从微博独有的短文本特征及国内外相关微博研究出发,通过对校园微博进行分类处理后使 用K-means聚类算法对校园微博短文本聚类,并改进热度计算公式,通过话题热度提取校园微博热点话题,实现对校园微博热点话题的监控。本文通过几个模块设计并现了校园微博热点话题发现系统,包括微博数据爬取模块 、微博数据预处理模块、微博热点话题分析模块、微博热点话 题展示模块等模块。最后以广州中医药大学的生 活类微博 — 广中医I栋为研究对象,对校园微博 各模块功能及相关技术进行介绍,并对相关模块进行测试验证,分析校园微博热点话题特点,总结系统的优点和不足,提出下一步改进的设想。
2 开发环境
- 硬件环境 : 内存 12G、 硬盘容量 : 100G、 CPU: 4 核
- 系统环境 : 64 位 U buntu16.04 系统
- 数据库 : MySQL、 Redis
- 开发语言与工具 : Python、 Vim、 Pycharm
- 框架与相关库 :Scikit-Learn、Flask、Numpy、Requets、Bea utifulSoup、 Celery、 Gunicorn
3 系统架构
校园微博舆情监控系统有四大模块,分别是校园微博文本获取模块 、微博文本预处理模块 、校园微博热点话题发现模块 、校园微博热点话题展示模块。
4 研究结果
本文以校园微博作为研究主体,结合微博的特点,通过研究热点话题相关技术,实现了一套校园微博热点话题发现系统。该系统主要由数据获取、微博数据预处理、K-means 聚类分析等模块组成。该系统为校园舆情人员及时发现热点话题带来了很大的帮助。
本文主要实现内容如下:
(1)使用Python爬虫技术并发获取微博页面 ,并使用 Python相关库快速提取微博文本内容 。
(2)观察校园微博的特点和传统文本的区别,根据校园微博短文本的特点进行数据预处理操作。
(3)针对于向量空间模型的高维度以及微博文本表示的稀疏性,通过改进的TF-IDF算法实现有效的降维和特征选择,解决了VSM特征向量的稀疏性问题。
(4)针对于传统K-means 算法存在的局部最优解问题,改进了 Kmeans 算法初始簇心选择,提高了 K-means聚类的准确性 。
(5)根据校园微博的特点,改进了热度计算的算法,提高了获取热点话题的准确性。
(6)实现热点话题发现系统可通过可视化界面进行操作,方便舆情管理人员从界面上获取热点话题信息 。
5 论文目录
摘 要
ABSTRACT
第 1 章 绪论
1.1 国内外研究现状与意义
1.2 本文创新点
1.3 论文写作思路
第 2 章 相关技术介绍
2.1 网络爬虫技术
2.2 中文分词技术
2.3 特征选择及权重计算
2.3.1 特征选择
2.3.2 特征权重计算
2.4 文本表示
2.4.1 布尔模型
2.4.2 概率模型
2.4.3 向量空间模型
2.5 文本聚类算法
2.5.1 距离算法
2.5.2 K-means 聚类算法
2.5.3 二分 K-means 聚类算法
第 3 章 校园微博热点话题发现系统设计与实现
3.1 系统设计目标及要求
3.1.1 系统设计目标
3.1.2 系统设计要求
3.2 系统详细架构设计
3.3 系统功能模块设计与实现
3.3.1 微博数据获取模块
3.3.2 微博文本预处理模块
3.3.2 校园微博热点话题发现模块
第 4 章 系统功能测试
4.1 系统运行环境和参数
4.2 实验数据及处理
4.3 系统可视化界面
4.3.1 数据获取界面
4.3.2 热点话题排行榜
4.3.3 热点话题热度直方图
4.3.4 敏感词展示
总结与展望
参考文献
致谢
附录
6 项目工程
相关文章
- 回溯算法 | 追忆那些年曾难倒我们的八皇后问题
- 算法 - 求一个数组的最长递减子序列(C++)
- 【波长分配】无线传感器WSN网络中的一种波长分配算法的仿真
- 基于MATLAB的图像分割算法仿真
- C#,图像的平均哈希(Average hash),感知哈希(Perceptual hash)与差异哈希(Difference hash)算法与源代码
- 超级实习生Ian Goodfellow留给谷歌地图的算法被完善,识别800亿街景图文字(附论文)
- 你听过无人驾驶,但你了解无人驾驶的算法吗?
- [算法]死磕最长回文子串
- 麦克风阵列技术-beaforming开源算法源码分析
- 代码面试最常用的10大算法(五)
- 【毕业设计_课程设计】针对Deepfake假脸视频面部细节特征的提取算法(源码+论文)
- 【毕业设计_课程设计】基于机器学习的情感分类与分析算法设计与实现(源码+论文)
- 强化学习baseline论文—— rainbow算法中给出实验结果的54个atari2600游戏名称列表
- 强化学习基础算法入门 【PPT】
- 华为OD机试 - 旋转骰子(JavaScript) | 机试题+算法思路+考点+代码解析 【2023】
- 多硬件异构&从硬件层到算法层评估提升模型性能-英特尔openVINO工具套件课程总结(中)
- 前端排序算法 - 插入排序算法 (5)