TF-IDF与余弦相似性的应用
应用 TF 余弦 idf 相似性
2023-09-27 14:25:21 时间
阮一峰老师的博客写的相当详细了,非常佩服,在这里记录一下链接
一):自动提取关键词
url: http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
笔记:
分母+1目的是防止所有文档都不包含该词(未登录词)
利用tf-idf方法:
优点 是简单快速,结果比较符合实际情况。
缺点 是这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。(一种解决方法是,对全文的第一段和每一段的第一句话,给予较大的权重。
二):找出相似文章
url: http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html
更详细的参看 吴军 《数学之美》 P127
三):自动摘要
url: http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html
相关文章
- UDS协议从入门到精通系列:附录表应用
- 题解:猜数字——穷举法的应用
- 【快应用】快应用如何打开手机中的html文件
- 华为联运游戏或应用审核驳回:游戏启动后弹出HMS Core更新提示,点击稍后更新,反复拉起升级提示,无法进入游戏
- Android应用性能优化系列视图篇——隐藏在资源图片中的内存杀手
- 应用新局面 企业存储迎来超大容量SSD时代
- Qt编写地图综合应用22-动态轨迹
- Apache Hudi的索引类型及应用场景
- STM32应用实例十五:STM32的ADC通道间干扰的问题
- Flume实际应用常见案例
- 如何测试重签名的应用功能是否正常
- 数据库原理及MySQL应用 | 关系规范化
- Android联网更新应用
- http.sys的简单应用
- MaxCompute在网络舆情监控系统中的应用
- 应用Tableau、Vertica的可视化大数据分析框架
- PgSQL · 应用案例 · 阿里云RDS金融数据库(三节点版) - 背景篇
- Log4Net应用问题
- flowableU应用