zl程序教程

您现在的位置是:首页 >  硬件

当前栏目

机器学习-无监督学习-主题模型:概述【用来在大量文档中发现潜在主题的一种统计模型】【生成式有向图模型:“文档”是“主题”的概率分布,“主题”是“单词”的概率分布】【在推荐系统领域又称“隐语义模型”】

2023-09-27 14:20:37 时间

一、“主题模型”定义

主题模型(Topic Model)是以非监督学习的方式对文集的隐含语义结构(latent semantic structure)进行聚类(clustering)的统计模型

  • 主题就是一个概念、一个方面。它表现为“一系列相关的词”,能够代表这个主题。比如如果是”阿里巴巴“主题,那么”马云“、”电子商务“等词会很高的频率出现,而涉及到”腾讯“主题,那么“马化腾”、“游戏”、“QQ”会以较高的频率出现。

  • 如果用数学来描述一下的话,主题就是词汇表上词语的条件概率分布,与主题密切相关的词,条件概率 p ( w ∣ z ) p(w|z)