(《机器学习》完整版系列)第14章 概率图模型——14.11 趣谈话题模型(隐狄利克雷分配模型LDA)
提示:
隐狄利克雷分配模型(LDA,注:同一缩写LDA,在3.3 线性判别分析LDA等处表示线性判别分析LDA,注意区别)是话题模型的代表,研究它挺有趣的,也能破除神秘感(这类机器学习写文章不是根据意思写句子,而是根据语料库提供的概率“凑”句子,对“凑”出来的句子它也不知道具体的意思,而是符合概率罢了,因此,它最擅长是“写”诗,因为诗对逻辑性有较大的容忍度,是典型的“朦胧”诗。而这里的LDA模型连“凑句子”也谈不上,它是“凑词”数满足词频要求)。
隐狄利克雷分配模型LDA推导的步骤:
(i)获得“话题分布”
(ii)获得各空格的话题指派
(iii)获得各话题的词频向量
(iv)获得各话题的“子文档”
(v)合成文档
趣谈话题模型(一)
回到【西瓜书图14.11】描述的LDA文档生成过程,我们从图的右侧向左逐一分析:
(i)获得“话题分布”:选定超参数 α \boldsymbol{\alpha} α,用【西瓜书附录C.1.6节】的狄利克雷分布 p ( Θ t ∣ α ) p(\boldsymbol{\Theta}_t\,|\,\boldsymbol{\alpha} ) p(Θt∣α)随机采样生成一个样本(分量和为1的向量),即为话题分布 Θ t \boldsymbol{\Theta}_t Θt,即图中右侧不同颜色表示的“话题分布”。
(ii)获得各空格的话题指派:假定为文档长度为 N N N个词,视为 N N N个依次排列的空格(注意:这里的空格是填一个词的,而不是填一个字的),依“话题分布”对这 N N N个空格逐一染色(指派话题 z t , n z_{t,n} zt,n),即 p ( z t , n ∣ Θ t ) p(z_{t,n}\,|\,\boldsymbol{\Theta}_t) p(zt,n∣Θt),这样各颜色空格占比符合“话题分布”,同时可得到各颜色空格的个数。
(iii)获得各话题的词频向量:选定超参数 η \boldsymbol{\eta } η,用【西瓜书附录C.1.6节】的狄利克雷分布 p ( β k ∣ η ) p(\boldsymbol{\beta }_k\,|\,\boldsymbol{\eta } ) p(βk∣η)随机采样生成一个样本(分量和为1的向量),即为话题 k k k的词频分布(词频向量) β k \boldsymbol{\beta }_k βk,即图中上面一行,不同颜色表示不同的话题,其中,词频向量的分量用小数表示,小数就是该词的词频(占比)。
(iv)获得各话题的“子文档”:由(ii)知各话题的词的个数(长度),由iii)知各话题的词频,收集同一话题(同一颜色)的空格(记住空格原来的位置),则依词频采样填空,即生成各子文档。
(v)合成文档:将各话题视为“子文档”,依(iv)生成各子文档,各子文档中的词依空格原来的位置,回到原位,从而拼出整个文档。
生成的文档并不唯一,依该算法再运行一遍,则得到另一份文档。 图中以朱自清的文章为示例,但绝对生成不了人写的文章,因为,它没有考虑语法结构,只是将文档简化为“词袋”来讨论。
(1)盘式记法表示
将上述关系画成盘式记法图【西瓜书图14.12】,其中,涉及两个狄利克雷分布,对应的参数分别为 α \boldsymbol{\alpha} α和 η \boldsymbol{\eta} η,具有重复性的结点用“盘”(矩形及代表结点)表示重复性,可以观察的变量用“灰色”表示,注意到狄利克雷分布部分是“隐”的,模型LDA中的“L”表示“隐”(Latent)。
(2)式子表示
将图示表达成式子的方法:
(i)【西瓜书式(14.41)】左侧为: 以参数作为条件的联合概率分布(似然),即
p
(
各变量联合
∣
α
,
η
)
p(\text{各变量联合}\,|\,\boldsymbol{\alpha} ,\boldsymbol{\eta} )
p(各变量联合∣α,η)
(ii)父子结构:箭头体现父子结构,以“父”为条件,表达“子”的概率分布,如: p ( Θ t ∣ α ) , p ( w t , n ∣ β z t , n , z t , n ) p(\boldsymbol{\Theta}_t\,|\,\boldsymbol{\alpha} ),p(w_{t,n}\,|\,\boldsymbol{\beta }_{z_{t,n}},z_{t,n}) p(Θt∣α),p(wt,n∣βzt,n,zt,n),列出所有父子结构的式子。
(iii)将(ii)得到的所有式子,作积
p
(
Θ
t
∣
α
)
p
(
β
k
∣
η
)
p
(
z
t
,
n
∣
Θ
t
)
p
(
w
t
,
n
∣
β
z
t
,
n
,
z
t
,
n
)
\begin{align} p(\boldsymbol{\Theta}_t\,|\,\boldsymbol{\alpha} )p(\boldsymbol{\beta }_k\,|\,\boldsymbol{\eta} )p(z_{t,n}\,|\,\boldsymbol{\Theta}_t) p(w_{t,n}\,|\,\boldsymbol{\beta }_{z_{t,n}},z_{t,n}) \tag{14.91} \end{align}
p(Θt∣α)p(βk∣η)p(zt,n∣Θt)p(wt,n∣βzt,n,zt,n)(14.91)
(iv)再将图中“盘”的重复性,以 ∏ \prod ∏体现,由式(14.91)即得【西瓜书式(14.41)】的左侧。
(v)将式中的狄利克雷分布,利用【西瓜书附录式(C.23)】转化为Gamma函数,即得【西瓜书式(14.42)】。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
相关文章
- 李宏毅机器学习_8_1循环神经网络下
- (《机器学习》完整版系列)第8章 集成学习——8.1 简单投票法(少数服从多数)
- (《机器学习》完整版系列)第7章 贝叶斯分类器——7.8 再谈极大似然(对数边际似然)
- (《机器学习》完整版系列)第7章 贝叶斯分类器——7.1 贝叶斯决策论(贝叶斯学派与频率学派有很大的分岐)
- (《机器学习》完整版系列)第6章 支持向量机SVM——6.2 核函数型支持向量机SVM(方法:与基本型比较来学习)
- (《机器学习》完整版系列)第4章 线性模型——4.4 连续变量的决策树(以属性为轴的坐标系)
- (《机器学习》完整版系列)第2章 模型评估与选择 ——2.3 恭喜:高考你被录取了!
- (《机器学习》完整版系列)附录 ——2、偏导数与梯度(以矩阵的整体形式表述)
- (《机器学习》完整版系列)第16章 强化学习——16.9 时序差分学习(Sara算法与Q-学习算法)
- (《机器学习》完整版系列)第16章 强化学习——16.7 同策略蒙特卡罗强化学习
- (《机器学习》完整版系列)第15章 规则学习——15.11 基于逆归结的机器证明
- (《机器学习》完整版系列)第15章 规则学习——15.8 三种蕴涵(你会区分么?)
- (《机器学习》完整版系列)第15章 规则学习——15.1 命题规则(逻辑学、布尔表达)
- (《机器学习》完整版系列)第14章 概率图模型——14.5 学习与推断之信念传播(消息传递的画法及消息计算)
- (《机器学习》完整版系列)第14章 概率图模型——14.4 学习与推断之变量消去法(“边际化”,“m化”逐步消元)
- (《机器学习》完整版系列)第14章 概率图模型——14.2 马尔可夫随机场(无向图,“团”与“极大团”,MRF的“三性”)
- (《机器学习》完整版系列)第12章 计算学习理论——12.4 有限假设空间不可分情形(退而求其次:不可知PAC可学习的)
- (《机器学习》完整版系列)第10章 降维与度量学习——10.4 主成分分析的优化目标另一推导(投影点尽可能分开)
- (《机器学习》完整版系列)第8章 集成学习——8.7 基学习器多样性(“好而不同”)
- 免费的机器学习数据集网站(6300+数据集)
- 人工智能、深度学习、机器学习常见面试题01~20
- 《机器学习与R语言(原书第2版)》一导读
- 《NLTK基础教程——用NLTK和Python库构建机器学习应用》——2.3 语句分离器
- 带你了解Attention机制在机器学习领域革命中的作用
- 顶级 Python 机器学习库
- 【转载】 当模型预测控制遇见机器学习
- 简单自学机器学习理论—— 泛化界限 (Part II )