zl程序教程

您现在的位置是:首页 >  硬件

当前栏目

(《机器学习》完整版系列)第14章 概率图模型——14.11 趣谈话题模型(隐狄利克雷分配模型LDA)

机器学习 系列 模型 14 分配 概率 完整版
2023-09-11 14:14:53 时间

提示:
隐狄利克雷分配模型(LDA,注:同一缩写LDA,在3.3 线性判别分析LDA等处表示线性判别分析LDA,注意区别)是话题模型的代表,研究它挺有趣的,也能破除神秘感(这类机器学习写文章不是根据意思写句子,而是根据语料库提供的概率“凑”句子,对“凑”出来的句子它也不知道具体的意思,而是符合概率罢了,因此,它最擅长是“写”诗,因为诗对逻辑性有较大的容忍度,是典型的“朦胧”诗。而这里的LDA模型连“凑句子”也谈不上,它是“凑词”数满足词频要求)。
隐狄利克雷分配模型LDA推导的步骤:
(i)获得“话题分布”
(ii)获得各空格的话题指派
(iii)获得各话题的词频向量
(iv)获得各话题的“子文档”
(v)合成文档

趣谈话题模型(一)

回到【西瓜书图14.11】描述的LDA文档生成过程,我们从图的右侧向左逐一分析:

(i)获得“话题分布”:选定超参数 α \boldsymbol{\alpha} α,用【西瓜书附录C.1.6节】的狄利克雷分布 p ( Θ t   ∣   α ) p(\boldsymbol{\Theta}_t\,|\,\boldsymbol{\alpha} ) p(Θtα)随机采样生成一个样本(分量和为1的向量),即为话题分布 Θ t \boldsymbol{\Theta}_t Θt,即图中右侧不同颜色表示的“话题分布”。

(ii)获得各空格的话题指派:假定为文档长度为 N N N个词,视为 N N N个依次排列的空格(注意:这里的空格是填一个词的,而不是填一个字的),依“话题分布”对这 N N N个空格逐一染色(指派话题 z t , n z_{t,n} zt,n),即 p ( z t , n   ∣   Θ t ) p(z_{t,n}\,|\,\boldsymbol{\Theta}_t) p(zt,nΘt),这样各颜色空格占比符合“话题分布”,同时可得到各颜色空格的个数。

(iii)获得各话题的词频向量:选定超参数 η \boldsymbol{\eta } η,用【西瓜书附录C.1.6节】的狄利克雷分布 p ( β k   ∣   η ) p(\boldsymbol{\beta }_k\,|\,\boldsymbol{\eta } ) p(βkη)随机采样生成一个样本(分量和为1的向量),即为话题 k k k的词频分布(词频向量) β k \boldsymbol{\beta }_k βk,即图中上面一行,不同颜色表示不同的话题,其中,词频向量的分量用小数表示,小数就是该词的词频(占比)。

(iv)获得各话题的“子文档”:由(ii)知各话题的词的个数(长度),由iii)知各话题的词频,收集同一话题(同一颜色)的空格(记住空格原来的位置),则依词频采样填空,即生成各子文档。

(v)合成文档:将各话题视为“子文档”,依(iv)生成各子文档,各子文档中的词依空格原来的位置,回到原位,从而拼出整个文档。

生成的文档并不唯一,依该算法再运行一遍,则得到另一份文档。 图中以朱自清的文章为示例,但绝对生成不了人写的文章,因为,它没有考虑语法结构,只是将文档简化为“词袋”来讨论。

(1)盘式记法表示

将上述关系画成盘式记法图【西瓜书图14.12】,其中,涉及两个狄利克雷分布,对应的参数分别为 α \boldsymbol{\alpha} α η \boldsymbol{\eta} η,具有重复性的结点用“盘”(矩形及代表结点)表示重复性,可以观察的变量用“灰色”表示,注意到狄利克雷分布部分是“隐”的,模型LDA中的“L”表示“隐”(Latent)。

(2)式子表示

将图示表达成式子的方法:

(i)【西瓜书式(14.41)】左侧为: 以参数作为条件的联合概率分布(似然),即
p ( 各变量联合   ∣   α , η ) p(\text{各变量联合}\,|\,\boldsymbol{\alpha} ,\boldsymbol{\eta} ) p(各变量联合α,η)

(ii)父子结构:箭头体现父子结构,以“父”为条件,表达“子”的概率分布,如: p ( Θ t   ∣   α ) , p ( w t , n   ∣   β z t , n , z t , n ) p(\boldsymbol{\Theta}_t\,|\,\boldsymbol{\alpha} ),p(w_{t,n}\,|\,\boldsymbol{\beta }_{z_{t,n}},z_{t,n}) p(Θtα),p(wt,nβzt,n,zt,n),列出所有父子结构的式子。

(iii)将(ii)得到的所有式子,作积
p ( Θ t   ∣   α ) p ( β k   ∣   η ) p ( z t , n   ∣   Θ t ) p ( w t , n   ∣   β z t , n , z t , n ) \begin{align} p(\boldsymbol{\Theta}_t\,|\,\boldsymbol{\alpha} )p(\boldsymbol{\beta }_k\,|\,\boldsymbol{\eta} )p(z_{t,n}\,|\,\boldsymbol{\Theta}_t) p(w_{t,n}\,|\,\boldsymbol{\beta }_{z_{t,n}},z_{t,n}) \tag{14.91} \end{align} p(Θtα)p(βkη)p(zt,nΘt)p(wt,nβzt,n,zt,n)(14.91)

(iv)再将图中“盘”的重复性,以 ∏ \prod 体现,由式(14.91)即得【西瓜书式(14.41)】的左侧。

(v)将式中的狄利克雷分布,利用【西瓜书附录式(C.23)】转化为Gamma函数,即得【西瓜书式(14.42)】。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:14.10 变分推断用于EM算法
下一篇:14.12 趣谈话题模型(话题“打词机”,盘式记法)