您现在的位置是：首页 > 硬件

当前栏目

（《机器学习》完整版系列）第14章概率图模型——14.11 趣谈话题模型（隐狄利克雷分配模型LDA）

机器学习系列模型 14 分配概率完整版

2023-09-11 14:14:53 时间

提示：
隐狄利克雷分配模型（LDA，注：同一缩写LDA，在3.3 线性判别分析LDA等处表示线性判别分析LDA，注意区别）是话题模型的代表，研究它挺有趣的，也能破除神秘感（这类机器学习写文章不是根据意思写句子，而是根据语料库提供的概率“凑”句子，对“凑”出来的句子它也不知道具体的意思，而是符合概率罢了，因此，它最擅长是“写”诗，因为诗对逻辑性有较大的容忍度，是典型的“朦胧”诗。而这里的LDA模型连“凑句子”也谈不上，它是“凑词”数满足词频要求）。
隐狄利克雷分配模型LDA推导的步骤：
（i）获得“话题分布”
（ii）获得各空格的话题指派
（iii）获得各话题的词频向量
（iv）获得各话题的“子文档”
（v）合成文档

趣谈话题模型（一）

回到【西瓜书图14.11】描述的LDA文档生成过程，我们从图的右侧向左逐一分析：

（i）获得“话题分布”：选定超参数 $\boldsymbol{\alpha}$ ，用【西瓜书附录C.1.6节】的狄利克雷分布 $p(\boldsymbol{\Theta}_t\,|\,\boldsymbol{\alpha} )$ 随机采样生成一个样本（分量和为1的向量），即为话题分布 $\boldsymbol{\Theta}_t$ ，即图中右侧不同颜色表示的“话题分布”。

（ii）获得各空格的话题指派：假定为文档长度为 $N$ 个词，视为 $N$ 个依次排列的空格（注意：这里的空格是填一个词的，而不是填一个字的），依“话题分布”对这 $N$ 个空格逐一染色（指派话题 $z_{t,n}$ ），即 $p(z_{t,n}\,|\,\boldsymbol{\Theta}_t)$ ，这样各颜色空格占比符合“话题分布”，同时可得到各颜色空格的个数。

（iii）获得各话题的词频向量：选定超参数 $\boldsymbol{\eta }$ ，用【西瓜书附录C.1.6节】的狄利克雷分布 $p(\boldsymbol{\beta }_k\,|\,\boldsymbol{\eta } )$ 随机采样生成一个样本（分量和为1的向量），即为话题 $k$ 的词频分布（词频向量） $\boldsymbol{\beta }_k$ ，即图中上面一行，不同颜色表示不同的话题，其中，词频向量的分量用小数表示，小数就是该词的词频（占比）。

（iv）获得各话题的“子文档”：由（ii）知各话题的词的个数（长度），由iii）知各话题的词频，收集同一话题（同一颜色）的空格（记住空格原来的位置），则依词频采样填空，即生成各子文档。

（v）合成文档：将各话题视为“子文档”，依（iv）生成各子文档，各子文档中的词依空格原来的位置，回到原位，从而拼出整个文档。

生成的文档并不唯一，依该算法再运行一遍，则得到另一份文档。图中以朱自清的文章为示例，但绝对生成不了人写的文章，因为，它没有考虑语法结构，只是将文档简化为“词袋”来讨论。

（1）盘式记法表示

将上述关系画成盘式记法图【西瓜书图14.12】，其中，涉及两个狄利克雷分布，对应的参数分别为 $\boldsymbol{\alpha}$ 和 $\boldsymbol{\eta}$ ，具有重复性的结点用“盘”（矩形及代表结点）表示重复性，可以观察的变量用“灰色”表示，注意到狄利克雷分布部分是“隐”的，模型LDA中的“L”表示“隐”（Latent）。

（2）式子表示

将图示表达成式子的方法：

（i）【西瓜书式(14.41)】左侧为：以参数作为条件的联合概率分布（似然），即
$p(\text{各变量联合}\,|\,\boldsymbol{\alpha} ,\boldsymbol{\eta} )$

（ii）父子结构：箭头体现父子结构，以“父”为条件，表达“子”的概率分布，如： $p(\boldsymbol{\Theta}_t\,|\,\boldsymbol{\alpha} ),p(w_{t,n}\,|\,\boldsymbol{\beta }_{z_{t,n}},z_{t,n})$ ，列出所有父子结构的式子。

（iii）将（ii）得到的所有式子，作积
$\begin{align} p(\boldsymbol{\Theta}_t\,|\,\boldsymbol{\alpha} )p(\boldsymbol{\beta }_k\,|\,\boldsymbol{\eta} )p(z_{t,n}\,|\,\boldsymbol{\Theta}_t) p(w_{t,n}\,|\,\boldsymbol{\beta }_{z_{t,n}},z_{t,n}) \tag{14.91} \end{align}$

（iv）再将图中“盘”的重复性，以 $\prod$ 体现，由式(14.91)即得【西瓜书式(14.41)】的左侧。

（v）将式中的狄利克雷分布，利用【西瓜书附录式(C.23)】转化为Gamma函数，即得【西瓜书式(14.42)】。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：14.10 变分推断用于EM算法
下一篇：14.12 趣谈话题模型（话题“打词机”，盘式记法）

猜你喜欢

jquery给轮播图的第一张设置class样式
s3c2410上搭建QT/Embedded4.8.5开发环境(五)--程序安装后的打包，以及环境变量的设置
如果是除去末尾特定字符或字符串：TrimEnd方法性能优于Remove方法
[Ubuntu软件]好用轻巧的录屏软件——Kazam
事件Event：带你体验鸿蒙轻内核中一对多、多对多任务同步
Ubuntu之The repository http://ppa.launchpad.net/fcitx-team does not have a Release file.(二十三)
C++基础知识要点--字符串、向量和数组 (Primer C++ 第五版 · 阅读笔记)
（五十五）c#Winform自定义控件-管道（工业）-HZHControls
js 原型的内存分析
流媒体加密技术原理
【9303】平面分割
Golang每日一练(leetDay0011)
SAP S/4HANA key user tool extensibility原理
病理报告上的CgA+是什么意思
Open3D(C++) 计算点云凸包的体积和表面积
js解析json，js转换json成map,获取map的key,value
redis 相关网址
《跟唐老师学习云网络》 - 我的网络概念
Centos7 k8s v1.5.2二进制部署安装-服务暴露ingress控制器之traefik
为什么要用Zero-Copy机制?
Nginx log阶段 http_log_module记录access日志
华为OD机试 - 最少面试官数（Java & JS & Python）
【OpenCV 例程 300 篇】109. 几何均值滤波

相关主题

Spark机器学习
机器选择
人工智能与机器学习
机器学习：线性回归

zl程序教程

当前栏目

（《机器学习》完整版系列）第14章概率图模型——14.11 趣谈话题模型（隐狄利克雷分配模型LDA）

趣谈话题模型（一）

相关文章

当前栏目

（《机器学习》完整版系列）第14章 概率图模型——14.11 趣谈话题模型（隐狄利克雷分配模型LDA）

趣谈话题模型（一）

相关文章

（《机器学习》完整版系列）第14章概率图模型——14.11 趣谈话题模型（隐狄利克雷分配模型LDA）