您现在的位置是：首页 > 硬件

当前栏目

机器学习笔记之指数族分布——最大熵原理与softmax激活函数的关系

机器笔记学习原理函数最大关系激活

2023-09-11 14:15:53 时间

机器学习笔记之指数族分布——最大熵原理与softmax激活函数的关系

引言

引言

上一节介绍了最大熵原理与指数族分布之间的关系，即给定基于样本作为约束条件的情况下，熵最大的概率分布是指数族分布。本节将介绍最大熵原理与 $so f t ma x$ 函数之间的关联关系。

符号定义

已知一个数据集合 $D a t a$ ，该集合共包含两部分：

样本：描述某事物具体性质的信息；
标签：根据样本特征得到的结论信息；

示例：
某样本包含3个样本特征：圆脸、长胡子、尖爪
对应的标签包含3个标签特征：是猫、不是狗、不是鸭

基于上述示例，对样本集合中的元素进行抽象表示：

定义 $D a t a$ 中共包含 $N$ 对样本、标签；
样本集合表示为 $\mathcal X$ ，任意一个样本表示为 $x^{(k)}(k=1,2,\cdots,N)$ 。则有：
$\mathcal X = \{x^{(1)},x^{(2)},\cdots,x^{(N)}\}$
标签集合表示为 $\mathcal Y$ ，一个标签表示为 $y^{(k)}(k=1,2,\cdots,N)$ 。则有：
$\mathcal Y = \{y^{(1)},y^{(2)},\cdots,y^{(N)}\}$
每一个样本都对应一个标签，将一对样本标签定义为 $s^{(k)}$ ：
$s^{(k)} = (x^{(k)},y^{(k)})(k=1,2,\cdots,N)$
任意样本 $x^{(k)}(k=1,2,\cdots,N)$ 均包含 $i$ 个样本特征。即：
$x^{(k)} = \begin{pmatrix} x_1^{(k)} , x_2^{(k)} , \cdots x_i^{(k)} \end{pmatrix}^{T}$
任意样本 $y^{(k)}(k=1,2,\cdots,N)$ 均包含 $j$ 个标签特征。即：
$y^{(k)} = \begin{pmatrix} y_1^{(k)} , y_2^{(k)} , \cdots y_j^{(k)} \end{pmatrix}^{T}$
样本集合与标签集合表示如下：
$\mathcal X = \begin{pmatrix} x_1^{(1)} \quad x_1^{(2)} \cdots x_1^{(N)}\\ x_2^{(1)} \quad x_2^{(2)} \cdots x_2^{(N)}\\ \vdots \quad\quad \vdots \quad\quad \vdots\\ x_i^{(1)} \quad x_i^{(2)} \cdots x_i^{(N)}\\ \end{pmatrix} \quad \mathcal Y = \begin{pmatrix} y_1^{(1)} \quad y_1^{(2)} \cdots y_1^{(N)}\\ y_2^{(1)} \quad y_2^{(2)} \cdots y_2^{(N)}\\ \vdots \quad\quad \vdots \quad\quad \vdots\\ y_j^{(1)} \quad y_j^{(2)} \cdots y_j^{(N)}\\ \end{pmatrix}$
$\mathcal X,\mathcal Y,Data$ 的样本空间分别表示如下：
$\mathcal S_{\mathcal X} = (x_1,x_2,\cdots,x_i)^{T} \\ \mathcal S_{\mathcal Y} = (y_1,y_2,\cdots,y_j)^{T} \\ \mathcal S_{Data} = (x_1,x_2,\cdots,x_i;y_1,y_2,\cdots,y_j)^{T}$
组合概念：为了简化理解，将样本空间 $\mathcal S_{\mathcal X}$ 中的每一维度 $x_q\mid_{q = 1}^i$ 视为伯努利分布，即：
$x_q = \left\{ \begin{array}{ll} 1\quad if \quad 满足x_q 描述的既定事实\\ 0\quad otherwise \end{array} \right.$
同理， $y_s \mid_{s=1}^j$ 也设定为：
$y_s = \left\{ \begin{array}{ll} 1\quad if \quad 满足y_s 描述的既定事实\\ 0\quad otherwise \end{array} \right. \\ \sum_{s=1}^j y_s = 1$
基于上述假设，我们可以将 $D a t a$ 中的所有样本划分为若干个组合。某一种组合示例：
$\mathcal S_{\mathcal X}^{(l)} = (0,1,0,\cdots,1,0) \\ \mathcal S_{\mathcal Y}^{(l)} = (0,1,0,\cdots,0,0) \\ \mathcal S_{Data}^{(l)} = (0,1,0,\cdots,1,0;0,1,0,\cdots,0,0)$
统计满足组合 $\mathcal S_{Data}^{(l)}$ 样本的数量，就可以 使用经验概率分布 计算该数据集合中 $\mathcal S_{Data}^{(l)}$ 的 概率密度函数：
$\hat p(s^{(k)} = \mathcal S_{Data}^{(l)}) = \hat p( \mathcal S_{Data}^{(l)}) = \frac{count(s^{(k)} = \mathcal S_{Data}^{(l)})}{N}$

假设一共存在 $m$ 个组合，则有：
$\sum_{l=1}^m \hat p( \mathcal S_{Data}^{(l)}) = 1$

基于多维数据集合的经验概率分布

回顾：经验概率分布

经验概率分布本质上表示 特定事件发生的次数占总体样本发生的比率，是 概率的频率定义 的一种表达。这里使用 $\hat p(x)$ 表示 $x$ 的经验概率分布。它的具体公式表示如下：
$\hat p(x^{(j)} =x_i) = \frac{count(x_i)}{N}$
其中， $x^{(j)}$ 表示样本集合 $\mathcal X$ 内的某一个样本，并且 $\mathcal X$ 中包含 $N$ 个样本，而 $x_i$ 表示样本 $x^{(j)}$ 能够选择的特征；
该经验分布公式仅表示样本 $x^{(j)}$ 是‘一维随机变量’时的情况，即只能选择一个值。

上述公式表示的含义为：样本集合 $\mathcal X$ 中的某样本 $x^{(j)}$ 的值等于 $x_i$ 的概率结果。
$\hat p(x^{(j)}),\hat p(x^{(j)} = x_i)$ 和 $\hat p(x_i)$ 在表达取决于 $\sum$ 中连加的次数，如果次数是组合数量，它们之间没有区别，如果次数是‘样本数量’，第一个和后两个之间是有区别的。

多维数据的经验概率分布

事实上经验概率分布并非只能存在于1维数据中，多维数据同样可以使用经验概率分布：

示例：
包含数据数量 $N = 5$ 的某数据集 $\mathcal X '$ ，具体表示如下：

	身高( $x_1$ )	性别( $x_2$ )
$x^{(1)}$	170	1
$x^{(2)}$	180	1
$x^{(3)}$	170	0
$x^{(4)}$	160	0
$x^{(5)}$	170	1

如果想要计算 $x_1=170,x_2=1)$ 经验概率分布的概率密度函数 $\hat p(x_1=170,x_2=1)$ ，具体计算方法如下：
$\hat p(x_1=170,x_2=1) = \frac{count(x_1=170,x_2=1)}{N} = \frac{2}{5} = 0.4$
如果想要计算基于数据集 $\mathcal X'$ 的经验概率分布 $\hat P(x_1,x_2)$ ：
在本篇中，‘概率分布’ $P$ 与‘概率密度函数’ $p$ 是区分开的。
$\hat P(x_1,x_2) = \begin{pmatrix} \hat p(x_1=170,x_2=1) \\ \hat p(x_1=180,x_2=1) \\ \hat p(x_1=170,x_2=0) \\ \hat p(x_1=160,x_2=0) \\ \end{pmatrix} = \begin{pmatrix} \frac{2}{5} \\ \frac{1}{5} \\ \frac{1}{5} \\ \frac{1}{5} \\ \end{pmatrix} = \begin{pmatrix} 0.4 \\ 0.2 \\ 0.2 \\ 0.2 \\ \end{pmatrix}$

基于上述示例，我们可以使用经验概率方法求解多维随机变量的概率。样本 $x^{(k)} = \mathcal S_{\mathcal X}^{(l)}$ 的概率分布表示如下：
$\mathcal S_{\mathcal X}^{(l)}$ 表示样本 $x$ 维度组合中的一种情况。
$\hat P(x^{(k)} = \mathcal S_{\mathcal X}^{(l)}) = \hat P(\mathcal S_{\mathcal X}^{(l)}) = \frac{count(x_1,x_2,\cdots,x_i)}{N}$
同理，一对样本标签 $s^{(k)} \to (x^{(k)},y^{(k)})$ ，该 $s^{(k)} = S_{Data}^{(l)}$ 的概率分布表示如下：
$\begin{aligned} \hat P(x^{(k)} = \mathcal S_{\mathcal X}^{(l)},y^{(k)} = \mathcal S_{\mathcal Y}^{(l)}) & = \hat P(S_{Data}^{(l)}) \\ & = \frac{count(s^{(k)} = \mathcal S_{Data}^{(l)})}{N} \\ & = \frac{count(x_1,x_2,\cdots,x_i,y_1,y_2,\cdots,y_j)}{N} \end{aligned}$
这两个公式下面推导会用到。

$\mathcal Softmax$ 函数

$S o f t ma x$ 函数又称归一化指数函数，它的本质目的是将多分类结果以概率的形式展现出来，具体公式表示如下：
$Softmax(y_i) = \frac{e^{y_i}}{\sum_{i=1}^k e^{y_i}}$

其中， $(y_1,y_2,\cdots,y_k)$ 表示经过运算后得到的 预测向量结果 (例如神经网络的输出层)，向量中的每个元素 $y_i(i=1,2,\cdots,k)$ 表示维度信息。

观察上面的函数，它有许多特点：

无论式分母还是分子，它们均有下界——0，即分子、分母大于零恒成立；
分子数值是分母的一部分——结合特点1， $Softmax(y_i)$ 小于1恒成立。

但从函数性质来看，用这个函数表示概率确实是个不错的选择。
核心问题：
但为什么要使用该函数去表示多分类结果的概率分布，换句话说，表示多分类结果的概率分布为什么使用 $so f t ma x$ 函数，而不是其他函数，是否存在某种理论支撑？

$S o f t ma x$ 函数的推导过程

上述的理论支撑是真实存在的，就是最大熵原理。下面将使用最大熵原理去论证， $so f t ma x$ 函数的映射结果为什么可以作为多分类结果的概率分布。

求解目标

与最大熵原理推导指数族分布的思路相同，都是求解 基于上述数据集合构成的约束条件 基础上，求解 能够使熵达到最大的概率分布(概率密度函数) 与 $S o f t ma x$ 之间的关联关系。

但由于数据集合中标签的存在，我们不能只求解样本集合 $\mathcal X$ 的概率分布，而是求解给定某一样本 $x^{(k)}=\mathcal S_{\mathcal X}^{(l)}$ 条件下，对应标签 $y^{(k)}=\mathcal S_{\mathcal Y}^{(l)}$ 条件概率的概率密度函数 $p(y^{(k)}=\mathcal S_{\mathcal Y}^{(l)} \mid x^{(k)}=\mathcal S_{\mathcal X}^{(l)})$ 。

因此，我们在基于最大熵原理的推导过程中不能使用仅包含 $\mathcal X$ 一个变量的信息熵，而是包含条件变量的条件熵作为目标函数。

最大熵原理——条件熵

条件熵的表达形式如下：
$\begin{aligned} \mathcal H(\mathcal Y \mid \mathcal X) & = -\sum_{x^{(k)} \in \mathcal X} p(x^{(k)})\cdot \mathcal H(\mathcal Y \mid \mathcal x^{(k)}) \\ & = -\sum_{x^{(k)} \in \mathcal X} p(x^{(k)})\cdot \sum_{y^{(k)} \in \mathcal Y} p(y^{(k)} \mid x^{(k)}) \log p(y^{(k)} \mid x^{(k)}) \\ & = -\sum_{y^{(k)} \in \mathcal Y,x^{(k)} \in \mathcal X} p(x^{(k)})\cdot p(\mathcal y^{(k)} \mid \mathcal x^{(k)}) \log p(\mathcal y^{(k)} \mid \mathcal x^{(k)}) \end{aligned}$

使用条件概率公式，对 $P(y^{(k)} \mid x^{(k)})$ 展开：
$P(y^{(k)} \mid x^{(k)}) = \frac{P(x^{(k)},y^{(k)})}{P(x^{(k)})}(k=1,2,\cdots,N)$

$P(y^{(k)} \mid x^{(k)})$ 是 我们需要使用最大熵原理求解的结果。但由于数据集合 $D a t a$ 是给定的，我同样可以先使用经验概率分布分别得到 $\hat P(x^{(k)},y^{(k)}),\hat P(x^{(k)})$ 的结果：
将上面‘经验分布’的结果抄一下;

$\begin{aligned} \hat P(x^{(k)} = \mathcal S_{\mathcal X}^{(l)}) & = \hat P(\mathcal S_{\mathcal X}^{(l)}) \\ & = \frac{count(x_1,x_2,\cdots,x_i)}{N} \\ \hat P(x^{(k)} = \mathcal S_{\mathcal X}^{(l)},y^{(k)} = \mathcal S_{\mathcal Y}^{(l)}) & = \hat P(S_{Data}^{(l)}) \\ & = \frac{count(s^{(k)} = \mathcal S_{Data}^{(l)})}{N} \\ & = \frac{count(x_1,x_2,\cdots,x_i,y_1,y_2,\cdots,y_j)}{N} \end{aligned}$

从而可以先求出经验分布 $\hat P(y^{(k)} \mid x^{(k)})$ ：
$\hat P(y^{(k)} \mid x^{(k)}) = \frac{\hat P(x^{(k)},y^{(k)})}{\hat P(x^{(k)})} = \frac{\hat P(x^{(k)} = \mathcal S_{\mathcal X}^{(l)},y^{(k)} = \mathcal S_{\mathcal Y}^{(l)})}{\hat P(x^{(k)} = \mathcal S_{\mathcal X}^{(l)})}$

此时已经将经验分布 $\hat P(y^{(k)} \mid x^{(k)})$ 求解完成，但我们的求解目标是熵最大的概率分布 $P(y^{(k)} \mid x^{(k)})$ 。基于这两种分布的相似性，我们希望这两个概率分布的期望相等。
因此，令 $f(\mathcal X,\mathcal Y)$ 是关于 $\mathcal X,\mathcal Y$ 的任意函数，则有：
$\mathbb E_{\hat P(\mathcal Y \mid \mathcal X)}\left[f(\mathcal X,\mathcal Y)\right] = \mathbb E_{P(\mathcal Y \mid \mathcal X)}\left[f(\mathcal X,\mathcal Y)\right]$
也可以写成如下形式：
$\sum_{x^{(k)} \in \mathcal X,y^{(k)} \in \mathcal Y}\hat p(y^{(k)} = \mathcal S_{\mathcal Y}^{(l)} \mid x^{(k)}= \mathcal S_{\mathcal X}^{(l)})\left[f(x^{(k)},y^{(k)})\right] = \sum_{x^{(k)} \in \mathcal X,y^{(k)} \in \mathcal Y}p(x^{(k)}= \mathcal S_{\mathcal X}^{(l)},y^{(k)} = \mathcal S_{\mathcal Y}^{(l)})\left[f(x^{(k)},y^{(k)})\right]$
为了保证推导过程的泛化性，给 每一个组合独立地设计一个函数，从而构成一个函数向量。此时，经验概率的期望结果 $\mathbb E_{\hat P(\mathcal X,\mathcal Y)}\left[f(\mathcal X,\mathcal Y)\right]$ 表示为：
注意函数f的下标：
$\sum_{x^{(k)} \in \mathcal X,y^{(k)} \in \mathcal Y}\hat p(y^{(k)} = \mathcal S_{\mathcal Y}^{(l)} \mid x^{(k)}= \mathcal S_{\mathcal X}^{(l)})\left[f_l(x^{(k)},y^{(k)})\right](l=1,2,\cdots,m)$
如果将 $m$ 种组合对应的样本、标签全部分开，上述公式可以表达为：
$\mathbb E_l =\sum_{x^{(k)}= \mathcal S_{\mathcal X}^{(l)},y^{(k)} = \mathcal S_{\mathcal Y}^{(l)}} \hat p(y^{(k)} \mid x^{(k)})\left[f_l(x^{(k)},y^{(k)})\right]\\ \mathbb E_{\hat P(\mathcal X,\mathcal Y)}\left[f(\mathcal X,\mathcal Y)\right] =\sum_{l=1}^m \mathbb E_l$

观察公式 $\mathbb E_l$ ，由于 $f_l(x^{(k)},y^{(k)})$ 函数是定义的函数，是已知项；经验分布 $\hat p(y^{(k)} = \mathcal S_{\mathcal Y}^{(l)} \mid x^{(k)}= \mathcal S_{\mathcal X}^{(l)})$ 可以通过 数据集合 求解。因此， $\mathbb E_l$ 可以直接求解。定义求解结果为 $\Delta_l$ ：
$\mathbb E_l= \Delta_l$

至此，待求解分布 $P(x^{(k)},y^{(k)})$ 与经验概率分布 $\hat P(x^{(k)},y^{(k)})$ 的期望相等转化为如下公式：
将双方期望按照‘组合’分成对应的 $m$ 份，每一份对应相等。
$\Delta_l = \sum_{x^{(k)}= \mathcal S_{\mathcal X}^{(l)},y^{(k)} = \mathcal S_{\mathcal Y}^{(l)}} p(y^{(k)} \mid x^{(k)})\left[f_l(x^{(k)},y^{(k)})\right](l=1,2,\cdots,m)$
并将该式子作为 1个约束条件，一共包含 $m$ 个约束条件。同时， $P(x^{(k)},y^{(k)})$ 依然要满足概率分布的定义：
$\sum_{\mathcal S_{\mathcal Y}^{(l)} \in \mathcal S_{\mathcal Y}} P(y^{(k)} = \mathcal S_{\mathcal Y}^{(l)} \mid x^{(k)} = \mathcal S_{\mathcal X}) = 1$
至此，我们共得到 $m + 1$ 个约束条件。下面使用最大熵原理求解概率分布。

求解过程

使用最大熵原理求解条件概率分布 $P(\mathcal Y \mid \mathcal X)$ 本质熵任然是最优化问题。因此，依然使用拉格朗日乘数法解决该问题。

定义 目标函数：目标函数自然是最大化条件熵：
这里将 $p(x^{(k)})$ 替换为 $\hat p(x^{(k)})$ ：
$\begin{aligned} \max \mathcal H(\mathcal Y \mid \mathcal X) & = \max - \sum_{y^{(k)} \in \mathcal Y,x^{(k)} \in \mathcal X} p(x^{(k)})\cdot p(\mathcal y^{(k)} \mid \mathcal x^{(k)}) \log p(\mathcal y^{(k)} \mid \mathcal x^{(k)}) \\ & = \min \sum_{y^{(k)} \in \mathcal Y,x^{(k)} \in \mathcal X} \hat p(x^{(k)})\cdot p(\mathcal y^{(k)} \mid \mathcal x^{(k)}) \log p(\mathcal y^{(k)} \mid \mathcal x^{(k)}) \end{aligned}$
$m + 1$ 个约束条件：
$\Delta_l = \sum_{x^{(k)}= \mathcal S_{\mathcal X}^{(l)},y^{(k)} = \mathcal S_{\mathcal Y}^{(l)}} p(y^{(k)} \mid x^{(k)})\left[f_l(x^{(k)},y^{(k)})\right](l=1,2,\cdots,m) \\ \sum_{\mathcal S_{\mathcal Y}^{(l)} \in \mathcal S_{\mathcal Y}} P(y^{(k)} = \mathcal S_{\mathcal Y}^{(l)} \mid x^{(k)} = \mathcal S_{\mathcal X}) = 1$

构建拉格朗日函数：
$\mathcal L(P(\mathcal Y \mid \mathcal X),\lambda,\lambda_l\mid_{l=1}^m)= \sum_{x^{(k)} \in \mathcal X,y^{(k)} \in \mathcal Y} \hat p(x^{(k)}) p(y^{(k)} \mid x^{(k)}) \log p(y^{(k)} \mid x^{(k)}) + \lambda (1 - \sum_{\mathcal S_{\mathcal Y}^{(l)} \in \mathcal S_{\mathcal Y}} P(y^{(k)} = \mathcal S_{\mathcal Y}^{(l)} \mid x^{(k)} = \mathcal S_{\mathcal X})) + \sum_{l=1}^m \lambda_l(\Delta_l - \sum_{x^{(k)}= \mathcal S_{\mathcal X}^{(l)},y^{(k)} = \mathcal S_{\mathcal Y}^{(l)}} p(y^{(k)} \mid x^{(k)})\left[f_l(x^{(k)},y^{(k)})\right])$

对 $P(\mathcal X,\mathcal Y)$ 求解偏导：
$\frac{\partial \mathcal L(P(\mathcal Y \mid \mathcal X),\lambda,\lambda_l\mid_{l=1}^m)}{\partial P(\mathcal Y \mid \mathcal X)} = \sum_{x^{(k)} \in \mathcal X,y^{(k)} \in \mathcal Y} \hat p(x^{(k)})[p(y^{(k)} \mid x^{(k)}) \cdot \frac{1}{p(y^{(k)} \mid x^{(k)})} + \log p(y^{(k)} \mid x^{(k)})] - \sum_{\mathcal S_{\mathcal Y}^{(l)} \in \mathcal S_{\mathcal Y}} \lambda + \sum_{l=1}^m \lambda_l (-\sum_{x^{(k)} = \mathcal S_{\mathcal X}^{(l)},y^{(k)} = \mathcal S_{\mathcal Y}^{(l)}}\hat p(x^{(k)}) f_l(x^{(k)},y^{(k)}))$

整理得：
$\frac{\partial \mathcal L(P(\mathcal Y \mid \mathcal X),\lambda,\lambda_l\mid_{l=1}^m)}{\partial P(\mathcal Y \mid \mathcal X)} = \sum_{x^{(k)} \in \mathcal X,y^{(k)} \in \mathcal Y} \hat p(x^{(k)})[1 + \log p(y^{(k)} \mid x^{(k)})] -\sum_{l=1}^m \lambda - \sum_{l=1}^m \lambda_l \sum_{x^{(k)} = \mathcal S_{\mathcal X}^{(l)},y^{(k)} = \mathcal S_{\mathcal Y}^{(l)}} \hat p(x^{(k)}) f_l(x^{(k)},y^{(k)})$

令该式为0：
$\begin{aligned} p(y^{(k)} \mid x^{(k)}) & = e^{\lambda_0 - 1}e^{\sum_{l=1}^m \lambda_l f_l(x^{(k)},y^{(k)})} \\ & = \frac{e^{\sum_{l=1}^m \lambda_l f_l(x^{(k)},y^{(k)})}}{e^{1- \lambda_0}} \end{aligned}$

可以将 $\sum_{l=1}^m \lambda_l f_l(x^{(k)},y^{(k)})$ 看成两个向量之间的乘法形式：
$\sum_{l=1}^m \lambda_l f_l(x^{(k)},y^{(k)}) = (\lambda_1,\lambda_2,\cdots,\lambda_m)\cdot \begin{pmatrix}f_1(x^{(k)},y^{(k)}) \\ f_2(x^{(k)},y^{(k)}) \\ \vdots \\ f_m(x^{(k)},y^{(k)})\end{pmatrix} = \Lambda^{T}f(x^{(k)},y^{(k)})$
那么，上述式子表示如下：
$p(y^{(k)} \mid x^{(k)}) = \frac{e^{\Lambda^{T}\cdot f(x^{(k)},y^{(k)})}}{e^{1-\lambda_0}}$

又由于概率密度积分的定义：
$\sum_{y^{(k)} = \mathcal S_{\mathcal Y}^{(l)}} p(y^{(k)} \mid x^{(k)}) = 1$

因此：
$\begin{aligned} \sum_{y^{(k)} = \mathcal S_{\mathcal Y}^{(l)}}\frac{e^{\Lambda^{T}\cdot f(x^{(k)},y^{(k)})}}{e^{1-\lambda_0}} = 1 \\ e^{1- \lambda_0} = \sum_{y^{(k)} = \mathcal S_{\mathcal Y}^{(l)}} e^{\Lambda^{T}\cdot f(x^{(k)},y^{(k)})} \end{aligned}$

最终：给定样本 $x^{(k)}$ 条件下， $y^{(k)}$ 的概率密度函数为：
$p(y^{(k)} \mid x^{(k)}) = \frac{e^{\Lambda^{T}\cdot f(x^{(k)},y^{(k)})}}{\sum_{y^{(k)} = \mathcal S_{\mathcal Y}^{(l)}} e^{\Lambda^{T}\cdot f(x^{(k)},y^{(k)})}}$

即 $S o f t ma x$ 激活函数。

总结

推导过程有一点崩了~，但是我们需要知道 $S o f t ma x$ 函数自身是怎么得到的，或者说为什么能用最大熵的方式推导出来，哪些步骤影响它得到这个结果：

核心：样本组成：它是一个包含样本、标签两种量的数据集合，由于样本、标签之间的关联关系导致我们选择 条件熵作为最大熵原理 的目标函数。

其次，仍然是样本组成：标签自身存在多种类别，从而导致这些标签的后验概率分布相加结果是1，这也 直接影响到 $S o f t ma x$ 函数结果分母的构成。

和指数族分布推导过程相比，我们知道了函数向量是从组合中得到的结果，相比之前泛化性的解释更加具有实际意义。

下一节继续回归指数族分布。

相关参考：
王木头学科学——最大熵

猜你喜欢

《21世纪机器人》一一3.1 后院的机器人
CSS学习笔记
关于Socket建立长连接遇到的bug信息
树莓派连接天猫精灵音箱通过蓝牙播放音乐的方法
阿里图标库使用IconFont
DataSet.Clear Method ()
浏览器的加载与页面性能优化
华为OD机试 - 快递业务站（Python）
CCS烧录uboot遇到的问题
SwiftUI提示之给提示框Alert传数据
创建一个gradle项目
C++ 遍历驱动列表（应用层下）
CSS border-radius:50%和100%的区别
《抓住听众心理——演讲者要知道的100件事》一8．短期记忆是有限的
常用端口
【华为OD机试真题 python】数组去重和排序【2022 Q4 | 100分】
biff - 新到邮件提醒
“买傅园慧送胡歌”，信息安全何以如此廉价
29岁转的python我得到的是什么
衡水中学学霸李江珊，高考英语149分，从不刷题的她如何做到的

相关主题

机器学习实战
[机器学习] 集成学习
机器学习算法分类
机器学习之感知机
笔记笔记笔记

zl程序教程

当前栏目

机器学习笔记之指数族分布——最大熵原理与softmax激活函数的关系

机器学习笔记之指数族分布——最大熵原理与softmax激活函数的关系

引言

符号定义

基于多维数据集合的经验概率分布

回顾：经验概率分布

多维数据的经验概率分布

$\mathcal Softmax$ 函数

$S o f t ma x$ 函数的推导过程

求解目标

最大熵原理——条件熵

求解过程

总结

相关文章

当前栏目

机器学习笔记之指数族分布——最大熵原理与softmax激活函数的关系

机器学习笔记之指数族分布——最大熵原理与softmax激活函数的关系

引言

符号定义

基于多维数据集合的经验概率分布

回顾：经验概率分布

多维数据的经验概率分布

S o f t m a x \mathcal Softmax Softmax函数

S o f t m a x Softmax Softmax函数的推导过程

求解目标

最大熵原理——条件熵

求解过程

总结

相关文章

$\mathcal Softmax$ 函数

$S o f t ma x$ 函数的推导过程