您现在的位置是：首页 > 硬件

当前栏目

机器学习笔记之线性回归——从概率密度函数角度认识最小二乘法

机器笔记学习最小回归线性认识乘法

2023-09-11 14:15:53 时间

机器学习笔记之线性回归——从概率密度函数角度认识最小二乘法

引言

引言

上一节介绍了线性回归，并介绍了对 表达自变量 $x$ 与因变量 $y$ 之间关系的拟合方程 $f(\mathcal W)$ 中参数 $\mathcal W$ 求解的一种工具——最小二乘法。本节将从 概率密度函数角度 观察最小二乘法。

回顾：符号定义与最小二乘法

已知数据集合 $D a t a$ 包含 $N$ 个由自变量 $x$ 与因变量 $y$ 组成的样本，并且 各样本之间独立同分布：
$\{(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),\cdots,(x^{(N)},y^{(N)})\}$
其中，任意一个自变量 $x^{(i)}(1=1,2,\cdots,N)$ 是一个 $p$ 维随机变量。记作 $x^{(i)} \in \mathbb R^{p}$ ：
$x^{(i)} = \begin{pmatrix} x_1^{(i)} \\ x_2^{(i)} \\ \vdots \\ x_p^{(i)} \end{pmatrix}$

因此，关于自变量 $x$ 的集合 $\mathcal X$ 可以表示为 $\times p$ 的矩阵：
$\mathcal X = (x^{(1)},x^{(2)},\cdots,x^{(N)})^{T} = \begin{pmatrix}{x^{(1)}}^{T} \\ {x^{(2)}}^{T} \\ \vdots \\{x^{(N)}}^{T}\end{pmatrix} = \begin{pmatrix} x_1^{(1)},x_2^{(1)},\cdots,x_p^{(1)} \\ x_1^{(2)},x_2^{(2)},\cdots,x_p^{(2)} \\ \vdots \\ x_1^{(N)},x_2^{(N)},\cdots,x_p^{(N)} \end{pmatrix}_{N \times p}$

对应的因变量 $y$ 的集合 $\mathcal Y$ 可表示为 $\times 1$ 的向量形式：
$\mathcal Y = \begin{pmatrix}y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(N)}\end{pmatrix}_{N \times 1}$

最小二乘法的表达式如下：
$\mathcal L(\mathcal W) = \sum_{i=1}^N||\mathcal W^{T}x^{(i)} - y^{(i)}||$

线性回归任务对于拟合方程 $f(\mathcal W) = \mathcal W^{T}x^{(i)}(i=1,2,\cdots,N)$ 的求解思路表示为：求解的模型参数 $\mathcal W$ 使得模型任意自变量 $x^{(i)}$ 的判别结果 $\mathcal W^{T}x^{(i)}$ 与对应因变量 $y^{(i)}$ 之间差距最小 $(i=1,2,\cdots,N)$ 。基于最小二乘估计方法，上述思路表示如下：
$\hat {\mathcal W} = \mathop{\arg\max}\limits_{\mathcal W}\mathcal L(\mathcal W)$

上一节中求解了 $\hat{\mathcal W}$ 的一般式：
$\hat {\mathcal W} = (\mathcal X^{T} \mathcal X)^{-1} \mathcal X^{T}\mathcal Y$

从概率密度函数角度观察最小二乘法

数据的随机性与噪声定义

继续观察最小二乘法的表达式：
$\mathcal L(\mathcal W) = \sum_{i=1}^N||\mathcal W^{T}x^{(i)} - y^{(i)}||^2$
目标是使 $\mathcal L(\mathcal W)$ 达到最小。那它的下界是多少呢？自然是0——假设存在某个自变量集合 $\mathcal X=\{x^{(1)},x^{(2)},\cdots,x^{(N)}\}$ 与其对应的因变量集合 $\mathcal Y=\{y^{(1)},y^{(2)},\cdots,y^{(N)}\}$ 之间属于 线性相关 关系，即任意一个 $y^{(i)}(i=1,2,\cdots,N)$ 均可以使用对应的 $x^{(i)}$ 进行线性表示。即：
$y^{(i)} = \mathcal W^{T}x^{(i)}$
那么， $\mathcal L(\mathcal W) = 0$ 恒成立。但这只是理想状态下的结果。在真实样本中，数据是存在噪声的，没有噪声的数据没有什么实际意义。

如果定义数据的噪声部分为 $\epsilon$ ，并假设 $\epsilon$ 服从高斯分布。即：
这里定义噪声 $\epsilon$ 与因变量 $\in \mathcal Y$ 相同，均是1维随机变量，即标量。
$\epsilon \sim \mathcal N(\mu,\sigma^2)$
基于上述理想状态下，因变量 $y^{(i)}$ 与自变量 $x^{(i)}$ 之间的新关系表示如下：
$y^{(i)} = f(\mathcal W) + \epsilon = \mathcal W^{T}x^{(i)} + \epsilon(i=1,2,\cdots,N)$
继续观察，由于 $\epsilon$ 服从高斯分布， $y^{(i)}$ 与 $x^{(i)}$ 之间存在线性关系，我们将 $y^{(i)}$ 理解为 高斯分布的随机结果 $\epsilon^{(i)}$ 向上平移了 $\mathcal W^{T}x^{(i)}$ 个单位 $(i=1,2,\cdots,N)$ ，只是换了个位置，但它仍然是高斯分布。基于该思路，我们发现： $y^{(i)}(i=1,2,\cdots,N)$ 也是高斯分布。它服从的概率密度函数表示为：
将高斯分布仅平移至另一个位置，它并没有改变高斯分布影响的范围。因此，它的方差自然不会发生变化。
$P(y^{(i)} \mid x^{(i)};\mathcal W) = \mathcal W^{T}x^{(i)} + \epsilon \sim \mathcal N(\mathcal W^{T}x^{(i)}+\mu,\sigma^2)$

至此，我们得到了一个概率模型 $P(y^{(i)} \mid x^{(i)};\mathcal W)$ 。使用极大似然估计方法求解概率模型 $P$ 的模型参数 $\mathcal W$ 。
定义 $L(\mathcal W)$ 表示关于模型参数 $\mathcal W$ 的 $\log$ 似然函数：
$L(\mathcal W) = \log P(\mathcal Y \mid \mathcal X;\mathcal W)$
由于数据集合 $D a t a$ 中各样本之间独立同分布，因此将 $L(\mathcal W)$ 展开：
$\begin{aligned} L(\mathcal W) & = \log \prod_{i=1}^N P(y^{(i)} \mid x^{(i)};\mathcal W) \\ & = \sum_{i=1}^N \log P(y^{(i)} \mid x^{(i)}; \mathcal W) \end{aligned}$
由于 $P(y^{(i)} \mid x^{(i)};\mathcal W) \sim \mathcal N(\mathcal W^{T}x^{(i)} + \mu,\sigma^2)$ ，直接将该高斯分布的概率密度函数表示出来：
$P(y^{(i)} \mid x^{(i)};\mathcal W) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left[y^{(i)} - \left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2}{2\sigma^2}}$
将概率密度函数带回上式：
$L(\mathcal W) = \sum_{i=1}^N \log \left(\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\left[y^{(i)} - \left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2}{2\sigma^2}}\right)$
将上式展开，展开结果如下：
$\begin{aligned} L(\mathcal W) & = \sum_{i=1}^N\log\left(\frac{1}{\sqrt{2\pi}\sigma}\right) + \sum_{i=1}^N\log e^{-\frac{\left[y^{(i)} - \left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2}{2\sigma^2}} \\ & = \sum_{i=1}^N \log \left(\frac{1}{\sqrt{2\pi}\sigma}\right) - \sum_{i=1}^N\frac{\left[y^{(i)} -\left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2}{2\sigma^2} \end{aligned}$
根据极大似然估计的定义，概率模型 $P(\mathcal Y \mid \mathcal X;\mathcal W)$ 的最优参数 $\hat{\mathcal W}$ 表示为：
$\hat {\mathcal W} = \mathop{\arg\max}\limits_{\mathcal W}L(\mathcal W)$
继续观察 $L(\mathcal W)$ 的展开结果：

第一项： $\sum_{i=1}^N \log\left(\frac{1}{\sqrt{2\pi}\sigma}\right)$ 和 $\mathcal W$ 无关，即无论 $\mathcal W$ 取何值，均不影响第一项结果的变化；
第二项：分母 $2\sigma^2$ 也和 $\mathcal W$ 无关。

至此，将 $\hat {\mathcal W}$ 结果化简如下：
$\begin{aligned} \hat{\mathcal W} & = \mathop{\arg\max}\limits_{\mathcal W}\left(\sum_{i=1}^N \log \left(\frac{1}{\sqrt{2\pi}\sigma}\right) - \sum_{i=1}^{N}\frac{\left[y^{(i)} - \left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2}{2\sigma^2}\right) \\ & = \mathop{\arg\max}\limits_{\mathcal W} -\sum_{i=1}^N\left[y^{(i)} - \left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2 \\ & = \mathop{\arg\min}\limits_{\mathcal W} \sum_{i=1}^N \left[y^{(i)} - \left(\mathcal W^{T}x^{(i)} + \mu\right)\right]^2 \end{aligned}$

将上述最优模型参数化简结果与最小二乘估计的标准式进行比较，发现：当 $\mu = 0$ 时，最小二乘法与极大似然估计法求解最优模型参数的结果 $\hat{\mathcal W}$ 相同。这意味着：使用最小二乘法处理的数据集合 $D a t a$ 内部噪声服从均值为0的高斯分布的假设。

下一节将介绍正则化。

相关参考：
最小二乘法-概率视角-高斯噪声-MLE

猜你喜欢

计算机总线系统简介
Google Earth Engine（GEE）——联合国粮农组织全球有机土壤面积（1992-2018年度）
【bzoj3866】The Romantic Hero dp
el-input type="textarea" 高度
C# Redis 切换数据库
JavaWeb入门笔记目录
ZooKeeper相关资料集锦
用最简单的例子理解策略模式(Strategy Pattern)
《HTTP协议：菜鸟入门系列》
SpringBlade token 未到过期时间 token经常自动失效问题已解决
《C++入门经典（第6版）》——2.6 问与答
Win10三月更新修复Edge浏览器PDF安全漏洞

相关主题

机器学习-PCA
机器学习
机器学习32问
机器学习-Kmeans
机器学习笔记
Python机器学习库
机器学习之梯度下降
机器学习——EM算法
机器学习-决策树
[机器学习] 集成学习
机器学习笔记（一）
机器学习和统计学习
机器学习之深度学习
机器学习模型评估
机器学习算法分类
机器学习之概率论
笔记笔记笔记
关于机器学习
笔记笔记

zl程序教程

当前栏目

机器学习笔记之线性回归——从概率密度函数角度认识最小二乘法

机器学习笔记之线性回归——从概率密度函数角度认识最小二乘法

引言

回顾：符号定义与最小二乘法

从概率密度函数角度观察最小二乘法

数据的随机性与噪声定义

相关文章