您现在的位置是：首页 > 硬件

当前栏目

机器学习笔记之线性分类——高斯判别分析(一)模型思路构建

机器思路笔记学习模型构建分类线性

2023-09-11 14:15:53 时间

机器学习笔记之线性分类——高斯判别分析之模型思路构建

引言

引言

上一节介绍了线性分类中概率判别模型的经典方法——逻辑回归(Logistic Regression)，本节将介绍线性分类中概率生成模型的经典方法——高斯判别分析(Gaussian Discriminant Aanlysis)。

回顾：软分类思想

从软分类角度观察线性分类：以二分类为例，假设样本数据以及样本标签分布表示如下：
$\mathcal X = (x^{(1)},x^{(2)},\cdots,x^{(N)})^{T}_{N \times p} \\ \mathcal Y = (y^{(1)},y^{(2)},\cdots,y^{(N)})^{T}_{N \times 1} \\ y^{(i)} \in \{0,1\}$

软分类的朴素思想 是：给定样本 $\mathcal X$ 条件下，判别后验概率 $P(\mathcal Y \mid \mathcal X)$ 之间的大小关系。即：
$P(\mathcal Y_{pred} = 0 \mid \mathcal X)\overset{\text{?}}{=}P(\mathcal Y_{pred} = 1 \mid \mathcal X)$
已知一个样本 $x^{(i)}$ ，通过某种方法得到了 $P(y_{pred}^{(i)}=0 \mid x^{(i)})$ 和 $P(y_{pred}^{(i)} =1 \mid x^{(i)})$ 之间大小关系：
$P(y_{pred}^{(i)}=0 \mid x^{(i)}) > P(y_{pred}^{(i)} =1 \mid x^{(i)})$
我们将基于样本 $x^{(i)}$ 的预测标签结果 $y_{pred}^{(i)}$ 判别为 $0$ ，反之同理。
基于上述思想，为了得到各后验概率间的大小关系，具体分为两种方法：概率判别模型、概率生成模型。

概率判别模型

概率判别模型的 朴素思想 是：既然要比较各后验概率间大小关系，那么干脆直接将各后验概率具体值求出来，然后直接比较即可。最典型的操作是逻辑回归(Logistic Regression)。
逻辑回归求解后验概率 $P(y^{(i)} \mid x^{(i)})$ 的方法是 利用模型进行求解。基于二分类的逻辑回归模型表示如下：
偏置项 $b$ 省略，融合进‘权重信息’ $\mathcal W$ 中。
$P(y_{pred}^{(i)} \mid x^{(i)}) = sigmoid(\mathcal W^{T}x^{(i)}) = \frac{1}{1 + e^-{\mathcal W^{T}x^{(i)}}}$
对应两种后验概率表示如下：
$\begin{cases} P(y_{pred}^{(i)} =1 \mid x^{(i)}) = \frac{1}{1 + e^-{\mathcal W^{T}x^{(i)}}} \\ P(y_{pred}^{(i)} =0 \mid x^{(i)}) = 1 - \frac{1}{1 + e^-{\mathcal W^{T}x^{(i)}}} = \frac{e^{-\mathcal W^{T}x^{(i)}}}{1 + e^{-\mathcal W^{T}x^{(i)}}} \end{cases}$

最终对后验概率 $P(y_{pred}^{(i)} \mid x^{(i)})$ 进行极大似然估计，等价于最小化交叉熵方法，最终求解最优模型参数 $\mathcal W$ 。
要重点关注的是：最终求解的参数是模型参数。

概率生成模型

概率生成模型的 朴素思想 是：相比于概率判别模型直接求解 $P(y^{(i)} \mid x^{(i)})$ ，由于最终目标是判断后验概率的大小关系，因此不需要将 $P(y^{(i)} \mid x^{(i)})$ 求解出来也能够判别出大小关系。

概率生成模型实现判别任务的核心依据：贝叶斯定理：
$P(\mathcal Y_{pred} = i \mid \mathcal X) = \frac{P(\mathcal X \mid \mathcal Y = i)P(\mathcal Y=i)}{P(\mathcal X)} \quad (i=0,1)$
其中分母 $P(\mathcal X)$ 是一个关于样本集合 $\mathcal X$ 的边缘概率分布：
$P(\mathcal X) = \int_{\mathcal Y}P(\mathcal X \mid \mathcal Y)P(\mathcal Y)d\mathcal Y$
由于 $P(\mathcal X)$ 和 $\mathcal Y$ 无关，因此将 $P(\mathcal X)$ 视为常数；从而可以将 $P(\mathcal Y_{pred}=i \mid \mathcal X)$ 表示如下：
$P(\mathcal Y_{pred}=i \mid \mathcal X) \propto P(\mathcal X \mid \mathcal Y=i)P(\mathcal Y=i) \quad (i=0,1)$
因而根据概率生成模型的朴素思想，对结果的比较方式进行替换：
$P(\mathcal Y_{pred} = 0 \mid \mathcal X)\overset{\text{?}}{=}P(\mathcal Y_{pred} = 1 \mid \mathcal X) \\ \to P(\mathcal X \mid \mathcal Y=0)P(\mathcal Y = 0) \overset{\text{?}}{=} P(\mathcal X \mid \mathcal Y=1)P(\mathcal Y = 1)$

观察等式两边的任意一项：
$P(\mathcal Y = 0)$ 表示关于标签数据结果为 $0$ 的先验概率分布； $P(\mathcal X \mid \mathcal Y=0)$ 表示标签数据确定的情况下，样本 $\mathcal X$ 的概率分布，即似然的概率分布。

根据概率生成模型的朴素思想，我们将通过求解似然、先验分布的概率分布参数来比较后验概率分布的大小。

通过比较发现：
概率判别模型与概率生成模型的核心区别：

概率判别模型求解的是模型参数；
概率生成模型求解的是概率分布参数；

高斯判别分析

高斯判别分析就是基于概率生成模型的朴素思想，对似然 $P(\mathcal X \mid \mathcal Y)$ 、先验 $P(\mathcal Y)$ 进行一系列假设，从而通过对似然、先验概率进行求解来替代后验概率 $P(\mathcal Y \mid \mathcal X)$ 进行比较。

场景描述

仍然以二分类为例，数据集合 $\{(x^{(i)},y^{(i)})\}_{i=1,2,\cdots,N}$ ；其中任意 $x^{(i)}$ 是 $p$ 维向量，对应 $y^{(i)}$ 是一个表示分类标签的标量：
$x^{(i)} = (x_1^{(i)},x_2^{(i)},\cdots,x_p^{(i)})^{T} \\ y^{(i)} \in \{0,1\}$

策略构建

由于是二分类，我们不妨设分类标签的先验概率服从伯努利分布。即：
这个‘伯努利分布’仅因为我们假设的是二分类而设定的，如果是多分类，也可以设置为categorical分布。
$\mathcal Y \sim Bernoulli(\phi)$
其中 $\phi$ 表示选择各类标签的概率。任意分类标签 $y^{(i)}(i=1,2,\cdots,N)$ 的概率分布选择 表示如下：

$y^{(i)}$	1	0
$P$	$\phi$	$\phi$

因此，分类标签的先验概率 $P(\mathcal Y)$ 的概率密度函数表示如下：
$P(\mathcal Y) = \phi^{\mathcal Y}(1- \phi)^{1- \mathcal Y}$

高斯判别分析的核心假设：
在分类标签的先验概率分布确定的条件下，我们设各标签对应的似然 $P(\mathcal X \mid \mathcal Y = 0),P(\mathcal X \mid \mathcal Y = 1)$ 均 服从高斯分布，为了简化运算，假定两个高斯分布包含 相同的协方差信息。
该假设不同于‘先验分布假设’，该假设是’高斯判别分析‘的特有假设。
$\begin{cases}\mathcal X \mid \mathcal Y=1 \sim \mathcal N(\mu_1,\Sigma) \\ \mathcal X \mid \mathcal Y =0 \sim \mathcal N(\mu_2,\Sigma)\end{cases}$
将 $P(\mathcal X \mid \mathcal Y)$ 的概率密度函数表示如下：
$P(\mathcal X \mid \mathcal Y) = \mathcal N(\mu_1,\Sigma)^{\mathcal Y}\mathcal N(\mu_2,\Sigma)^{1- \mathcal Y}$
上述公式同逻辑回归中后验概率的处理方法，只是 合并上述两种似然情况的一种表达方式：

当 $\mathcal Y = 0$ 时， $P(\mathcal X \mid \mathcal Y) = \mathcal N(\mu_2,\Sigma)$ ；
当 $\mathcal Y=1$ 时， $P(\mathcal X \mid \mathcal Y) = \mathcal N(\mu_1,\Sigma)$ ；

至此，似然、先验概率分布均表达完毕。观察具体对哪些概率分布参数进行求解：
$\theta = \left\{\mu_1,\mu_2,\Sigma,\phi\right\}$
对 $P(\mathcal X,\mathcal Y) = P(\mathcal X \mid \mathcal Y)P(\mathcal Y)$ 进行极大似然估计：

有人可能会问：既然已经引入了’先验概率‘ $P(\mathcal Y)$ ,为什么依然是’极大似然估计‘(MLE)，不应该是’最大后验概率估计‘(MAP)吗？
以下是个人理解：
在极大似然估计与最大后验概率估计中介绍过，最大后验概率估计可以理解为在极大似然估计的基础上，添加一个先验分布作为约束，但是该先验分布是 预先知道的，分布中没有任何未知量。
就像文中提到的投掷骰子的例子，我们让先验分布 $P(\theta)$ 服从一个高斯分布：
$\theta \sim \mathcal N(\mu=0.5,\sigma^2=0.01)$
但高斯判别分析的假设中，对于先验分布 $P(\mathcal Y)$ 中的 $\phi$ 同样是未知的，也是待求解的一部分。因此，与其说是极大似然估计，还不如说是极大联合概率分布估计。

极大似然估计表达如下：
为了方便计算，依然使用 $\log$ 似然：
$\begin{aligned}\mathcal L(\theta) & = \log \prod_{i=1}^N P(x^{(i)},y^{(i)}) \\ & = \sum_{i=1}^N \log\left[P(x^{(i)} \mid y^{(i)})P(y^{(i)})\right]\end{aligned}$
其中 $\theta =\{\mu_1,\mu_2,\Sigma,\phi\}$ ，最优模型参数表示如下：
$\begin{aligned}\hat {\theta} & = \mathop{\arg\max}\limits_{\theta} \mathcal L(\theta) \\ & = \mathop{\arg\max}\limits_{\theta} \sum_{i=1}^N \log\left[P(x^{(i)} \mid y^{(i)})P(y^{(i)})\right] \\ & = \mathop{\arg\max}\limits_{\theta} \sum_{i=1}^N \left[\log P(x^{(i)} \mid y^{(i)}) + \log P(y^{(i)})\right] \end{aligned}$
将对应概率密度函数代入上式：
$\begin{aligned}\hat {\theta} & = \mathop{\arg\max}\limits_{\theta} \sum_{i=1}^N \left\{\log \left[\mathcal N(\mu_1,\Sigma)^{y^{(i)}} \mathcal N(\mu_2,\Sigma)^{1 - y^{(i)}}\right] + \log\left[\phi^{y^{(i)}}(1 - \phi)^{1 - y^{(i)}}\right]\right\} \\ \end{aligned}$
为了方便对各参数求最优解，将 $\mu_1,\mu_2$ 参数分开，最终表示结果如下：
$\hat {\theta} = \mathop{\arg\max}\limits_{\theta} \sum_{i=1}^N \left\{\log \left[\mathcal N(\mu_1,\Sigma)^{y^{(i)}}\right] + \log \left[\mathcal N(\mu_2,\Sigma)^{1 - y^{(i)}}\right] + \log\left[\phi^{y^{(i)}}(1 - \phi)^{1 - y^{(i)}}\right]\right\}$

下一节将对 $\theta$ 中的各个参数求最优解。

猜你喜欢

Meavn项目中log4j的使用
多线程也不一定比单线程快
毕业2年转行软件测试获得12K+,不考研月薪过万的梦想实现了
怎么把一年的目标和工作计划在手机上写好并保存?
2.2 数组列表
C# 线程安全集合
05 - vulhub - Apache HTTPD 换行解析漏洞（CVE-2017-15715）
根据条件选择pandas DataFrame中的行
jquery 提示弹窗
莫烦python教程地址
Java实现 LeetCode 762 二进制表示中质数个计算置位（位运算+JDK的方法）
修改HTML5 input placeholder 颜色及修改失效的解决办法
黑苹果 CPU温度获取 (这个有问题谨慎安装)
运维题目（十三）
k8s修改kube-apiserver的service-node-port-range端口范围
lnmp架构下php安全配置分享
2013百度校园招聘数据挖掘工程师
y15.第一章 Ceph企业级存储实战进阶 -- 对象存储RadosGW 使用(十五)
SAP Spartacus 基于行项目的订单取消功能(order cancel)实现
刷题笔记｜计算两个年份间某一日期是周末的天数，发现ctime库对象有时间范围(C++|Python )
Oracle 中 dual 详解

相关主题

机器学习面试
机器学习分类
数据分析和机器学习
机器学习——Adaboost
机器学习的方法
机器学习---聚类算法
机器学习笔记（一）
机器学习之逻辑回归
《Scala机器学习》一一
机器学习-归一化
机器学习优化算法
笔记笔记笔记
机器学习原理
机器学习入门
机器学习框架
机器学习PAI

zl程序教程