您现在的位置是：首页 > 硬件

当前栏目

（《机器学习》完整版系列）第10章降维与度量学习——10.10 度量学习（将欧氏距离推广成马氏距离）

机器学习系列 10 距离完整版推广度量

2023-09-11 14:14:53 时间

不同的矩阵 $\mathbf{M}$ 会得到不同的马氏距离，这就有一个寻找最优 $\mathbf{M}$ 的问题。
可以使用近邻成分分析学习 $\mathbf{M}$ 。

度量学习

在有趣的距离与范数中，我们讨论了距离，这里我们进一步地将欧氏距离推广成马氏距离，并讨论对其学习。

欧氏距离
$\begin{align} {\mathrm{dist}}^2(\boldsymbol{x}_i,\boldsymbol{x}_j) & =||\boldsymbol{x}_i,\boldsymbol{x}_j||_2^2\notag \\ & =(\boldsymbol{x}_i,\boldsymbol{x}_j)^{\mathrm{T}}(\boldsymbol{x}_i,\boldsymbol{x}_j)\notag \\ & =(\boldsymbol{x}_i,\boldsymbol{x}_j)^{\mathrm{T}}\mathbf{I}(\boldsymbol{x}_i,\boldsymbol{x}_j) \tag{10.116} \end{align}$
其中， $\mathbf{I}$ 为单位矩阵，即对角线为1的对角矩阵。

由此想到将改单位矩阵为一般的对角矩阵又如何？这就是将欧氏距离推广成含参数 $\mathbf{W}$ 的距离
$\begin{align} {\mathrm{dist}}^2(\boldsymbol{x}_i,\boldsymbol{x}_j) & =(\boldsymbol{x}_i,\boldsymbol{x}_j)^{\mathrm{T}}\mathbf{W}(\boldsymbol{x}_i,\boldsymbol{x}_j) \tag{10.117} \end{align}$
其中， $\mathbf{W}=\mathrm{diag}(w_1,w_2,\cdots,w_d)=\mathrm{diag}(\boldsymbol{w})$ ，视向量 $\boldsymbol{w}$ 为权重向量。对角矩阵说明 $d$ 维分量间是正交的，也即属性间无关。

若取消属性间无关的限制，可将对角矩阵 $\mathbf{W}$ 替换成半正定对称矩阵 $\mathbf{M}$ ，由矩阵理论，有正交基阵 $\mathbf{P}$ 使得 $\mathbf{M}=\mathbf{P}\mathbf{P}^{\mathrm{T}}$ ，则可定义新距离：
$\begin{align} d_m^2(\boldsymbol{x}_i,\boldsymbol{x}_j) & =(\boldsymbol{x}_i,\boldsymbol{x}_j)^{\mathrm{T}}\mathbf{M}(\boldsymbol{x}_i,\boldsymbol{x}_j) \tag{10.118} \\ & \mathop{=} \limits^{\mathrm{def}} ||\boldsymbol{x}_i-\boldsymbol{x}_j||^2_{\mathbf{M}} \end{align}$
称为马氏距离。非负性、同一性、对称性显然，直递性证明如下：

因 $\mathbf{M}$ 为半正定对称，故有分解： $\mathbf{M}=\mathbf{P}\mathbf{P}^{\mathrm{T}}$ ，其中， $\mathbf{P}$ 为正交基。则
$\begin{align} {\mathrm{dist}}_{\mathbf{M}}^2(\boldsymbol{x}_i,\boldsymbol{x}_j) & =(\boldsymbol{x}_i-\boldsymbol{x}_j)\mathbf{P}\mathbf{P}^{\mathrm{T}}(\boldsymbol{x}_i-\boldsymbol{x}_j)^{\mathrm{T}}\notag \\ & =\mathrm{tr}((\boldsymbol{x}_i-\boldsymbol{x}_j)\mathbf{P}\mathbf{P}^{\mathrm{T}}(\boldsymbol{x}_i-\boldsymbol{x}_j)^{\mathrm{T}})\notag \\ & =\mathrm{tr}(\mathbf{P}^{\mathrm{T}}(\boldsymbol{x}_i-\boldsymbol{x}_j)^{\mathrm{T}}(\boldsymbol{x}_i-\boldsymbol{x}_j)\mathbf{P})\notag \\ & =\mathrm{tr}(\mathbf{P}^{\mathrm{T}}||\boldsymbol{x}_i-\boldsymbol{x}_j||^2\mathbf{P})\notag \\ & =||\boldsymbol{x}_i-\boldsymbol{x}_j||^2\mathrm{tr}(\mathbf{P}^{\mathrm{T}}\mathbf{P})\notag \\ & =\alpha ^2||\boldsymbol{x}_i-\boldsymbol{x}_j||^2 \tag{10.119} \end{align}$
其中，由于 $\mathbf{P}$ 为正交基，故可设 $\mathrm{tr}(\mathbf{P}^{\mathrm{T}}\mathbf{P})=\alpha ^2$ 。
在式(10.119)中，由欧氏距离 $||\boldsymbol{x}_i-\boldsymbol{x}_j||^2$ 的直递性即可得到 ${\mathrm{dist}}_{\mathbf{M}}$ 的直递性。

显然，不同的矩阵 $\mathbf{M}$ 会得到不同的马氏距离，这就有一个寻找最优 $\mathbf{M}$ 的问题。

可以使用近邻成分分析学习 $\mathbf{M}$ 。

（1）点 $\boldsymbol{x}_i$ 的近邻点 $\boldsymbol{x}_j$ 到它的距离用马氏距离，按“近墨者黑”的原则，距离越近影响越大。

易知“影响度” $p$ 与“距离” $d$ 是一个反比例关系，如图10.2所示。

显然，从图10.2知，当 $d$ 越来越小时， $p$ 变得非常大，这也是我们不希望看到的，所以，希望有一个 “上界”。将图10.2中的图像向左平移，则得到有界，如图10.3。

如图10.3所示，不管距离多近，影响度不超过1，然而图10.3中函数的数学性质不太好，找一个图像与它相像，但数学性质好的函数代替，即有图10.4。

比较图10.3与图10.4，将二者放到一起得到图10.5。

由图10.5知，二者趋势一致且在距离 $d$ 足够小时二者非常接近，故这种替代是合理的。

（2）找到函数后，进一步优化

为避免开方，通常用距离的平方取代距离。
将影响度“概率化”（使其和为1），即 $\sum(\cdot)=1$ 。

故 $\boldsymbol{x}_j$ 对 $\boldsymbol{x}_i$ 的影响度为
$\begin{align} \frac{\mathrm{e}^{-d_j^2}}{\sum_j\mathrm{e}^{-d_j^2}} \tag{10.120} \end{align}$
整理即得【西瓜书式(10.35)】的定义。

（3）投票。 $k$ 近邻本来是考虑近邻的点才投票，但若采用式(10.120)【西瓜书式(10.35)】的概率投票，远距离的点影响甚微，故不妨把投票权放宽到整个样本集，这样就省了是否是近邻的判断。

样本集 $D$ 中，对一个具体的样本 $\boldsymbol{x}_i$ 而言，每个类别的样本子集对其都有一个总影响，设与 $\boldsymbol{x}_i$ 类别相同的样本 $\boldsymbol{x}_j$ 组成集合，设其下标集为 ${\Omega}_i$ ，且 ${\Omega}_i$ 中不含 $i$ （留一法），则预测 $\boldsymbol{x}_i$ 类别的正确率为
$\begin{align} p_i=\sum_{j \in {\Omega}_i}\text{（$\boldsymbol{x}_j$按式(10.120)投票）} \tag{10.121} \end{align}$
在整个样本集中，对每个样本都使用上述留一法得到其预测的正确率，让正确率之和 $\sum_{i=1}^mp_i$ 最大化，则得到NCA的优化目标【西瓜书式(10.38)】，可用随机梯度法求解。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：10.9 局部线性嵌入公式推导（更正书中的公式）
下一篇：11.1 子集搜索与评价（流水贪心，贪心法的优缺点）

猜你喜欢

Angular Universal Application 应该处理 HTTP POST 请求吗？
java实现第三届蓝桥杯机器人行走
python mysql插入数据遇到的错误
ASP.NET Core WebApi构建API接口服务实战演练
Python操作SQLite数据库的方法详解
Effective C++ Item 33 避免遮掩继承过来的名称
MariaDB 主从同步与热备
华为防火墙基础自学系列 | 证书申请步骤
Atitit prj 项目管理与行政管理(1)------项目环境的概览与建立
使用swaggo自动生成Restful API文档
JPA的入门案例
目标检测论文解读复现【NO.22】多尺度下遥感小目标多头注意力检测
java实现滑动解锁
释放你的C盘别让win7 C盘空间越来越小
【Java】Spring Boot 教程
分享价值，记录点滴！
[Practical Git] Diagnose which commit broke something with git bisect
Atitit 网络设备的自动发现机制需求如下： 1、自动获取当前设备所在网段及当前与当前网段有连接的网段的所有IP，并判断出是哪类设备。如：服务器、交换机、防火墙等。 2、如何根据第1点得到的
团队博客14
从零开始手写Tomcat的教程1-3节

相关主题

机器学习
机器学习概述
机器学习——决策树
Python机器学习·微教程
机器学习之深度学习

zl程序教程

当前栏目

（《机器学习》完整版系列）第10章降维与度量学习——10.10 度量学习（将欧氏距离推广成马氏距离）

度量学习

相关文章

当前栏目

（《机器学习》完整版系列）第10章 降维与度量学习——10.10 度量学习（将欧氏距离推广成马氏距离）

度量学习

相关文章

（《机器学习》完整版系列）第10章降维与度量学习——10.10 度量学习（将欧氏距离推广成马氏距离）