您现在的位置是：首页 > 硬件

当前栏目

（《机器学习》完整版系列）第2章模型评估与选择 ——2.8 学习器的比较（除用ROC等工具外，还可用统计检验手段)

机器统计工具学习系列模型选择比较

2023-09-11 14:14:53 时间

除了用ROC等工具进行过两学习器的比较外，我们还可用统计检验的手段进行两算法（甚至多算法）的比较。
提高性能就是改善泛化误差，而泛化误差可分解为偏差、方差与噪声之和，它们之间是有冲突的，通过控制训练程度来平衡它们之间的冲突。

性能比较

前面我们曾用ROC等工具进行过两学习器的比较，这里我们用统计检验的手段进行两算法（甚至多算法）的比较（这里主要是从泛化能力（性能）角度来进行学习器优劣的比较，在实际应用层面进行学习器选择时，还应考虑其他指标，如，学习器 $A$ 准确率很高但得运行几分钟，学习器 $B$ 准确率稍低但运行时间不到一秒，那么，在医学上应选 $A$ ，而手机上的日常应用中应选 $B$ 。这类涉及人们关注点，通常作为满意度指标（如，运行时间），用阈值来定义）。统计检验的关键是寻找合适的统计量，然后，利用前述的检验方法进行检验。

1.交叉验证+检验

两学习器的性能是否相等？

用 $k$ 折交叉验证方法可以得到一组“成对”数据，由【西瓜书式(2.31)】所定义的统计量 $\tau _t$ 可用于 $t$ 检验。

2.用 $\chi ^2$ 检验

【西瓜书式(2.33)】定义的统计量 $\tau _{\chi ^2}$ 服从自由度为 $1$ 的 $\chi ^2$ （卡方）分布，可用于判断两学习器的性能是否有显著差别。

【西瓜书式(2.34)】定义的统计量 $\tau _{\chi ^2}$ 服从自由度为 $k - 1$ 的 $\chi ^2$ （卡方）分布，可用于判断多个（ $k$ 个）学习器（或算法）的性能是否相同。

3.用 $F$ 检验

【西瓜书式(2.35)】定义的统计量 $\tau _F$ 服从自由度为 $k - 1$ 和 $(k - 1) (N - 1)$ 的 $F$ 分布（注： $F$ 分布有两个自由度，其中， $k$ 为学习器的个数， $N$ 为测试集个数），可用于判断多个（ $k$ 个）学习器（或算法）的性能是否相同。

偏差与方差*

【西瓜书式(2.42)】将泛化误差分解为偏差、方差与噪声之和，并通过【西瓜书图2.9】分析了偏差与方差的冲突，讨论了通过控制训练程度来平衡冲突。

这里对【西瓜书式(2.42)】的推导进行补充。

算法 $f$ 基于训练集 $D$ ，可得到模型 $f_D$ ，现在，设有 $n$ 个人对同一算法 $f$ 独立地进行实验，他们有各自的训练集 $D_i$ ，以及基于该训练集的各人的观测标记 $y_{D_i}(\boldsymbol{x})$ 和各人训练好的用于预测的模型为 $f_{D_i}$ 。

这 $n$ 个人训练完之后，再一起考虑测试，样本空间中去掉他们的训练集后，取一能代表样本分布的大子集 $T$ 作为测试集，即
$\begin{equation*} T\subset \mathcal{X} \setminus \bigcup _{i=1}^nD_i \end{equation*}$
测试集 $T$ 上模型 $f_D$ 的测试误差可视为其泛化误差
$E(f_D;T)=\mathop{\mathbb{E}}\limits_{\substack{\boldsymbol{x} \in T}} [f_D(\boldsymbol{x})-y_D(\boldsymbol{x})]^2 \tag{1}$
其中， $E$ 表示测试误差， $\mathbb{E}$ 表示平均（数学期望），后续推导中常以 $f_D$ 表示预测值 $f_D(\boldsymbol{x})$ 的简写， $y_D$ 简记 $\boldsymbol{x}$ 在相对于 $f_D$ 时的观测标记 $y_D(\boldsymbol{x})$ 。由于有噪声，故一方面可能 $y_D\neq y$ （ $y$ 为 $\boldsymbol{x}$ 的真实标记），另一方面可能 $y_{D_1}\neq y_{D_2}$ （即同一 $\boldsymbol{x}$ 相对于不同的 $f_{D_1}$ 与 $f_{D_2}$ 的观测标记，理解为各人的视察结果不相同）。相关符号如图1所示。
图1相关记号

图1相关记号

对 $f_D$ 的泛化误差求平均（期望），则得算法 $f$ 的泛化误差
$\begin{align} E(f;T) & =\mathop{\mathbb{E}}\limits_{\substack{D \in \{D_i\}_{i=1}^n }} [E(f_D(\boldsymbol{x});T)]\notag \\ & =\mathop{\mathbb{E}}\limits_{\substack{D \in \{D_i\}_{i=1}^n }}\mathop{\mathbb{E}}\limits_{\substack{\boldsymbol{x} \in T}} [f_D-y_D]^2\notag \\ & =\mathop{\mathbb{E}}\limits_{\substack{\boldsymbol{x} \in T}} \mathop{\mathbb{E}}\limits_{\substack{D \in \{D_i \}_{i=1}^n}} [f_D-y_D]^2 \tag{2} \end{align}$

对 $T$ 中任一样本 $\boldsymbol{x}$ 有唯一的真值 $y(\boldsymbol{x})$ ，但由于有 $n$ 个独立的实验者，故对样本 $\boldsymbol{x}$ 有一串预测值 $f_{D_1}(\boldsymbol{x}),f_{D_2}(\boldsymbol{x}),\cdots,f_{D_n}(\boldsymbol{x})$ ，同时对应地也有一串观测值 $y_{D_1}(\boldsymbol{x}),y_{D_2}(\boldsymbol{x}),\cdots,y_{D_n}(\boldsymbol{x})$

对观测值取平均，由于噪声的期望值为0，故有
$\mathop{\mathbb{E}}\limits_{\substack{D \in \{D_i \}_{i=1}^n}} (y_D(\boldsymbol{x})-y(\boldsymbol{x}))=0 \tag{3}$

对预测值取平均
$\overline{f}(\boldsymbol{x})=\mathop{\mathbb{E}}\limits_{\substack{D \in \{D_i \}_{i=1}^n}} f_D(\boldsymbol{x})$
移项有
$\mathop{\mathbb{E}}\limits_{\substack{D \in \{D_i \}_{i=1}^n}} (f_D(\boldsymbol{x})-\overline{f}(\boldsymbol{x}))=0 \tag{4}$

对于固定的 $\boldsymbol{x} \in T$ ， $f_D(\boldsymbol{x})$ 与 $y_D(\boldsymbol{x})$ （前者是预测值，后者是对应的观察值）是独立的基于 $D$ 的随机变量，而对于 $D$ 而言， $\overline{f}(\boldsymbol{x})$ 为常数，故 $(f_D(\boldsymbol{x})-\overline{f}(\boldsymbol{x}))$ 与 $(y_D(\boldsymbol{x})-\overline{f}(\boldsymbol{x}))$ 是独立的。由独立性有
$\begin{align} & \quad \mathop{\mathbb{E}}\limits_{\substack{D \in \{D_i \}_{i=1}^n}} (f_D(\boldsymbol{x})-\overline{f}(\boldsymbol{x}))(y_D(\boldsymbol{x})-\overline{f}(\boldsymbol{x}))\notag \\ & =\mathop{\mathbb{E}}\limits_{\substack{D \in \{D_i \}_{i=1}^n}} (f_D(\boldsymbol{x})-\overline{f}(\boldsymbol{x}))\mathop{\mathbb{E}}\limits_{\substack{D \in \{D_i \}_{i=1}^n}} (y_D(\boldsymbol{x})-\overline{f}(\boldsymbol{x})) \notag \\ & =0\cdot \mathop{\mathbb{E}}\limits_{\substack{D \in \{D_i \}_{i=1}^n}} (y_D(\boldsymbol{x})-\overline{f}(\boldsymbol{x})) \qquad\text{（由式(4)）}\notag \\ & =0 \tag{5} \end{align}$

现在回到【西瓜书式(2.41)】的证明，将其证明过程中的“=”依次编号，则第三个等号后的交叉项由式(5)知其为0；第六个等号后的交叉项由式(3)知其为0（对于 $D$ 而言， $(\overline{f}(\boldsymbol{x})-y)$ 为常数）。
再由式(2)和【西瓜书式(2.41)第一个等号以及式(2.42)】有
$\begin{align} E(f;T) & =\mathop{\mathbb{E}}\limits_{\substack{\boldsymbol{x} \in T}}E(f(\boldsymbol{x});D)\notag \\ & =\mathop{\mathbb{E}}\limits_{\substack{\boldsymbol{x} \in T}}(\mathrm{var}(\boldsymbol{x})+\mathrm{bias}^2(\boldsymbol{x})+\varepsilon ^2(\boldsymbol{x})) \tag{6} \\ & =\mathop{\mathbb{E}}\limits_{\substack{\boldsymbol{x} \in T}}\mathrm{var}(\boldsymbol{x})+\mathop{\mathbb{E}}\limits_{\substack{\boldsymbol{x} \in T}}\mathrm{bias}^2(\boldsymbol{x})+\mathop{\mathbb{E}}\limits_{\substack{\boldsymbol{x} \in T}}\varepsilon ^2(\boldsymbol{x})\notag \\ & =\mathrm{var}+\mathrm{bias}^2+\varepsilon ^2 \tag{7} \end{align}$
式(6)或式(7)为算法 $f$ 的泛化误差分解式，相当于对【西瓜书式(2.42)】取数学期望，故消去了 $\boldsymbol{x}$ 。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：2.7 具体的性能检验方法
下一篇：2.9 在机器学习开发实践中如何改善学习器的性能？

猜你喜欢

如何找回SQL Server实例安装时的序列号
使用Async和Await进行异步编程（C#版适用于VS2015）
全球变暖的数据
2015第十周二
事件引入和本质
sqlserver 将一个表中的某些字段更新到另一个表中（转载）
论黑盒测试与白盒测试在软件测试中的不同作用
高德纳：本年度计算机设备销售额将下滑
第四章、Go-面向“对象”
C#学习记录——接口
Sa-token给用户分配权限或分配角色
如何处理Express异常？
http://blog.csdn.net/gobitan/article/details/1809763
6. 成功解决：Driver class ‘com.microsoft.sqlserver.jdbc.SQLServerDriver‘ could not be found
解释器就是虚拟机
智能视觉组参赛总结及体会- 西安邮电大学 - AI小布丁
python中sys库用法详解

相关主题

机器学习实践
机器学习实战
数据分析和机器学习
Python机器学习库
机器学习——Adaboost
机器学习-朴素贝叶斯
机器学习和统计学习
机器学习：线性回归
【机器学习】2、SVM
机器学习模型评估
机器学习原理
机器学习-矩阵
机器学习总结

zl程序教程

当前栏目

（《机器学习》完整版系列）第2章模型评估与选择 ——2.8 学习器的比较（除用ROC等工具外，还可用统计检验手段)

性能比较

偏差与方差*

相关文章

当前栏目

（《机器学习》完整版系列）第2章 模型评估与选择 ——2.8 学习器的比较（除用ROC等工具外，还可用统计检验手段)

性能比较

偏差与方差*

相关文章

（《机器学习》完整版系列）第2章模型评估与选择 ——2.8 学习器的比较（除用ROC等工具外，还可用统计检验手段)