您现在的位置是：首页 > 硬件

当前栏目

（《机器学习》完整版系列）第12章计算学习理论——12.4 有限假设空间不可分情形（退而求其次：不可知PAC可学习的）

机器计算学习系列空间 12 理论不可

2023-09-11 14:14:53 时间

在 $\mathcal{H}$ 有限但不可分时，在绝大多情况下（即排除情况（2）），学习算法 $\mathfrak{L}$ 无法学得目标概念 $c$ 的 $\epsilon$ 近似。
退而求其次，设 $\mathcal{H}$ 中泛化误差最小的假设 $h_0=\mathop{\arg\min}\limits_{h\in \mathcal{H}}E(h)$ ，则对 $h_0$ 而言，“ $\mathcal{H}$ 是可学习的”。

不可分情形

不可分情形（即 $\notin \mathcal{H}$ ），由【西瓜书推论12.1 式(12.18)】（或由【西瓜书定理12.1 式(12.19)】同样证明）知，对任意的 $h$ ，有
$\begin{align} % P\left(E(h)\geqslant \hat E(h)-\sqrt{\frac{\ln \frac{2}{\delta }}{2m}}\right)&\geqslant P\left( \hat E(h)-\sqrt{\frac{\ln \frac{2}{\delta }}{2m}} \leqslant E(h)\leqslant \hat E(h)+\sqrt{\frac{\ln \frac{2}{\delta }}{2m}}\right) & \geqslant 1-\delta \tag{12.10} \end{align}$

因 $\mathcal{H}$ 有限，故可取 $h_m=\mathop{\arg\min}\limits_{h \in \mathcal{H} }\hat E(h)$ ，分两种情况讨论：

（1）当 $\exists m$ 使得在 $D_ m$ 上 $\hat E(h_m)-\sqrt{\frac{\ln \frac{2}{\delta }}{2m}}>0$ 时

则
$\hat E(h_m)-\sqrt{\frac{\ln \frac{2}{\delta }}{2m}} \leqslant \hat E(h)-\sqrt{\frac{\ln \frac{2}{\delta }}{2m}}$
将其代入式(12.10)，则有
$\begin{align} P\left( \hat E(h_m)-\sqrt{\frac{\ln \frac{2}{\delta }}{2m}} \leqslant E(h)\leqslant \hat E(h)+\sqrt{\frac{\ln \frac{2}{\delta }}{2m}}\right) & \geqslant 1-\delta \notag \end{align}$
则有
$\begin{align} & \quad P\left( \hat E(h_m)-\sqrt{\frac{\ln \frac{2}{\delta }}{2m}} \leqslant E(h)\right)\notag \\ & \geqslant P\left( \hat E(h_m)-\sqrt{\frac{\ln \frac{2}{\delta }}{2m}} \leqslant E(h)\leqslant \hat E(h)+\sqrt{\frac{\ln \frac{2}{\delta }}{2m}}\right)\notag \\ & \geqslant 1-\delta \notag \\ P\left( \epsilon_m \leqslant E(h)\right) & \geqslant 1-\delta \tag{12.11} \end{align}$
其中， $\epsilon_m =\hat E(h_m)-\sqrt{\frac{\ln \frac{2}{\delta }}{2m}}$ （任意给定 $0<\delta <1$ ）。
注：这里用到两个技巧：上式用到“几乎成立”的不等式具有传递性；下式用到由集合的包含关系得到概率不等式。这些技巧在第~\ref{ch12:tri}节我们还会见到。

由已设定的情况，有 $0<\epsilon_m <1$ ，令
$\begin{align} 0<\epsilon <\epsilon_m \tag{12.12} \end{align}$
则由式(12.11)、式(12.12)有
$\begin{align} P\left( E(h) > \epsilon\right) & \geqslant P\left( E(h) \geqslant \epsilon_m \right)\notag \\ & \geqslant 1-\delta \notag \\ P\left( E(h) \leqslant \epsilon\right) & \leqslant \delta , \quad (\forall h \in \mathcal{H} ) \tag{12.13} \end{align}$
由此可知，对于上述 $\epsilon,\ \delta$ ，在 $D_m$ 上不存在 $h$ 满足式(12.2)，否则与式(12.13)矛盾，即此时不满足【西瓜书定义12.1(12.9)】的PAC可学习的条件。

（2）当 $\forall m$ ，在 $D_ m$ 上都有 $\hat E(h_m)-\sqrt{\frac{\ln \frac{2}{\delta }}{2m}}\leqslant 0$ 时（这里的“都”字是很难满足的，故通常忽略这一情形）

为清晰，将 $\hat E(h_m)=\min \hat E(h)$ 记 $\hat E_{D_m}(h_m)$ ，则有
$\begin{align*} 0<\hat E_{D_m}(h_m) & \leqslant \sqrt{\frac{\ln \frac{2}{\delta }}{2m}}\rightarrow 0,\quad (\text{若}\ m\rightarrow \infty ) \\ \hat E_{D_m}(h_m) & \rightarrow 0,\quad (\text{若}\ m\rightarrow \infty ) \end{align*}$
则可从中选出趋于0的单调下降子序列：
$\begin{align} \begin{cases} \{\hat E_{m_i}(h_{m_i})\}_{i=0}^\infty \\ \hat E_{m_s}(h_{m_s})>\hat E_{m_t}(h_{m_t})>0,\quad (\text{若} \ m_s<m_t) \\ \end{cases} \tag{12.14} \end{align}$
因 $\mathcal{H}$ 有限，而序列(12.14)无限，故必有某 $h$ （不妨设为 $h_0$ ）会重复无限次，将这个子序列列出
$\begin{align} \begin{cases} \{\hat E_{m_i}(h_0)\}_{i=0}^\infty \\ \hat E_{m_i}(h_0)\rightarrow 0 \\ \end{cases} \tag{12.15} \end{align}$
则有
$\begin{align} \hat E_{m_i}(h_0) & =\frac{1}{m_i}\sum_{x \in D_{m_i}}\mathbb{I} (h_0(x)\neq c(x))\qquad \text{（由定义）}\notag \\ & \rightarrow \mathbb{E}\ (\mathbb{I} (h_0(x)\neq c(x)))\qquad \text{（由大数定律）}\notag \\ & =E(h_0) \qquad \text{（由定义）} \tag{12.16} \end{align}$
由式(12.15)、式(12.16)得 $E(h_0)=0$ 。即存在 $h_0$ 满足【西瓜书定义12.1(12.9)】的PAC可学习的条件。

综上，在 $\mathcal{H}$ 有限但不可分时，在绝大多情况下（即排除情况（2）），学习算法 $\mathfrak{L}$ 无法学得目标概念 $c$ 的 $\epsilon$ 近似。
退而求其次，设 $\mathcal{H}$ 中泛化误差最小的假设 $h_0=\mathop{\arg\min}\limits_{h\in \mathcal{H}}E(h)$ ，则 $h_0\in \mathcal{H}$ ，将 $h_0$ 视为可分情形中的 $c$ ，则对 $h_0$ 而言，“ $\mathcal{H}$ 是可学习的”，即能“找到” $h_0$ 的 $\epsilon$ 近似，这就是【西瓜书定义12.5】的不可知PAC可学习。
$\begin{align} P((E(h)- \mathop{\arg\min}\limits_{h\in \mathcal{H}}E(h))\leqslant \epsilon)\geqslant 1-\delta \tag{12.17} \end{align}$
以式(12.17)取代式(12.2)，其他设定都相同，则称假设空间 $\mathcal{H}$ 是不可知PAC可学习的。同样，也有“高效”的定义，“高效”的学习算法才是我们关注的学习算法，其样本复杂度为满足要求的最小 $m$ 。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：12.3 有限假设空间可分情形
下一篇：12.5 无限假设空间

猜你喜欢

《惢客创业日记》2019.02.04（周一）只给50人发拜年短信
《图数据库》——2.1　关系型数据库缺少联系
pycharm2019
每周一篇(2)习惯的重要性
【知识点】脚本语言和编译语言
三大领域将成为5G应用支柱
使用Whoosh构建自己的搜索引擎、whoosh和jieba实现中文全文检索
35activiti - 用户任务（个人任务）
用两种不同的方法用指数正弦扫描估计模拟系统的Hammerstein核
怎么把绝对路径改动成相对路径
使用Eclispe 查看api技巧
30岁一无所长，转行做什么？我为什么会选择python？
《OSGi官方文档》使用OSGi的好处
本次孩子流感总结

相关主题

机器学习相关
机器学习-目录
数据分析和机器学习
云计算与边缘计算
云计算和边缘计算
机器学习-朴素贝叶斯
[机器学习] 集成学习
机器学习和统计学习
机器学习_knn算法_2
机器学习之深度学习
[ML] 机器学习简介
李宏毅机器学习
机器学习总结一
机器学习之数学基础
机器学习-视频
机器学习PAI
机器学习-01-KNN

zl程序教程

当前栏目

（《机器学习》完整版系列）第12章计算学习理论——12.4 有限假设空间不可分情形（退而求其次：不可知PAC可学习的）

不可分情形

相关文章

当前栏目

（《机器学习》完整版系列）第12章 计算学习理论——12.4 有限假设空间不可分情形（退而求其次：不可知PAC可学习的）

不可分情形

相关文章

（《机器学习》完整版系列）第12章计算学习理论——12.4 有限假设空间不可分情形（退而求其次：不可知PAC可学习的）