您现在的位置是：首页 > IT要闻

当前栏目

【机器学习】李宏毅——浅谈机器学习原理+鱼与熊掌兼得的深度学习简述

学习数据原理

2023-04-18 15:23:33 时间

如何评判一个训练集的好坏

如果我们希望得到一个训练集，并且用该训练集所训练出来的模型，在训练集上的误差和在整个数据空间上的误差相距较小，即写成如下表达式：

[L(h^{train},D_{all})-h(h^{all},D_{all})leq delta ]

那么训练集(D_{train})应该满足的条件为：

[forall h in H,lvert L(h,D_{train})-L(h,D_{all}) vert leq frac{delta}{2} ]

即对于假设空间中的任何模型在训练集上的误差和在整个数据空间上的误差之间的误差都小于某个值。推导过程如下：

[L(h^{train},D_{all}) leq L(h^{train},D_{train}) + frac{delta}{2} \ leq L(h^{all},D_{train}) + frac{delta}{2}\ leq L(h^{all},D_{all}) + frac{delta}{2} +frac{delta}{2}=L(h^{all},D_{all}) +delta ]

因此，我们总希望得到一个好的样本集，其能够满足：

[forall h in H,lvert L(h,D_{train})-L(h,D_{all}) vert leq varepsilon\ ]

下面则来探讨一下我们选取到坏的数据集的概率。

由前述的讨论可知，一个(D_{train})是坏的，则至少存在一个h使得它不满足上式，那么可以认为：

[P(D_{train}quad isbad)=igcup_{hin H}P(D_{train} quad is badquad duetoquad h)quad 所有可能的交集\ leq sum_{hin H}P(D_{train} quad is badquad duetoquad h)\ leq sum_{hin H}2exp(-2Nvarepsilon ^2)=lvert H vert 2exp(-2Nvarepsilon ^2)quad 根据不等式得到的 ]

那么可以看到：增加训练集样本的数据(N)或者减少假设空间的大小(lvert H vert)都可以使得拿到坏数据集的概率降低

但在实际运用中很少采用这样来进行衡量，因为随机计算一下上界就大于1了，这只是给我们启发如何做而已。

而在现实中通常另外收集数据这个方法很难实现，那如果刻意去减少(H)的大小呢，这虽然可以使上界降低，但如果使得(H)都没有能够让损失函数很小的假设，那这个减少就很没有意义了。如下图，虽然在更小的(H)能够让训练假设的误差更接近于完美假设的误差，但这个完美假设是在这个小的假设空间中选出来的，很可能它本身的误差就很大。
在这里插入图片描述

那么有没有可能有一个loss很低的完美假设，同时还能够让现实训练出来的假设和理想很接近呢？，即图中两个small都要。

鱼与熊掌可以兼得的机器学习

承接上文，如果我们要有一个loss很低的完美假设，同时还能够让现实训练出来的假设和理想很接近，那么最简单的想法当然是假设空间很小，但是假设空间里面的假设都是能够让损失函数非常小的好假设

这里需要补充一下前面讲过的内容“为什么需要隐含层”，可以看我这篇文章点此跳转，具体即讲述了神经网络是如何利用隐含层来逼近任何函数的。

那么是不是只要一个隐含层就够了呢？那么为什么还需要深度学习呢？

事实上，在实现同一个复杂函数时，使用深度较大宽度较小的网络，相较于只有一层而宽度很大的网络来说，其参数量会小很多，也就是说其效率会更高，同时参数量小也就说明需要的训练数据量也会小，也就更加不容易过拟合。

那么结合前面的说法，深度学习可以使得(H)的大小减小，并且效果也能够与(H)很大的宽度方向的神经网络相当。而在一些函数是复杂但有一定规律的情况下，深度学习的效果可以更好，其参数量可以更小。

猜你喜欢

深入理解Hadoop集群和网络
Windows 10革命性改进！驱动程序将和系统目录分离
大数据提速：Impala能否取代Hive
Ubuntu on Windows社区预览版发布：专为测试WSL新功能
Ubuntu 12.04搭建hadoop单机版环境
Linux Mint改进通知系统敦促用户升级以保障安全
Linux 5.13 将改善微软 Surface 键盘和触控板驱动
eBay利用大数据促进在线交易
Ubuntu 12.04 搭建 hadoop 集群版环境
苹果MacOS Big Sur 11.3开发者预览版/公测版Beta 6发布
Cloudera Impala：将Hadoop变为分析型数据库
修复Windows 10系统故障，离不了命令提示符，有十种打开方法
推荐7款好用的终端工具
Splunk实现与Hadoop的集成与监控
Cloudera Impala：基于Hadoop的实时查询开源项目
抢鲜尝试Fedora Linux的新i3定制版：WM爱好者的天堂
Hadoop管理员的十个最佳实践
鸿蒙内核源码分析(中断概念篇) | 外人眼中权势滔天的当红海公公
Splunk为Hadoop用户开启全新机会
微软出手：Edge 浏览器或将很快默认阻止网站自动播放视频

zl程序教程

当前栏目

【机器学习】李宏毅——浅谈机器学习原理+鱼与熊掌兼得的深度学习简述

如何评判一个训练集的好坏

鱼与熊掌可以兼得的机器学习

相关文章