您现在的位置是：首页 > 其他

当前栏目

自助采样包含训练集里63.2%的样本?

训练包含样本采样自助

2023-09-11 14:15:27 时间

自助采样包含训练集里63.2%的样本?

在学习随机森林的时候，经常会看到这么一句话“ 自助采样法给bagging带来的好处就是:由于每个学习器只是使用了%63.2的数据,剩下的约%36.8的样本可以用作验证集来对泛化性能进行“包外估计”。“

那么这个63.2%是怎么来的呢？假设我们有n个样本，有放回的进行抽取，那么每个样本不被抽取的概率为$1 - \dfrac{1}{n}$。我们需要抽取n轮，那么某个样本一直不被抽到的概率为

\[p=(1 - \dfrac{1}{n})^n \]

当n足够大的时候有

\[p = \lim_{n\to +\infty}(1 - \dfrac{1}{n})^n \]

这个p该怎么算？实际上在课本里有一个公式

\[e^x=\lim_{n\to\infty}(1 + \dfrac{x}{n})^n \]

当x=-1的时候对应着上述的p，由此可得自助采样没有采到的样本大概占整个样本集的$e^{-1}$，那么自助采样包含训练集里的样本即为$1 - e^{-1} \approx 0.632 \approx \dfrac{2}{3}$

猜你喜欢

有趣的程序
大数据的寒冬已至，谁将倒下，谁成巨人？
【C语言】冒泡排序算法和冒泡排序的时间复杂度
考研数二第二讲数列/函数的极限
Jenkins_获取源码编译并启动服务（一）
大数据读书笔记(2)-流式计算
devenv.exe 编译Solution
软件开发模型：瀑布模型，增量模型，原型模型，螺旋模型，喷泉模型，敏捷开发模型
AngualrJS中每次$http请求时的一个遮罩层Directive
校企联合，走大数据职业人才培养创新之路
golang（3）：beego CRUD demo （1）
如何使用 SHA256 校验下载的文件
Cookie的Secure属性和HttpOnly属性
linux scull 函数open 方法
风向标：数据库技术趋势解读
C语言实现OOP 版本3 ：简化代码

相关主题

蓝桥杯训练5
Python 10 训练模型
（原）torch的训练过程
sql训练题
项目训练3

zl程序教程

当前栏目

自助采样包含训练集里63.2%的样本?

自助采样包含训练集里63.2%的样本?

相关文章