自助采样包含训练集里63.2%的样本?
训练 包含 样本 采样 自助
2023-09-11 14:15:27 时间
自助采样包含训练集里63.2%的样本?
在学习随机森林的时候,经常会看到这么一句话“ 自助采样法给bagging带来的好处就是:由于每个学习器只是使用了%63.2的数据,剩下的约%36.8的样本可以用作验证集来对泛化性能进行“包外估计”。“
那么这个63.2%是怎么来的呢?假设我们有n个样本,有放回的进行抽取,那么每个样本不被抽取的概率为\(1 - \dfrac{1}{n}\)。我们需要抽取n轮,那么某个样本一直不被抽到的概率为
\[p=(1 - \dfrac{1}{n})^n
\]
当n足够大的时候有
\[p = \lim_{n\to +\infty}(1 - \dfrac{1}{n})^n
\]
这个p该怎么算?实际上在课本里有一个公式
\[e^x=\lim_{n\to\infty}(1 + \dfrac{x}{n})^n
\]
当x=-1的时候对应着上述的p,由此可得自助采样没有采到的样本大概占整个样本集的\(e^{-1}\),那么自助采样包含训练集里的样本即为\(1 - e^{-1} \approx 0.632 \approx \dfrac{2}{3}\)
相关文章
- POJ训练计划3096_Surprising Strings(STL/map)
- 改变网络输入图像分辨率需要不需要重新训练?
- 机器学习笔记之深度玻尔兹曼机(三)预训练思路整理
- 个性化搜索召回模型设计--训练部分
- Caffe学习系列(20):用训练好的caffemodel来进行分类
- 使用Mini-ImageNet训练分类网络
- 构建分割模型的基本库 使用几行代码构建和训练用于图像分割的神经网络模型(教程含源码)
- 【前端作业系列】HTML基础点 , 训练表格(2022年6月17日作业)
- 传统神经网络ANN训练算法总结 参考 。 以后研究
- 手把手教你搭建一个深度网络模型:从输入层-激活函数-损失函数-优化方法-输出层-执行训练
- 蓝桥杯 之 算法训练 排序
- 蓝桥杯训练5
- 算法训练 Pollution Solution(计算几何)