您现在的位置是：首页 > 硬件

当前栏目

吴恩达机器学习笔记 —— 11 应用机器学习的建议

机器应用笔记学习建议 11 吴恩达

2023-09-11 14:17:24 时间

http://www.cnblogs.com/xing901022/p/9356783.html

本篇讲述了在机器学习应用时，如何进行下一步的优化。如训练样本的切分验证？基于交叉验证的参数与特征选择？在训练集与验证集上的学习曲率变化？在高偏差或者高方差时如何进行下一步的优化，增加训练样本是否有效？

更多内容参考机器学习&深度学习

如果已经创建好了一个机器学习的模型，当我们训练之后发现还存在很大的误差，下一步应该做什么呢？通常能想到的是：

1 获取更多的数据
2 尝试选择更少的特征集合
3 获得更多的特征
4 增加多项式特征
5 增加λ
6 减小λ

样本的切分：首先针对我们的样本集，选择其中的70%作为训练集，训练模型；选择其中的30%作为测试集，验证模型的准确度。当使用交叉验证时，就不能简单的把数据集分成两份了，因为这样无法同时选择模型并衡量模型的好坏。因此可以把样本分成3份，其中60%作为训练集，20%作为交叉验证集，20%作为准确率测试集。

通过多项式的维度与训练集和验证集的误差可以画出上面的图形。如果多项式维度很低，训练集和测试集误差都很大，就叫做高偏差，即欠拟合。如果维度很高，训练集的误差很低，但是验证集误差很高，就叫做高方差，即过拟合。针对正则化λ也可以用这种方式进行选择：

当训练样本很少时，训练的模型在训练集上很容易就拟合出来，所以误差很小，随着训练样本的增加，误差也随之增加；对于验证集，由于最开始的样本很少，泛化能力很差，所以误差很高，随着样本的增加，验证集的效果越来越好。

针对于高偏差的情况，由于多项式维度很低，所以拟合出来的是一条直线。因此随着样本的增加，训练集的误差也会增加，但是最后会趋于稳定。此时，增加样本数量并没有什么作用。

针对于高方差的情况，增加样本则会帮助模型拟合的更好。

猜你喜欢

14. Html5的局：WebGL的纹理格式
【云速建站】SSL证书自助部署
GPU 的硬件基本概念，Cuda和Opencl名词关系对应
QString字符串中双引号的梗
【u007】血色先锋队
初识Java Enum
测试者的视角
Python中Round函数：怎么解释？怎么用？
[System Design] Availability
C/C++每日一练(20230314)
reactos操作系统实现(24)
numpy 广播
DDPM代码详细解读(3)：图解模型各部分结构、用ConvNextBlock代替Resnet
【LiteOS】STM32F103-LiteOS移植教程（详细篇）

相关主题

python机器学习
机器学习-SVM
机器学习32问
机器学习初窥
机器学习之逻辑回归
机器学习基础篇_2/2
机器学习 | 交叉验证
机器学习是什么？
机器学习之深度学习
【机器学习】2、SVM
机器学习之KNN算法
机器学习算法比较
机器学习与R语言
笔记笔记笔记
机器算法

zl程序教程

当前栏目

吴恩达机器学习笔记 —— 11 应用机器学习的建议

相关文章