【机器学习】为什么会产生过拟合,有哪些方法可以预防或克服过拟合?(面试回答)
2023-09-14 09:13:09 时间
为什么会产生过拟合,有哪些方法可以预防或克服过拟合?
原因
一些假设条件(如样本独立同分布)可能是不成立的;训练样本过少不能对整个空间进行分布估计
判断依据
一般而言训练误差很低,但是测试误差较高,过拟合的概率较大,如果训练误差和测试误差都很高,一般是欠拟合。
解决方法
(1)数据集角度
- 增加样本量,数据集扩增
- 原有数据加随机噪声
- 重采样
(2)特征角度
- 特征选择
- 特征降维
(3)模型角度
- 降低模型复杂度
- 正则化 ,正则化正是通过在损失函数上添加额外的参数稀疏性惩罚项(正则项),来限制网络的稀疏性,以此约束网络的实际容量,从而防止模型出现过拟合。L1正则化是将权值的绝对值之和加入损失函数,使得权值中0值比重增大,因此得到的权值较为稀疏。L2正则化是将权重的平方之和加入损失函数,使得权值分布更加平均,所以权值较为平滑。
- Dropout舍弃,在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃,使得每次训练的网络结构多样。
(4)训练角度
-
早停止,如在训练中多次迭代后发现模型性能没有显著提高就停止训练
-
交叉验证
相关文章
- 机器学习十大经典算法之KNN最近邻算法
- 机器学习超参调优:常用8种方法
- 机器学习方法:回归(三):最小角回归Least Angle Regression(LARS),forward stagewise selection
- 李宏毅《机器学习 深度学习》简要笔记(一)
- 【硬核书】数学和Python机器学习的核心方法:构建逻辑的100个练习
- 基于现代R语言【Tidyverse、Tidymodel】的机器学习方法与案例分析
- python归一化函数_机器学习-归一化方法
- 10个机器学习中常用的距离度量方法
- 10个机器学习中常用的距离度量方法
- 297个机器学习彩图知识点(9)
- 7 Papers & Radios | 两栖机器龟登上Nature封面;深度去模糊综述论文入选IJCV
- AI再卷数学界,DSP新方法将机器证明成功率提高一倍
- Science Advances:社会和健康科学中用于描述、预测和因果推理的机器学习方法
- 机器学习中的特征选择(变量筛选)方法简介
- JCIM|激增的机器学习方法推动QSAR研究的再发展
- Absolut! 能不受约束地生成抗体-抗原结构,指导用于抗体特异性预测的机器学习方法
- 超越核方法的量子机器学习,量子学习模型的统一框架
- 图灵奖得主Judea Pearl谈机器学习:不能只靠数据
- 顶级AI学者邢波教授:机器学习缺乏清晰理论与工程框架,需重新思考评估方法及目标
- 如何让机器听起来更像人?CMU博士论文探究可控文本生成
- 时长Linux 机器的运行时长查看方法(linux查看运行)
- 深入Linux系统中查看机器名字的方法(linux查看机器名)
- tomcat6.0.20在一个机器上安装多个服务的方法