zl程序教程

您现在的位置是:首页 >  硬件

当前栏目

非平衡数据集的机器学习常用处理方法

机器方法学习数据 处理 常用 平衡
2023-09-27 14:27:08 时间
定义:不平衡数据集:在分类等问题中,正负样本,或者各个类别的样本数目不一致。 例子:在人脸检测中,比如训练库有10万张人脸图像,其中9万没有包含人脸,1万包含人脸,这个数据集就是典型的不平衡数据集。 直观的影响就是,用这些不平衡的数据训练出来的模型,其预测结果偏向于训练数据中数据比较多的那一类,在人脸检测的例子中,就是检测器的检测结果大部分都偏向于没有检测到人脸图像。 另外一个不平衡数据集,就

定义:不平衡数据集:在分类等问题中,正负样本,或者各个类别的样本数目不一致。

例子:在人脸检测中,比如训练库有10万张人脸图像,其中9万没有包含人脸,1万包含人脸,这个数据集就是典型的不平衡数据集。 
直观的影响就是,用这些不平衡的数据训练出来的模型,其预测结果偏向于训练数据中数据比较多的那一类,在人脸检测的例子中,就是检测器的检测结果大部分都偏向于没有检测到人脸图像。 
另外一个不平衡数据集,就是信用卡欺诈交易,如果平均的抽取数据,则大部分的数据都是非欺诈交易,只有非常少的部分数据是欺诈交易

影响:不平衡的数据集上做训练和测试,其得到的准确率是虚高的,比如在不平衡数据中,正负样本的比例为9:1时,当它的精度为90%时,我们很有理由怀疑它将所有的类别都判断为数据多的那一类。

解决方法:8种

1.收集更多的数据:


【ML】机器学习数据集:sklearn中分类数据集介绍 在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集。今天我们将介绍sklearn中几个常用的分类预测数据集。本教程使用的sklearn版本是1.0.2。
【ML】机器学习数据集:sklearn中回归数据集介绍 在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集。今天我们将介绍三个用于回归预测的数据集。
傲海 著有《机器学习实践应用》,阿里云机器学习PAI产品经理,个人微信公众号 ldquo;凡人机器学习 rdquo;。