非平衡数据集的机器学习常用处理方法
2023-09-27 14:27:08 时间
定义:不平衡数据集:在分类等问题中,正负样本,或者各个类别的样本数目不一致。
例子:在人脸检测中,比如训练库有10万张人脸图像,其中9万没有包含人脸,1万包含人脸,这个数据集就是典型的不平衡数据集。 直观的影响就是,用这些不平衡的数据训练出来的模型,其预测结果偏向于训练数据中数据比较多的那一类,在人脸检测的例子中,就是检测器的检测结果大部分都偏向于没有检测到人脸图像。 另外一个不平衡数据集,就
【ML】机器学习数据集:sklearn中分类数据集介绍 在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集。今天我们将介绍sklearn中几个常用的分类预测数据集。本教程使用的sklearn版本是1.0.2。
【ML】机器学习数据集:sklearn中回归数据集介绍 在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集。今天我们将介绍三个用于回归预测的数据集。
傲海 著有《机器学习实践应用》,阿里云机器学习PAI产品经理,个人微信公众号 ldquo;凡人机器学习 rdquo;。
定义:不平衡数据集:在分类等问题中,正负样本,或者各个类别的样本数目不一致。
例子:在人脸检测中,比如训练库有10万张人脸图像,其中9万没有包含人脸,1万包含人脸,这个数据集就是典型的不平衡数据集。
直观的影响就是,用这些不平衡的数据训练出来的模型,其预测结果偏向于训练数据中数据比较多的那一类,在人脸检测的例子中,就是检测器的检测结果大部分都偏向于没有检测到人脸图像。
另外一个不平衡数据集,就是信用卡欺诈交易,如果平均的抽取数据,则大部分的数据都是非欺诈交易,只有非常少的部分数据是欺诈交易
影响:不平衡的数据集上做训练和测试,其得到的准确率是虚高的,比如在不平衡数据中,正负样本的比例为9:1时,当它的精度为90%时,我们很有理由怀疑它将所有的类别都判断为数据多的那一类。
解决方法:8种
1.收集更多的数据:
【ML】机器学习数据集:sklearn中分类数据集介绍 在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集。今天我们将介绍sklearn中几个常用的分类预测数据集。本教程使用的sklearn版本是1.0.2。
【ML】机器学习数据集:sklearn中回归数据集介绍 在机器学习的教程中,我们会看到很多的demo,这些demo都是基于python中自带的数据集。今天我们将介绍三个用于回归预测的数据集。
傲海 著有《机器学习实践应用》,阿里云机器学习PAI产品经理,个人微信公众号 ldquo;凡人机器学习 rdquo;。
相关文章
- 机器学习四种调参方法总结
- Andrew Ng机器学习课程11之贝叶斯统计和正则化
- 机器学习-无监督学习-聚类:聚类方法(二)--- 基于密度的聚类算法【DBSCAN文本聚类算法,密度最大值文本聚类算法】
- 时间序列-异常检测(Anomaly Detection)(三):机器学习方法【XGBoost、SVM、随机森林】
- Jmeter 多台机器产生负载及问题解决方法
- 机器学习中常见的过拟合解决方法
- 【人工智能 AI】机器学习教程:如何降低模型损失?迭代方法与梯度下降方法
- ssh-keygen的使用方法及配置authorized_keys两台linux机器相互认证
- 再谈机器学习中的归一化方法(Normalization Method)
- 【机器学习算法-python实现】协同过滤(cf)的三种方法实现
- 机器学习与计算机视觉(FPGA的图像处理方法)
- 机器学习之确定最佳聚类数目的10种方法