您现在的位置是：首页 > 硬件

当前栏目

非平衡数据集的机器学习常用处理方法

机器方法学习数据处理常用平衡

2023-09-27 14:27:08 时间

定义：不平衡数据集：在分类等问题中，正负样本，或者各个类别的样本数目不一致。例子：在人脸检测中，比如训练库有10万张人脸图像，其中9万没有包含人脸，1万包含人脸，这个数据集就是典型的不平衡数据集。直观的影响就是，用这些不平衡的数据训练出来的模型，其预测结果偏向于训练数据中数据比较多的那一类，在人脸检测的例子中，就是检测器的检测结果大部分都偏向于没有检测到人脸图像。另外一个不平衡数据集，就

定义：不平衡数据集：在分类等问题中，正负样本，或者各个类别的样本数目不一致。

例子：在人脸检测中，比如训练库有10万张人脸图像，其中9万没有包含人脸，1万包含人脸，这个数据集就是典型的不平衡数据集。
直观的影响就是，用这些不平衡的数据训练出来的模型，其预测结果偏向于训练数据中数据比较多的那一类，在人脸检测的例子中，就是检测器的检测结果大部分都偏向于没有检测到人脸图像。
另外一个不平衡数据集，就是信用卡欺诈交易，如果平均的抽取数据，则大部分的数据都是非欺诈交易，只有非常少的部分数据是欺诈交易

影响：不平衡的数据集上做训练和测试，其得到的准确率是虚高的，比如在不平衡数据中，正负样本的比例为9：1时，当它的精度为90%时，我们很有理由怀疑它将所有的类别都判断为数据多的那一类。

解决方法：8种

1.收集更多的数据：

【ML】机器学习数据集：sklearn中分类数据集介绍在机器学习的教程中，我们会看到很多的demo，这些demo都是基于python中自带的数据集。今天我们将介绍sklearn中几个常用的分类预测数据集。本教程使用的sklearn版本是1.0.2。
【ML】机器学习数据集：sklearn中回归数据集介绍在机器学习的教程中，我们会看到很多的demo，这些demo都是基于python中自带的数据集。今天我们将介绍三个用于回归预测的数据集。
傲海著有《机器学习实践应用》，阿里云机器学习PAI产品经理，个人微信公众号 ldquo;凡人机器学习 rdquo;。

猜你喜欢

CNN实现“读脑术”，成功解码人脑视觉活动，准确率超50%
一步一步用hbuilder配置nodesjs环境做vue.js开发
【VS开发】字符，字节和编码
【已解决】leaflet比例尺：L.control.scale 单位国际化（m：米、km：公里、ft：英尺、mi：英里）
创建Oracle数据库、数据库名与实例名与SID之间的关系(图文详解)
零食里的营养成分表百分比什么意思
排序五简单选择排序
BigDecimal 舍入模式（Rounding mode）中的ROUND_UNNECESSARY
9.sql injection之中级注入（Medium）-------小白笔记
sprintf': This function or variable may be unsafe
Java字符串按照字节数进行截取
玩转Android状态栏
中青旅联科携手TalkingData成立国内首个旅游消费者大数据实验室
【Google Play】创建和管理内部测试版本 ( 创建内部测试版本 | 检查并发布内部测试版本 )
常用的js效验
运维排查-linux中使用free命令查看可用内存
撇开泡沫，看智能家居联盟乱象
Vue 简单实例地址选配8 - 确认地址 - 设为默认地址
解决pdf.js不支持跨域问题
2020年物联网连接将翻两番超过540万

相关主题

python 机器学习
机器学习——Adaboost
机器学习的方法
[机器学习] 集成学习
机器学习笔记（一）
机器学习之逻辑回归
机器学习和统计学习
机器学习基础篇_2/2
机器学习之深度学习
[ML] 机器学习简介
机器学习之KNN算法
机器学习介绍
机器学习值KNN

zl程序教程

当前栏目

非平衡数据集的机器学习常用处理方法

相关文章