数据预处理的常见方法
数据预处理
定义内涵
用户从多种渠道收集的数据可能包含噪音,或是存在不一致、不完整等问题,无法直接
进行训练。为了提高数据的质量,在将数据交给模型训练之前,需要对数据预处理。数据预
处理是指在数据分析
之前,对数据进行的清洗、筛选、转换、特征选择和提取等一系列必要处理操作的过程。
技术背景
数据预处理的常见方法有数据清洗、数据转换、特征选择、数据降噪和数据增强。
数据清洗通常是指对收集得到的数据集通过丢弃重复数据、补全缺失数据、异常值处理
SecXOps 安全智能分析技术白皮书
022
等方式,清洗掉数据集里的脏数据,完成清洗过程。数据清洗旨在提高数据质量,数据清洗
的效果会直接影响到后续数据分析、模型预测的效率和准确率。
数据转换是将数据从一种形式转变为另一种形式的数据预处理方法。由于数据源的多样
性、数据的异构性、数据分析的要求等各种原因,在进行数据集成和管理之前,需要对数据
进行转换。数据转换根据需求对数据进行类型转换、语义转换、粒度转换、离散化、数据压
缩等操作,转换方式有平滑处理、泛化处理、合计处理、规格化处理等。
特征选择旨在筛选出给定数据集中与当前机器学习任务有关的特征。复杂数据中存在大
量特征,并非所有特征对模型任务都是有用的,去除不相关的特征能节省计算和存储开销,
降低过拟合风险,提高模型性能。常见的特征选择算法分为过滤法、包裹法和嵌入法,不同
的算法根据不同的观察变量和特征评分规则对特征进行筛选。
数据降噪对数据集中的噪声进行移除。噪声在实际数据中无法避免,噪声的存在会对模
型产生误导。常使用的数据降噪方法有聚类、降维、回归等。
数据增强旨在扩充有限的数据,增加训练样本的数量和多样性,进而提高模型的泛化能力。
根据在机器学习流程中适用的阶段,数据增强分为离线增强和在线增强,其中离线增强直接
对数据集采取增强操作,在线增强在获得批量数据后,对批量数据进行增强。常见的数据增
强方案有 AugMix[8],CutOut[9],MoEx[10],MaxUp[11],Mixup[12],CutMix[13] 等
参考资料
友情链接
相关文章
- 直接在代码里面对list集合进行分页
- .NET Framework 4.5新特性详解
- 大数据的简要介绍
- 大数据的由来
- 高斯混合模型的自然梯度变量推理
- timing-wheel 仿Kafka实现的时间轮算法
- 使用Navicat软件连接自建数据库(Linux系统)
- 那一天,我被Redis主从架构支配的恐惧
- Redis 深入了解键的过期时间
- C#使用委托调用实现用户端等待闪屏
- 基于流计算 Oceanus 和 Elasticsearch Service 构建百亿级实时监控系统
- GRAND | 转录调控网络预测数据库
- JFreeChart API中文文档
- 临床相关突变查询数据库
- TIGER | 人类胰岛基因变化查询数据库
- 视频边缘计算网关EasyNVR在视频整体监控解决方案中的应用分析
- Apache Arrow - 大数据在数据湖后的下一个风向标
- 常见的电商数据指标体系
- AKShare-艺人数据-艺人流量价值
- MySQL中多表联合查询与子查询的这些区别,你可能不知道!