机器学习:数据特征预处理缺失值处理
2023-09-27 14:24:15 时间
缺失值处理
删除:如果行或列数据缺失值达到一定比例,建议放弃整行或列
插补:填补列的平均值,中位数
numpy数组中的缺失值 nan/NaN 属于float类型
代码示例
from sklearn.preprocessing import Imputer
import numpy as np
# 缺失值处理
data = [
[1, 1, 3],
[np.nan, 4, 6],
[7, 3, 5]
]
im = Imputer(missing_values="NaN", strategy="mean", axis=0)
result = im.fit_transform(data)
print(result)
"""
[[1. 1. 3.]
[4. 4. 6.]
[7. 3. 5.]]
"""
相关文章
- (《机器学习》完整版系列)第5章 神经网络——5.3 SOW网络(“灯阵”面板)、Elman网络(将训练集转化时序数据)、Boltzmann机(达到Boltzmann分布)
- (《机器学习》完整版系列)第14章 概率图模型——14.8 吉布斯采样算法的详细推导(将“多变量”联合采样变为交替地“单变量”采样)
- 机器学习数学笔记|偏度与峰度及其python实现
- 机器学习笔记之卡尔曼滤波(一)动态模型基本介绍
- 2015 机器学习年度回顾:一个强大的成长史
- 大数据与机器学习:实践方法与行业案例1.1 数据的基本形态
- 大数据与机器学习:实践方法与行业案例.1.4 本章小结
- 大数据与机器学习:实践方法与行业案例.3.3 自动加载程序的数据库设计
- 机器学习:数据驱动的科学
- 《机器学习与数据科学(基于R的统计学习方法)》——1.6 统计计算的R工程
- 《机器学习与数据科学(基于R的统计学习方法)》——1.7 RStudio
- 《机器学习与数据科学(基于R的统计学习方法)》——2.6 读取Excel文件
- 《机器学习与数据科学(基于R的统计学习方法)》——2.8 读取JSON文件
- 《Python机器学习——预测分析核心算法》——1.6 各章内容及其依赖关系
- 《Python机器学习——预测分析核心算法》——第2章 通过理解数据来了解问题
- 《Python机器学习——预测分析核心算法》——2.3 对“岩石vs.水雷”数据集属性的可视化展示
- 机器学习的火爆背后:探索数据和技术的力量
- 什么是量子机器学习?它能彻底改变我们处理机器学习中的最棘手问题么?
- 机器学习算法: 基于逻辑回归的分类预测Python实现
- 【转载】 机器学习数据可视化 (t-SNE 使用指南)—— Why You Are Using t-SNE Wrong
- 一文读懂机器学习,大数据/自然语言处理/算法全有了……
- 【玩转数据系列十五】机器学习PAI为你自动写歌词,妈妈再也不用担心我的freestyle了(提供数据、代码)
- GoodData向应用和工作流嵌入分析与机器学习能力
- Google云服务推进机器学习 由两位女性掌舵
- 机器学习、数据科学、人工智能、深度学习、统计学等的区别