zl程序教程

您现在的位置是:首页 >  工具

当前栏目

《从Excel到R 数据分析进阶指南》一第3章 数据表清洗3.1 处理空值(删除或填充)

Excel数据分析 处理 指南 删除 进阶 数据表 填充
2023-09-11 14:17:31 时间

本节书摘来自异步社区《从Excel到R 数据分析进阶指南》一书中的第3章,第3.1节,作者 王彦平(蓝鲸),更多章节内容可以访问云栖社区“异步社区”公众号查看

第3章 数据表清洗

从Excel到R 数据分析进阶指南
本章是对数据表中的问题进行清洗,主要内容包括对空值、大小写问题、数据格式和重复值的处理。这里不包含对数据间的逻辑验证。

3.1 处理空值(删除或填充)

我们在创建数据表的时候,在price字段中故意设置了几个NA值。对于空值的处理方式有很多种,既可以直接删除包含空值的数据,也可以对空值进行填充,比如用0填充或者用均值填充。还可以根据不同字段的逻辑对空值进行推算。

Excel中可以通过“查找和替换”功能对空值进行处理,将空值统一替换为0或均值。也可以通过“定位”空值来实现。


4d148f790d5b567e3b8cc75c1b4f475c7eea58b1

R中处理空值的方法比较灵活,既可以使用 na.omit()函数用来删除数据表中包含空值的数据,也可以用特定的值对空值进行填充。下面的代码和结果中可以看到使用na.omit()函数后,包含NA值的两个字段已经不见了。返回的是一个不包含空值的数据表。

#删除包含空值的行

df_na -na.omit(df)


c185d0155d097933b20b3844a6c7385f345be536

除此之外也可以使用数字对空值进行填充,下面的代码使用0对空值字段进行填充。

#将空值填充为0

df[is.na(df)] - 0


b2ae4643d463db341f69c08be027de46c6f8107a

我们继续使用填充的方式来处理空值,使用price列的均值来填充NA字段,在要填充的数值中使用mean()函数先计算price列当前的均值,然后使用这个均值对NA进行填充。可以看到两个空值字段显示为3526。

#将空值填充为均值

df[is.na(df)] - mean(df_na$price)


de65582130fa6b881606d5ec48455b3a1f89763e

数据分析三剑客【AIoT阶段一(下)】(十万字博文 保姆级讲解)—Pandas—pandas进阶(十三) 你好,感谢你能点进来本篇博客,请不要着急退出,相信我,如果你有一定的 Python 基础,想要学习 Python数据分析的三大库:numpy,pandas,matplotlib;这篇文章不会让你失望,本篇博客是 【AIoT阶段一(下)】 的内容:Python数据分析,
数据分析三剑客【AIoT阶段一(下)】(十万字博文 保姆级讲解)—Pandas—pandas进阶(十四) 你好,感谢你能点进来本篇博客,请不要着急退出,相信我,如果你有一定的 Python 基础,想要学习 Python数据分析的三大库:numpy,pandas,matplotlib;这篇文章不会让你失望,本篇博客是 【AIoT阶段一(下)】 的内容:Python数据分析,
数据分析三剑客【AIoT阶段一(下)】(十万字博文 保姆级讲解)—Pandas—pandas进阶(十五) 你好,感谢你能点进来本篇博客,请不要着急退出,相信我,如果你有一定的 Python 基础,想要学习 Python数据分析的三大库:numpy,pandas,matplotlib;这篇文章不会让你失望,本篇博客是 【AIoT阶段一(下)】 的内容:Python数据分析,
数据分析三剑客【AIoT阶段一(下)】(十万字博文 保姆级讲解)—Pandas—pandas进阶(十六) 你好,感谢你能点进来本篇博客,请不要着急退出,相信我,如果你有一定的 Python 基础,想要学习 Python数据分析的三大库:numpy,pandas,matplotlib;这篇文章不会让你失望,本篇博客是 【AIoT阶段一(下)】 的内容:Python数据分析,
数据分析三剑客【AIoT阶段一(下)】(十万字博文 保姆级讲解)—Pandas—pandas进阶(十七) 你好,感谢你能点进来本篇博客,请不要着急退出,相信我,如果你有一定的 Python 基础,想要学习 Python数据分析的三大库:numpy,pandas,matplotlib;这篇文章不会让你失望,本篇博客是 【AIoT阶段一(下)】 的内容:Python数据分析,
数据分析三剑客【AIoT阶段一(下)】(十万字博文 保姆级讲解)—Pandas—pandas进阶(十八) 你好,感谢你能点进来本篇博客,请不要着急退出,相信我,如果你有一定的 Python 基础,想要学习 Python数据分析的三大库:numpy,pandas,matplotlib;这篇文章不会让你失望,本篇博客是 【AIoT阶段一(下)】 的内容:Python数据分析,
Python数据分析实战基础 | 清洗常用4板斧 本文从增、删、查、分四个模块,分别介绍横向、纵向合并;删空、去重;筛选、排序和分组、切分等数据清洗过程中的常见操作。在实际运用中,各操作往往是你中有我,我中有你,共同为了营造一个“干净”的数据而努力。
做数据分析必须了解的获取数据与清洗数据技巧 每个数据科学家都需要处理存储在磁盘中的数据,这些数据涉及的格式有ASCII文本、PDF、XML、JSON等。此外,数据还可以存储在数据库表格中。在对数据进行分析之前,数据科学家首先要做的是从这些数据源获取各种格式的数据,并对这些数据进行清洗,去除其中的噪声。
异步社区 异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。