《从Excel到R 数据分析进阶指南》一第3章 数据表清洗3.1 处理空值(删除或填充)
2023-09-11 14:17:31 时间
本节书摘来自异步社区《从Excel到R 数据分析进阶指南》一书中的第3章,第3.1节,作者 王彦平(蓝鲸),更多章节内容可以访问云栖社区“异步社区”公众号查看
从Excel到R 数据分析进阶指南
本章是对数据表中的问题进行清洗,主要内容包括对空值、大小写问题、数据格式和重复值的处理。这里不包含对数据间的逻辑验证。
我们在创建数据表的时候,在price字段中故意设置了几个NA值。对于空值的处理方式有很多种,既可以直接删除包含空值的数据,也可以对空值进行填充,比如用0填充或者用均值填充。还可以根据不同字段的逻辑对空值进行推算。
Excel中可以通过“查找和替换”功能对空值进行处理,将空值统一替换为0或均值。也可以通过“定位”空值来实现。
![4d148f790d5b567e3b8cc75c1b4f475c7eea58b1](https://yqfile.alicdn.com/4d148f790d5b567e3b8cc75c1b4f475c7eea58b1.png)
R中处理空值的方法比较灵活,既可以使用 na.omit()函数用来删除数据表中包含空值的数据,也可以用特定的值对空值进行填充。下面的代码和结果中可以看到使用na.omit()函数后,包含NA值的两个字段已经不见了。返回的是一个不包含空值的数据表。
#删除包含空值的行 df_na -na.omit(df)
![c185d0155d097933b20b3844a6c7385f345be536](https://yqfile.alicdn.com/c185d0155d097933b20b3844a6c7385f345be536.png)
除此之外也可以使用数字对空值进行填充,下面的代码使用0对空值字段进行填充。
#将空值填充为0 df[is.na(df)] - 0
![b2ae4643d463db341f69c08be027de46c6f8107a](https://yqfile.alicdn.com/b2ae4643d463db341f69c08be027de46c6f8107a.png)
我们继续使用填充的方式来处理空值,使用price列的均值来填充NA字段,在要填充的数值中使用mean()函数先计算price列当前的均值,然后使用这个均值对NA进行填充。可以看到两个空值字段显示为3526。
#将空值填充为均值 df[is.na(df)] - mean(df_na$price)
![de65582130fa6b881606d5ec48455b3a1f89763e](https://yqfile.alicdn.com/de65582130fa6b881606d5ec48455b3a1f89763e.png)
数据分析三剑客【AIoT阶段一(下)】(十万字博文 保姆级讲解)—Pandas—pandas进阶(十三) 你好,感谢你能点进来本篇博客,请不要着急退出,相信我,如果你有一定的 Python 基础,想要学习 Python数据分析的三大库:numpy,pandas,matplotlib;这篇文章不会让你失望,本篇博客是 【AIoT阶段一(下)】 的内容:Python数据分析,
数据分析三剑客【AIoT阶段一(下)】(十万字博文 保姆级讲解)—Pandas—pandas进阶(十四) 你好,感谢你能点进来本篇博客,请不要着急退出,相信我,如果你有一定的 Python 基础,想要学习 Python数据分析的三大库:numpy,pandas,matplotlib;这篇文章不会让你失望,本篇博客是 【AIoT阶段一(下)】 的内容:Python数据分析,
数据分析三剑客【AIoT阶段一(下)】(十万字博文 保姆级讲解)—Pandas—pandas进阶(十五) 你好,感谢你能点进来本篇博客,请不要着急退出,相信我,如果你有一定的 Python 基础,想要学习 Python数据分析的三大库:numpy,pandas,matplotlib;这篇文章不会让你失望,本篇博客是 【AIoT阶段一(下)】 的内容:Python数据分析,
数据分析三剑客【AIoT阶段一(下)】(十万字博文 保姆级讲解)—Pandas—pandas进阶(十六) 你好,感谢你能点进来本篇博客,请不要着急退出,相信我,如果你有一定的 Python 基础,想要学习 Python数据分析的三大库:numpy,pandas,matplotlib;这篇文章不会让你失望,本篇博客是 【AIoT阶段一(下)】 的内容:Python数据分析,
数据分析三剑客【AIoT阶段一(下)】(十万字博文 保姆级讲解)—Pandas—pandas进阶(十七) 你好,感谢你能点进来本篇博客,请不要着急退出,相信我,如果你有一定的 Python 基础,想要学习 Python数据分析的三大库:numpy,pandas,matplotlib;这篇文章不会让你失望,本篇博客是 【AIoT阶段一(下)】 的内容:Python数据分析,
数据分析三剑客【AIoT阶段一(下)】(十万字博文 保姆级讲解)—Pandas—pandas进阶(十八) 你好,感谢你能点进来本篇博客,请不要着急退出,相信我,如果你有一定的 Python 基础,想要学习 Python数据分析的三大库:numpy,pandas,matplotlib;这篇文章不会让你失望,本篇博客是 【AIoT阶段一(下)】 的内容:Python数据分析,
Python数据分析实战基础 | 清洗常用4板斧 本文从增、删、查、分四个模块,分别介绍横向、纵向合并;删空、去重;筛选、排序和分组、切分等数据清洗过程中的常见操作。在实际运用中,各操作往往是你中有我,我中有你,共同为了营造一个“干净”的数据而努力。
做数据分析必须了解的获取数据与清洗数据技巧 每个数据科学家都需要处理存储在磁盘中的数据,这些数据涉及的格式有ASCII文本、PDF、XML、JSON等。此外,数据还可以存储在数据库表格中。在对数据进行分析之前,数据科学家首先要做的是从这些数据源获取各种格式的数据,并对这些数据进行清洗,去除其中的噪声。
异步社区 异步社区(www.epubit.com)是人民邮电出版社旗下IT专业图书旗舰社区,也是国内领先的IT专业图书社区,致力于优质学习内容的出版和分享,实现了纸书电子书的同步上架,于2015年8月上线运营。公众号【异步图书】,每日赠送异步新书。
相关文章
- Excel操作-用excel实现爬取网站上表格数据
- asp.net采用OLEDB方式导入Excel数据时提示:未在本地计算机上注册"Microsoft.Jet.OLEDB.4.0" 提供程序"
- Office EXCEL 不用VB,你也可以制作自己的Excel菜单!
- Excel的数据分析—排位与百分比
- Excel的数据分析—排位与百分比
- 在Excel工作表单元格中引用当前工作表名称
- 机房收费系统之导出Excel
- excel换行
- Excel 2016在大数据分析领域有了很多的改善
- Python可视化数据分析08、Pandas_Excel文件读写
- 100天精通Python(数据分析篇)——第57天:Pandas读写Excel(read_excel、to_excel参数说明+代码实战)
- Python + Excel——飞速处理数据分析与处理
- 〖Python自动化办公篇⑬〗- Excel 文件自动化 - 写入 excel 数据(xlsxwriter)
- 又一个 Jupyter 神器,操作 Excel 自动生成 Python 代码
- excel根据颜色赋值 Excel填充颜色单元格替换成数字 excel把所有红色变成1
- JAVA操作Excel表格:方法二:POI的使用:Excel实战之POI创建excel文件(高版本.xlsx)
- JAVA操作Excel表格:方法一:jxl的使用②:Excel实战之JXL解析读取excel文件
- 〖Python自动化办公篇⑬〗- Excel 文件自动化 - 写入 excel 数据(xlsxwriter)
- springboot使用jxls导出excel___(万能通用模板)--- SpringBoot导入、导出Excel文件___SpringBoot整合EasyExcel模板导出Excel
- 使用jQuery OCUpload实现excel文件一键上传功能
- [C#] 解决使用ClosedXML生成Excel报表丢失样式的两种方法