小白学 Python 数据分析(12):Pandas (十一)数据透视表(pivot_table)
人生苦短,我用 Python
前文传送门:
小白学 Python 数据分析(2):Pandas (一)概述
小白学 Python 数据分析(3):Pandas (二)数据结构 Series
小白学 Python 数据分析(4):Pandas (三)数据结构 DataFrame
小白学 Python 数据分析(5):Pandas (四)基础操作(1)查看数据
小白学 Python 数据分析(6):Pandas (五)基础操作(2)数据选择
小白学 Python 数据分析(7):Pandas (六)数据导入
小白学 Python 数据分析(8):Pandas (七)数据预处理
小白学 Python 数据分析(9):Pandas (八)数据预处理(2)
小白学 Python 数据分析(10):Pandas (九)数据运算
小白学 Python 数据分析(11):Pandas (十)数据分组
引言
前文我们介绍了数据分组,今天我们接着介绍一个和数据分组很相似的内容,是数据透视表,从名字上来看是不是感觉没半毛钱关系,实际不然,数据分组是从一维(行)的角度上对数据进行了拆分,如果我们想从二维的角度上(行和列)同时对数据进行拆分呢?
这就需要用到我们今天的主角,数据透视表了。
数据透视表
什么是数据透视表?小编的灵魂画手上线:
图画的不好,各位同学凑合理解。
在 Excel 中,其实也有数据透视表这个东西,在插入中全选数据后点击数据透视表,就会出来这么个东西:
点击确定后会有这么个画面:
具体在 Excel 中如何使用各位同学可以百度查一下,毕竟这里是讲 Python 的地方,关于 Excel 的操作就不多说了,Pandas 的操作和 Excel 的使用还是比较相似的。
在 Pandas 中,实现数据透视表是使用的 pivot_table()
这个方法,首先还是放个官方文档,防止有同学找不到。
官方文档地址: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.pivot_table.html 。
再看下 pivot_table 的语法:
pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False) → 'DataFrame'
- data: 需要做数据透视的整个表
- values: 要汇总的数据项
- index: 在数据透视表索引上进行分组的键
- columns: 在数据透视表列上进行分组的键
- aggfunc: 对 values 的计算类型
- fill_value: 空值的填充值
- margins: 是否显示合计
- dropna: 是否删除缺失,如果未是,则删除缺失数据的那一行
- margins_name: 合计类的列名
下面我们来看示例,数据集还是使用上篇文章使用的疫情数据集,先看个简单的示例,我们按照七大洲,看下当前的确诊情况:
import pandas as pd
# 数据导入
epidemic_dxy = pd.read_excel("epidemic_dxy.xlsx")
df = pd.pivot_table(epidemic_dxy, values='currentConfirmedCount', index='continents', aggfunc='sum')
print(df)
# 输出内容
currentConfirmedCount
continents
亚洲 5458
其他 699
北美洲 99
南美洲 8
大洋洲 14
欧洲 2040
非洲 3
可以看到,和我们前面的文章中,按照七大洲直接分组的结果是一致的。
这个示例中的 currentConfirmedCount
是我们要统计的值, continents
是我们要拆分的索引, aggfunc
中的 sum
是我们对需要统计的值的统计方式。
这里只是按照一维的方式进行拆分,和分组并没有实际上的区别,接下来我们看从二维的方向上对数据进行拆分:
import pandas as pd
# 数据导入
epidemic_dxy = pd.read_excel("epidemic_dxy.xlsx")
df1 = pd.pivot_table(epidemic_dxy, values='currentConfirmedCount', index='continents', columns='provinceName', aggfunc='sum')
print(df1)
# 输出内容
provinceName 丹麦 亚美尼亚 以色列 伊拉克 伊朗 ... 阿曼 阿联酋 韩国 马来西亚 黎巴嫩
continents ...
亚洲 NaN 1.0 9.0 19.0 749.0 ... 5.0 16.0 4283.0 11.0 3.0
其他 NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN
北美洲 NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN
南美洲 NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN
大洋洲 NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN
欧洲 3.0 NaN NaN NaN NaN ... NaN NaN NaN NaN NaN
非洲 NaN NaN NaN NaN NaN ... NaN NaN NaN NaN NaN
[7 rows x 65 columns]
因为内容比较多,大部分的内容被折叠掉了。
在上面这个示例中,我们按照七大洲和国家对整个数据表进行了横纵向的拆分,可以看到,整个表中会有很多空值,拿亚洲那一行举例子,因为在我们的原始数据中只有亚洲只有 26 个国家,所以,理论上亚洲那一行应该只有那 26 个国家有数据,实际上也确实如此。
那么,现在有一个简单的小问题,如果我想要知道每条数据的创建时间( createTime
字段),这个也能行么?
当然可以, pivot_table
支持在横纵向拆分的时候传入一个数组的,如下,我们在 index 上再加一个新的参数 createTime
:
import pandas as pd
# 数据导入
epidemic_dxy = pd.read_excel("epidemic_dxy.xlsx")
df2 = pd.pivot_table(epidemic_dxy, values='currentConfirmedCount', index=['continents', 'createTime'], columns='provinceName', aggfunc='sum')
print(df2)
# 输出内容
provinceName 丹麦 亚美尼亚 以色列 伊拉克 ... 阿联酋 韩国 马来西亚 黎巴嫩
continents createTime ...
亚洲 1583138990000 NaN NaN 9.0 19.0 ... 16.0 4283.0 11.0 3.0
1583138991000 NaN 1.0 NaN NaN ... NaN NaN NaN NaN
其他 1583138990000 NaN NaN NaN NaN ... NaN NaN NaN NaN
北美洲 1583138990000 NaN NaN NaN NaN ... NaN NaN NaN NaN
1583138991000 NaN NaN NaN NaN ... NaN NaN NaN NaN
南美洲 1583138990000 NaN NaN NaN NaN ... NaN NaN NaN NaN
1583138991000 NaN NaN NaN NaN ... NaN NaN NaN NaN
大洋洲 1583138990000 NaN NaN NaN NaN ... NaN NaN NaN NaN
欧洲 1583138990000 3.0 NaN NaN NaN ... NaN NaN NaN NaN
1583138991000 NaN NaN NaN NaN ... NaN NaN NaN NaN
非洲 1583138990000 NaN NaN NaN NaN ... NaN NaN NaN NaN
[11 rows x 65 columns]
这样,我们就得到了一个新的按照三个规则分别进行横纵向拆分的 DataFrame ,当然,这个 DataFrame 目前并不是一个标准的 DataFrame ,只需要最后一步,使用 reset_index()
重置一下索引就可以了,这里小编就不演示了。
今天的内容比较短,但是对于第一次接触的同学来讲并不是很好理解,建议多动手找个数据集试试看,或者先在 Excel 中进行尝试后再使用 Python 进行理解。
在数据透视表中,获得数据透视表并不难,难点是在于我们想要构建怎么样的新的数据表,我们要真正要获取什么样的数据。
示例代码
老规矩,所有的示例代码都会上传至代码管理仓库 Github 和 Gitee 上,方便大家取用。
相关文章
- python:pip升级pip本身和setuptools(Python 3.7.15)
- 小白学 Python 数据分析(11):Pandas (十)数据分组
- 小白学 Python 数据分析(10):Pandas (九)数据运算
- Python 字符串_python 字符串截取_python 字符串替换_python 字符串连接
- Python pandas库|任凭弱水三千,我只取一瓢饮(4)
- Python之pandas:利用多种方法获取dataframe格式数据的最小值、最大值、自定义分位数(如1/4分位数、3/4分位数等)之详细攻略
- Python之pandas:pandas中缺失值与空值处理的简介及常用函数(drop()、dropna()、isna()、isnull()、fillna())函数详解之详细攻略
- Python编程语言学习:python中与数字相关的函数(取整等)、案例应用之详细攻略
- Python语言学习之pandas:DataFrame二维表的简介、常用函数、常用案例(增删改查排序之选择指定列、根据条件选择特定数据、赋值、列名重命名、修改列数据、处理缺失值、列合并、分组之详细攻略
- Python:更改默认启动的python程序及其对应的安装包路径(更改pip的默认安装包的路径)图文教程之详细攻略
- Python:利用pandas对两个dataframe数据进行左联接/左关联(以左边为主体)、右联接/右关联(以右边为主体)、内联接(取交集)、外联接(取并集)操作案例实现代码
- Python之pandas:对dataframe数据的时间日期格式类型字段进行标准化变换(比如将日期类型字段格式2014/1/1转换为2014-1-1)之详细攻略
- Python编程语言学习:python编程语言中重要函数讲解之map函数等简介、使用方法之详细攻略
- Python之Pandas:pandas.DataFrame.to_csv函数的简介、具体案例、使用方法详细攻略
- Python语言学习之文件夹那些事:python和文件夹的使用方法之详细攻略
- 成功解决Python中出现的ValueError: not enough values to unpack (expected 2, got 1)的问题
- 100天精通Python(数据分析篇)——第76天:Pandas数据类型转换函数pd.to_numeric(参数说明+实战案例)
- 100天精通Python(数据分析篇)——第64天:Pandas分组groupby函数案例
- 〖Python自动化办公篇⑳〗 - python实现邮件自动化 - 发送html邮件和带附件的邮件
- Pandas 多层级索引 Python 数据处理案例指南
- 【阶段二】Python数据分析Pandas工具使用11篇:探索性数据分析:数据的检验:卡方检验与t检验
- 【阶段二】Python数据分析Pandas工具使用04篇:数据预处理:数据的汇总
- 【阶段二】Python数据分析Pandas工具使用02篇:数据读取:文本文件读取、电子表格读取与数据预处理:数据概览与清洗
- Python编程:python-attrs模块的简单使用
- 【Pandas】Python Pandas 初学者教程 - AZ 指南
- 【Python实战】 ---- python 自带的 venv 虚拟环境更新 pip 失败
- 上手Pandas,带你玩转数据(3)-- pandas数据存入文件
- Python数据科学pandas终极指南【看这篇文章就够了】