Python —如何正确打开Pandas库的姿势
Pandas简介
Pandas 最常用于处理数据集。它具有分析、清理、探索和操作数据的功能。"Pandas"这个名称既指"Panel Data",也指"Python Data Analysis"。
,Pandas 让我们能够分析大数据并根据统计理论得出结论。Pandas 可以清理杂乱的数据集,使它们具有可读性和相关性。相关数据在数据科学中非常重要。
安装Pandas
使用pip来安装Pandas。
Pandas 中的数据类型
Pandas 中使用了两种类型的对象。一个是“Series”,用于创建和存储一维值,例如列或行。另一个是“ DataFrame ”,可以认为是一张表:它是二维的。DataFrame 包含行和列。在数据科学中将经常使用 Pandas DataFrames。可以在 Python 中编写代码时创建 Series 和 DataFrames,但通常情况下,DataFrames 不是在 Pandas 上创建的:数据是从其他地方导入的,因为在编写程序时很难逐个键入所有数据。此数据通常采用逗号分隔值 (.csv) 文件的形式。一个 .csv 文件可以使用 Pandas 转换为 DataFrame,然后你可以用它做很多事情。
- Series
Series 与 NumPy 数组非常相似(实际上它构建在 NumPy 数组对象之上)。NumPy 数组与 Series 的区别在于,Series 可以具有轴标签,这意味着它可以由标签索引,而不仅仅是数字位置。它也不需要保存数字数据,它可以保存任意 Python 对象。
- Series索引及数据列表代码示例。
代码运行输出如下图所示
- 从Python字典生成Series代码示例。
代码运行输出如下图所示:
- Series的命名索引,类似字典的取值方式,具体请看下面的代码示例,这里需要注意如果取值失败会直接expect错误,所以在取值的时候必须保证key跟index是存在的。
代码运行结果如下图所示:
- Series还可以做一些数学运算,下面是代码示例。
代码运行输出结果如下图所示:
- DataFrames
Pandas DataFrame 是一种二维数据结构,如二维数组或具有行和列的表。
- 创建DataFrame对象。
代码运行结果输出如下图所示:
- 从字典创建DataFrame对象。
代码运行结果输出如下图所示:
- 读取csv文件创建DataFrame对象。
读取csv文件需要安装xlrd跟openpyxl模块。
代码运行结果输出:
- 获取DataFrame的基本信息。
- 返回所有列名
- 返回前几行数据
- 返回后几行数据
- 获取数据info
- 生成描述性统计
如何过滤数据呢?
- 单个条件
针对每一行进行测试的单个条件,比如head,tail函数。
- 多个条件
可以在一行中测试多个条件。以下示例返回由女性且工资大于 5000的情况。
- 使用查询方法
查询方法提供了一种替代方法,通常是一种比上述方法更易读的过滤数据的方法。表示条件的字符串被传递给查询方法以过滤数据。
- 聚合方法
聚合的技术定义是用单个数字汇总一系列值。例如 sum、mean、median、max 和 min 都是聚合方法的例子
结论
这些是 Pandas 中基本操作的一些示例。在 Pandas 中还能够创建数据可视化。
本文转载自微信公众号「爱编码的社畜」,可以通过以下二维码关注。转载本文请联系爱编码的社畜公众号。
相关文章
- 利用Python3写个爬虫脚本,爬取纯欲小姐姐的图片壁纸,隔壁的前端兄弟馋哭了,求着我要脚本
- 【免杀】一种python反序列化免杀方式
- 根据经纬度坐标获得省市区县行政区划城市名称,自建数据库 java python php c# .net 均适用
- 使用Python的http.server实现一个简易的Web Api对外提供HanLP拼音转换服务
- 【团队效率提升】Python-PyWebIO介绍
- 用Python提取网页中的超链接
- 在Linux/CentOS中编译安装Python
- 用Python3提取网页中的超链接
- Python cos sdk
- Python字典Dictionary
- Python基础(十三):集合的详细讲解
- Python基础(十四):公共操作的讲解
- Python基础(十五):推导式的讲解
- Python基础(十六):函数的初步认识
- Python基础(十七):函数的深入了解
- Python基础(十八):学员管理系统应用
- 语音数据增强及python实现
- 语音信号的梅尔频率倒谱系数(MFCC)的原理讲解及python实现
- 快速傅里叶变换及python代码实现
- Python实现语音识别和语音合成