您现在的位置是：首页 > 其他

当前栏目

基础知识篇（一）Pandas数据结构

数据结构

2023-02-26 09:46:49 时间

本文介绍pandas的基本数据类型，要熟练使用pandas，需要熟悉它的两种主要数据结构：Series和DataFrame

1.Series

Series 形如于一维矩阵的对象，通常用来存储一列数值，其包含数值列(与numpy数据格式相似)和标签列(与数值列相对应，称之为index列)

1.1 Series生成

最简单的Series可以由一个数值list生成

import pandas as pd
from pandas import Series, DataFrame
import numpy as np

obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

输出结果中，左边列代表标签列(index),后边列则是我们输入的数值。因为没有在生成Series的时候设置index列，所以pandas会创建由0到N-1的默认索引(N为数据长度)

此时可以分别values和index属性，如下：

obj.values

array([ 4,  7, -5,  3], dtype=int64)

obj.index  # like range(4)

RangeIndex(start=0, stop=4, step=1)

当默认index无法满足使用时，我们生成Series时可以同时设置index列，比如：

obj2 = pd.Series([4, 7, -5, 3], index=['b', 'b', 'a', 'c'])
obj2

b    4
b    7
a   -5
c    3
dtype: int64

obj2.index

Index(['b', 'b', 'a', 'c'], dtype='object')

和numpy数组相比，Series可以通过index直接取某个数，或者一组数的集合

obj2['a']

-5

obj2[['a', 'b', 'c']]

a   -5
b    4
b    7
c    3
dtype: int64

也可以直接修改/增加相应的值，类似于dict

obj2['d'] = 6
obj2['e'] = 10
obj2

b     4
b     7
a    -5
c     3
d     6
e    10
dtype: int64

1.2 Series运算

可以直接使用numpy的方法，或者和numpy类似的运算操作对Series对象进行运算

# 1.布尔矩阵操作
obj2[obj2 > 0]

b     4
b     7
c     3
d     6
e    10
dtype: int64

# 2.乘一个标量
obj2 * 2

b     8
b    14
a   -10
c     6
d    12
e    20
dtype: int64

# 3.numpy函数直接运算
np.exp(obj2)

b       54.598150
b     1096.633158
a        0.006738
c       20.085537
d      403.428793
e    22026.465795
dtype: float64

1.3 Series与dict关系

由上述例子可以感受到，Series与dict有很多类似之处

通俗的理解，Series可以看成是固定长度的有序字典，并且index对values有映射关系，多数情况下可以直接当成字典使用，例如

'b' in obj2

True

'e' in obj2

True

也可通过dict直接生成Series

sdata = {
    'Ohio': 35000,
    'Texas': 71000,
    'Oregon': 16000, 
    'Utah': 5000
}

obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

同样，这种生成方式也可单独设置index，因为dict中已经有key和value的对应关系，此时如果设置的index列与dict中的keys有冲突，以index为准，例如

states = ['California', 'Ohio', 'Oregon', 'Texas']

obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

上述例子中，"California"为index中新出现的值，且不在原始dict中，因此对应的value为NaN。而"Utah"不在index中，所以被排除

1.4 Series的name属性

简单地讲，name属性相当于给整个Series或者Series的index附加一个命名，方便展示，例如：

obj4.name = 'population'
obj4.index.name = 'state'

obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

Series做为pandas最基础的数据结构，它的基础介绍和基本使用方法介绍完了，让我们回头开头，Series代表着1列数据，如果把它扩展到N列，那么

没错，就是接下来要介绍的DataFrame

2.DataFrame

DataFrame为pandas中最重要的数据结构，它的格式等同于我们要处理的矩形表格：拥有多列，每列可以有不同类型的数据，拥有列名，行、列索引等...

DataFrame可以认为是Series的扩展或者是一系列Series的组合，且看用法

2.1 DataFrame生成

DataFrame的生成方式有很多种，最通常的是通过等长的list组成的的dict

data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
    'year': [2000, 2001, 2002, 2001, 2002, 2003], 
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
}
frame = pd.DataFrame(data)

frame

	state	year	pop
0	Ohio	2000	1.5
1	Ohio	2001	1.7
2	Ohio	2002	3.6
3	Nevada	2001	2.4
4	Nevada	2002	2.9
5	Nevada	2003	3.2

现实场景中，你遇到的DataFrame可能会很大，而你只是想看看基础的数据格式，此时可用head()来观察前几行

frame.head(10)

	state	year	pop
0	Ohio	2000	1.5
1	Ohio	2001	1.7
2	Ohio	2002	3.6
3	Nevada	2001	2.4
4	Nevada	2002	2.9
5	Nevada	2003	3.2

有head(), 也有tail()

frame.tail(3)

	state	year	pop
3	Nevada	2001	2.4
4	Nevada	2002	2.9
5	Nevada	2003	3.2

如果想要columns按顺序排列，对columns赋值即可

pd.DataFrame(data, columns=['year', 'state', 'pop'])

	year	state	pop
0	2000	Ohio	1.5
1	2001	Ohio	1.7
2	2002	Ohio	3.6
3	2001	Nevada	2.4
4	2002	Nevada	2.9
5	2003	Nevada	3.2

如果columns中传入的值并不在dict中，那么会以缺失值的形式呈现，这同理于Series的index赋值

frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], 
                        index=['one', 'two', 'three', 'four', 'five', 'six'])

frame2

	year	state	pop	debt
one	2000	Ohio	1.5	NaN
two	2001	Ohio	1.7	NaN
three	2002	Ohio	3.6	NaN
four	2001	Nevada	2.4	NaN
five	2002	Nevada	2.9	NaN
six	2003	Nevada	3.2	NaN

另外，DataFrame中的index和columns属性可以查看相应内容

frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

frame2.index

Index(['one', 'two', 'three', 'four', 'five', 'six'], dtype='object')

2.2 DataFrame取数

DataFrame作为二维格式，取数会比较花哨一点

# 1.取某一列的所有值，类似于字典取数
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

# 2.取某一列的所有值，还可以类似于调用类的属性，由于不常用，在此不推荐使用，了解即可
frame2.state  # 不推荐

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

# 3.取某一行的所有值，已知行标签的情况下
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

# 4.取某一行的所有值，已知第几行的情况下
frame2.iloc[4]

year       2002
state    Nevada
pop         2.9
debt        NaN
Name: five, dtype: object

2.3 DataFrame运算

DataFrame运算时，对于某一列的数学运算和Series方法相同，二维运算中比较重要的有转置，例如：

# pd的转置，可以使用类似矩阵转置的方法
frame2.T

	one	two	three	four	five	six
year	2000	2001	2002	2001	2002	2003
state	Ohio	Ohio	Ohio	Nevada	Nevada	Nevada
pop	1.5	1.7	3.6	2.4	2.9	3.2
debt	NaN	NaN	NaN	NaN	NaN	NaN

猜你喜欢

最长无重复子串
写技术博客的一些心得分享
Java 多线程（七）：线程池
Java 多线程（五）：锁（三）
Java 多线程（四）：锁（二）
Java 多线程（三）：锁（一）
Java 多线程（二）：并发编程的三大特性
线性时间非比较类排序
Java 多线程（一）：基础
合并k个已排序的链表
HDFS 高可用分布式环境搭建
合并两个有序数组
连续子数组的最大和
HDFS 分布式环境搭建
容器盛水问题
大数加法
HDFS 伪分布式环境搭建
设计LRU缓存结构
两数之和
使用单调栈来解决的一些问题

zl程序教程