zl程序教程

您现在的位置是:首页 >  后端

当前栏目

python工具——Pandas详解编程语言

2023-06-13 09:15:22 时间

Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能

安装

pip install Pandas

Pandas 的主要数据结构是 Series(一维数据)与 DataFrame(二维数据)


Series是一种类似于一维数组的对象,它由
一组数据(各种NumPy数据类型)以及一组与之相关的
数据标签(即索引)组成,即index和values两部分,可以通过索引的方式选取Series中的单个或一组值。

python工具——Pandas详解编程语言

DataFrame是一个表格型的数据类型,每列值类型可以不同

import pandas as pd 

data = {state: [Ohio, Ohio, Ohio, Nevada, Nevada, Nevada], 

 year: [2014, 2015, 2016, 2017, 2018, 2019], 

 pop: [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]} 

df= pd.DataFrame(data) 

print(df)

python工具——Pandas详解编程语言

Pandas基本操作

可视化——结合matplotlib API实现的

import pandas as pd 

import matplotlib.pyplot as plt 

data = {state: [Ohio, Ohio, Ohio, Nevada, Nevada, Nevada], 

 year: [2014, 2015, 2016, 2017, 2018, 2019], 

 pop: [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]} 

df= pd.DataFrame(data) 

plt.figure(); 

df[pop].diff().hist() 

plt.show()

python工具——Pandas详解编程语言

密度图

import pandas as pd 

import numpy as np 

import matplotlib.pyplot as plt 

ser = pd.Series(np.random.randn(1000)) 

ser.plot.kde() 

plt.show()

python工具——Pandas详解编程语言

创建散点图矩阵

import pandas as pd 

import numpy as np 

import matplotlib.pyplot as plt 

from pandas.plotting import scatter_matrix 

df = pd.DataFrame(np.random.randn(1000, 4), columns=[a, b, c, d]) 

scatter_matrix(df, alpha=0.2, figsize=(6, 6), diagonal=kde) 

plt.show()

python工具——Pandas详解编程语言

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/20469.html

cgojava