您现在的位置是：首页 > 数据库

当前栏目

最近群里出现的3个数据处理需求，如何用Pandas简单实现一下

数据

2023-03-14 22:38:15 时间

目录：

问题1：透视与多层索引类
问题2：文本数据处理类
问题3：条件赋值

问题1：透视与多层索引类

有一个朋友，提出了这样的疑问，类似长表变宽表的题，看了下大致需要用到透视和多层索引的处理。

我们来看一下详细需求：

看到这个，我们用Excel其实很好处理，直接 数据透视表 拖拽就行，参考：

Excel直接上透视表

那么，在Pandas里怎么实现呢？

可以看到这位朋友方向是对的，但是在参数设置上稍微有点问题，应该这样实现：

import pandas as pd
# 大家直接复制下面输出的数据然后演示即可
df = pd.read_clipboard()
df

原始数据：

	月份	编号	单价	数量
0	1月	A01	10	1
1	1月	A02	10	2
2	1月	A03	10	3
3	1月	A04	10	4
4	2月	A01	3	1
5	2月	A02	4	2
6	3月	A01	3	1
7	3月	A02	4	2
8	3月	A03	5	3
9	3月	A04	6	4
10	3月	A05	7	5

# 透视过程
temp = df.pivot(index='编号',columns='月份',values=['单价','数量'])
temp

输出结果：

这个时候，其实和期望结果还是有点差异，我们期望的是月份下面分单价和数据，而不是单价与数量下面分月份。这个时候，就该我们多层索引出场了，直接调整索引的level即可。

# 多层索引调整level
data = temp.swaplevel(0,1,axis=1).sort_index(axis=1)
data

输出结果：

你以为到这里就结束了吗？其实不然！

我们看下输出的excel文档结果，发现存在一行为空的情况，通过查询发现这是Pandas已知的问题，据说是为了给行索引名字（编号）留的。

怎么处理呢？可以试着去掉行索引名字，然后存csv：

# 行索引名称去掉
data.index.name=None
data

然后存为csv文件，发现勉强可以：

data.to_csv('结果.csv',encoding='utf-8-sig')

补充：大家还可以用excel处理的其他第三方库操作，比如openpyxl里的delete_rows(3)删除第三行之类的。

问题2：文本数据处理类

有一个朋友有一些数据，看了下内容大致上姓名-号码-单号组成，但是每个元素部分之间的分隔符并不统一。看了下，大致可以用pandas里的extract来提取。

import pandas as pd

# 读取数据
df = pd.read_excel(r'测试数据.xlsx')
df

测试数据：

	信息
0	小明-185-DEG30V8
1	小一-138-DEGV22
2	库里-138-JQCB07
3	云朵-130-SHYG202613
4	赛文 133 SHYZ20270
5	二百君-189-SHYZ2010
6	皮特-139-SHYG26236
7	萝卜-189-SHYZ22189
8	辰哥-156-SHYG29116
9	可乐-185-SHYG26663
10	才哥-160

这里直接参考《一看就会的Pandas文本数据处理》，用extract函数方法来进行提取。

df['信息'].str.extract(r'(?P<姓名>[u4e00-u9fa5]+).*?(?P<号码>d+).*?(?P<单号>[A-Z].*)?$')

输出结果：

	姓名	号码	单号
0	小明	185	DEG30V8
1	小一	138	DEGV22
2	库里	138	JQCB07
3	云朵	130	SHYG202613
4	赛文	133	SHYZ20270
5	二百君	189	SHYZ2010
6	皮特	139	SHYG26236
7	萝卜	189	SHYZ22189
8	辰哥	156	SHYG29116
9	可乐	185	SHYG26663
10	才哥	160	NaN

问题3：条件赋值

有一个朋友需要修改满足条件的数据帧某个字段的值，然后按照预想的方式发现不奏效！

我们简单看下他是怎么操作的：

那是为什么呢？

其实，在['金额']之前的表达式返回的是DataFrame数据，[]方法修改的是这个数据的值，而不是原有的muban。

我们通过下面的演示让大家熟悉了解一下：

import pandas as pd

d = {'col1': ['才哥', '财哥'], 'col2': [101, 99]}
df = pd.DataFrame(data=d)
df

案例数据：

	col1	col2
0	才哥	101
1	财哥	99

我们将col1为才哥的这行数据的col2改为100

temp = df[df['col1']=='才哥']
temp['col2'] = 100

输出结果：

	col1	col2
0	才哥	100

而实际上df的值没变化

那么，怎么在df上进行修改呢？直接把[]里的值放在里面就行了~

df.loc[df['col1']=='才哥', 'col2'] = 100
df

输出结果：

	col1	col2
0	才哥	100
1	财哥	99

搞定！

以上就是最近在咱们技术交流群里朋友圈讨论的一些问题，相信大家还有更多解法，我这里也只是抛砖引玉。

猜你喜欢

Thread.start() ，它是怎么让线程启动的呢？
如何使用Python将MySQL表数据迁移到MongoDB集合
Golang GinWeb框架4-请求参数绑定和验证
7 月数据库排行榜：三大数据库分数下降最多
适合 Java 新手的开源项目集合——在 GitHub 学编程
MySQL数据库升级那些事
超全面分布式缓存高可用方案：哨兵机制
无服务和微服务架构，谁是业务计算的未来？
Redis 是怎么想的？用跳表来实现有序集合
我们一起揪出那个无主键的表
前端高效开发必备的 js 库梳理
Node.JS安装及环境配置之Windows篇
面试官：你的 Redis 怎么做读写分离的？
Redis 内存压缩实战，学习了！
如何在JavaScript中对对象数组进行排序
Fetch API速查表：9个最常见的API请求
基于代码实操SpringBoot、Redis、LUA秒杀系统
夜深人静了，我们来学学分布式锁
Jmh基准测试，看我怎么用它来测试Mongodb的数据加载性能
一文把三个经典求和问题吃的透透滴

zl程序教程

当前栏目

最近群里出现的3个数据处理需求，如何用Pandas简单实现一下

相关文章