您现在的位置是：首页 > 其他

当前栏目

pandas group by + rank 求在分组内的百分位、最接近某百分位的行

2023-02-25 18:17:26 时间

导入 pandas

import pandas as pd

创建测试数据

df = pd.DataFrame([[2021, 'A', 95],[2021, 'A', 92], [2021, 'A', 50], [2021, 'B', 100], [2021, 'B', 50], [2021, 'B', 30], [2021, 'B', 60]], columns=['year', 'grade', 'value'])

>>> df
   year grade  value
0  2021     A     95
1  2021     A     92
2  2021     A     50
3  2021     B    100
4  2021     B     50
5  2021     B     30
6  2021     B     60

分组后，使用 rank

df['group_pct'] = df.groupby(['year', 'grade']).rank(ascending=True, pct=True)

注意：如果除去分组的字段后，还有多列，需要指定列名

df['group_pct'] = df.groupby(['year', 'grade'])['col_name'].rank(ascending=True, pct=True)

>>> df 
   year grade  value  group_pct
0  2021     A     95   1.000000
1  2021     A     92   0.666667
2  2021     A     50   0.333333
3  2021     B    100   1.000000
4  2021     B     50   0.500000
5  2021     B     30   0.250000
6  2021     B     60   0.750000

分组内百分位最接近 0.25 的行

df['group_pct_25'] = (df['group_pct']-0.25).abs()

>>> df                                                                      
   year grade  value  group_pct  group_pct_25
0  2021     A     95   1.000000      0.750000
1  2021     A     92   0.666667      0.416667
2  2021     A     50   0.333333      0.083333
3  2021     B    100   1.000000      0.750000
4  2021     B     50   0.500000      0.250000
5  2021     B     30   0.250000      0.000000
6  2021     B     60   0.750000      0.500000

t = df.sort_values(['group_pct_25']).groupby(['year', 'grade']).first().reset_index()

>>> t
   year grade  value  group_pct  group_pct_25
0  2021     A     50   0.333333      0.083333
1  2021     B     30   0.250000      0.000000

猜你喜欢

Crystal Linux - 基于 Arch Linux 的颜值在线的发行版
怎么创建 JavaScript 自定义事件
Go语言将引入新型排序算法：Pdqsort
BPF Ring Buffer：使用场景、核心设计及程序示例
站在前人的肩膀上重新透视C# Span<T>数据结构
为什么要用读写锁？它有什么优点？
用了 TS 条件类型，同事直呼 YYDS！
玩转内核链表Llist_Head，教你管理不同类型节点的实现
一篇了解V8 CPU Profiler 的实现
新树莓派操作系统更新带来一些不错的小改进
横向对比EXT4，带你感受真实的Linux文件系统F2FS
JVM 八股之首：三大垃圾收集算法
微软 Windows 11Dev 预览版 25201 发布：迎来全屏小组件，文件资源管理器实时搜索等（附 ISO 镜像）
Virtual DOM的历史和未来
Java利用技巧—通过jsp加载Shellcode
Windows电脑实用技巧，你知道几个？
还在使用定时器吗？有点离谱的 CSS 电子时钟
啃论文俱乐部——移植Speexdsp到OpenHarmony标准系统（四）
一篇了解TDD 的原理和使用场景
HarmonyOS - 基于ArkUI（JS）实现彩带飘动特效

zl程序教程

当前栏目

pandas group by + rank 求在分组内的百分位、最接近某百分位的行

相关文章