您现在的位置是：首页 > Python

当前栏目

数据处理性能对比（Python原生vs Pandas vs Numpy）

Python 性能

2023-03-09 22:29:14 时间

对于任何数据科学家来说，速度和时间都是一个关键因素。在商业活动中，通常不会使用仅仅有数千个样本的玩具数据集。大部分时候你的数据集包括数百万或数亿个样本。客户订单，网络日志，帐单活动，股票价格等 - 现在的数据集非常庞大。

我猜你不会想花几个小时或几天，等待你的数据处理完成。迄今为止，我所使用的***数据集包含超过3000万条记录。当我***次运行数据处理脚本时，预估的完成时间约为4天!我没有非常强大的机器(Macbook Air与i5和4 GB的RAM)，但我可以保证一晚上运行完脚本而不是数天。

感谢一些聪明的技巧，我能够将这个运行时间缩短到几个小时。这篇文章将解释实现良好数据处理性能的***步 - 为您的数据集选择正确的库/框架。

下图显示了我的实验结果(详情如下)，与纯Python的处理速度做出对比。

如你所见，Numpy的表现比Pandas的表现要好几倍。我个人喜欢用Pandas来简化许多繁琐的数据科学任务，它是我的***工具。但是如果预计的处理时间超过多个小时，那么很遗憾，我只能使用Numpy来替代Pandas。

我非常清楚实际的性能可能会有很大的不同，这取决于任务和处理类型。所以请把这些结果仅仅作为参考。没有任何一个单独的测试可以全面对比所有软件工具的性能。

简介

在下面的 Notebook 中你将会比较 Python 原生方法， Pandas 和 Numpy 处理数据的速度。

导入模块

制作模拟随机数据集

Dataset size 54818 records

Python 原生方法

Pandas 方法

Numpy 方法

检查是否所有的方法生成同样的结果

比较运行时间

Python average time: 38.77917420864105 seconds

Pandas average time: 10.483694124221802 seconds

Numpy average time: 2.914765810966492 seconds

展示结果

猜你喜欢

Python爬虫实践：《战狼2》豆瓣影评分析
3月编程排行榜：Python第四，R第20
生命之圈：生物数据可视化的美丽新方法
从Java到区块链：如何成为一名区块链开发者？
聊聊我是怎么调试代码的？
面试扣分点：什么是鸭子类型
分布式环境下如何保证 ID 的唯一性
全球删链？谷歌须在各国执行欧洲遗忘权
SolidJS硬气的说：我比React还react
用Python构建一个极小的区块链
干货：排名前16的Java工具类！
我往手里面植入了一枚芯片，但并没有获得超能力
54项大数据关键模型
前端水印实现方案
以色列最值得关注的24家初创公司
如何用Python创建眼下火爆的区块链？这篇干货请收藏
最新调查：等这一波COBOL程序员退休，很多关键岗位就后继无人了
未来程序员会被机器取代吗？
编程语言中的一些邪恶咒语，千万不要用
Gartner预测：2015年至2016年中国10大战略技术趋势

zl程序教程

当前栏目

数据处理性能对比（Python原生vs Pandas vs Numpy）

相关文章