一行代码,Pandas秒变分布式,快速处理TB级数据
刚刚在Pandas上为十几KB的数据做好了测试写好了处理脚本,上百TB的同类大型数据集摆到了面前。这时候,你可能面临着一个两难的选择:
- 继续用Pandas?可能会相当慢,上百TB数据不是它的菜。
(ಥ_ಥ) 然而,Spark啊分布式啊什么的,学习曲线好陡峭哦~在Pandas里写的处理脚本都作废了好桑心哦~
别灰心,你可能真的不需要Spark了。
加州大学伯克利分校RiseLab最近在研究的Pandas on Ray,就是为了让Pandas运行得更快,能搞定TB级数据而生的。这个DataFrame库想要满足现有Pandas用户不换API,就提升性能、速度、可扩展性的需求。
研究团队说,只需要替换一行代码,8核机器上的Pandas查询速度就可以提高4倍。
其实也就是用一个API替换了Pandas中的部分函数,这个API基于Ray运行。Ray是伯克利年初推出的分布式AI框架,能用几行代码,将家用电脑上的原型算法转换成适合大规模部署的分布式计算应用。
Pandas on Ray的性能虽说比不上另一个分布式DataFrame库Dask,但更容易上手,用起来和Pandas几乎没有差别。用户不需要懂分布式计算,也不用学一个新的API。
与Dask不同的是,Ray使用了Apache Arrow里的共享内存对象存储,不需要对数据进行序列化和复制,就能跨进程通讯。
![](https://s3.51cto.com/oss/201803/08/49d5b76109655ad5e1a65b9d1311560f.jpeg)
在8核32G内存的AWS m5.2xlarge实例上,Ray、Dask和Pandas读取csv的性能对比
它将Pandas包裹起来并透明地把数据和计算分布出去。用户不需要知道他们的系统或者集群有多少核,也不用指定如何分配数据,可以继续用之前的Pandas notebook。
前面说过,使用Pandas on Ray需要替换一行代码,其实就是换掉导入语句。
- # import pandas as pd
- import ray.dataframe as pd
这时候你应该看到:
![](https://s5.51cto.com/oss/201803/08/917afe6bb49e66f430d4d73dfcd816b7.jpeg)
初始化完成,Ray自动识别了你机器上可用的核心,接下来的用法,就和Pandas一样了。
Pandas on Ray目前还处于早期,实现了Pandas的一部分功能。以一个股票波动的数据集为例,它所支持的Pandas功能包括检查数据、查询上涨的天数、按日期索引、按日期查询、查询股票上涨的所有日期等等。
这个项目的最终目标是在Ray上完整实现Pandas API的功能,让用户可以在云上用Pandas。
目前,伯克利RiseLab的研究员们已经用45天时间,实现了Pandas DataFrame API的25%。
![](https://s3.51cto.com/oss/201803/08/79f383f3e55c7c14ee46bc373705b813.jpeg)
革命尚未成功,项目仍在继续。这些人都在为之努力:
Devin Petersohn, Robert Nishihara, Philipp Moritz, Simon Mo, Kunal Gosar, Helen Che, Harikaran Subbaraj, Peter Veerman, Rohan Singh, Joseph Gonzalez, Ion Stoica, Anthony Joseph
- 更深入地了解Pandas on Ray请看RiseLab博客原文:https://rise.cs.berkeley.edu/blog/pandas-on-ray/
- 试用Pandas on Ray请参考这个文档:https://rise.cs.berkeley.edu/blog/pandas-on-ray/
- 给Ray团队提要求请到GitHub开issue:https://github.com/ray-project/ray/issues
- 如果对Ray感兴趣,可以读一读他们的论文:https://arxiv.org/abs/1712.05889
相关文章
- 数据孤岛是业务效率的无声杀手
- 2023展望:新的一年将给大数据分析领域带来什么?
- 阿里云ADB基于Hudi构建Lakehouse的实践
- 大数据在医疗保健领域的使用案例
- 微软增加说明:KB5021751 更新扫描已经 / 即将过时 Office 过程中不会触碰用户隐私
- 2022 Gartner全球云数据库管理系统魔力象限发布 腾讯云数据库入选
- 场景化、重实操,分享一个实时数仓实践案例
- Arctic的湖仓一体践行之路
- 分布式计算MapReduce究竟是怎么一回事?
- 淘系数据模型治理优秀实践
- 大数据分析对医疗保健的影响
- 当我们说大数据Hadoop,究竟在说什么?
- 2022年及以后大数据的五个发展趋势
- 网易严选离线数仓治理实践
- 2023 年数据治理趋势
- 一份“靠谱”的年度经营计划,你学会了吗?
- 漫谈对大数据的思考
- 测试一下,读懂数据的能力,你有吗?
- 用艺术的眼光探索数据之美
- 聊聊数据分析成果如何落地