您现在的位置是：首页 > 数据库

当前栏目

6.6K Star！比 Pandas 快很多的数据处理库

2023-03-14 09:33:32 时间

Polars 是一个使用 Apache Arrow 列格式作为内存模型，用Rust实现的，在Rust, Python以及Node.js中均可使用的速度极快的数据帧库。

它有以下几个特点：

懒|立即执行
多线程
SIMD
查询优化
强大的表达式API
支持多种语言：Rust、Python 等

了解更多内容可以点击这个用户指南。

Python代码示例

>>> df = pl.DataFrame(
...     {
...         "A": [1, 2, 3, 4, 5],
...         "fruits": ["banana", "banana", "apple", "apple", "banana"],
...         "B": [5, 4, 3, 2, 1],
...         "cars": ["beetle", "audi", "beetle", "beetle", "beetle"],
...     }
... )

# embarrassingly parallel execution
# very expressive query language
>>> (
...     df
...     .sort("fruits")
...     .select(
...         [
...             "fruits",
...             "cars",
...             pl.lit("fruits").alias("literal_string_fruits"),
...             pl.col("B").filter(pl.col("cars") == "beetle").sum(),
...             pl.col("A").filter(pl.col("B") > 2).sum().over("cars").alias("sum_A_by_cars"),     # groups by "cars"
...             pl.col("A").sum().over("fruits").alias("sum_A_by_fruits"),                         # groups by "fruits"
...             pl.col("A").reverse().over("fruits").alias("rev_A_by_fruits"),                     # groups by "fruits
...             pl.col("A").sort_by("B").over("fruits").alias("sort_A_by_B_by_fruits"),            # groups by "fruits"
...         ]
...     )
... )
shape: (5, 8)
┌──────────┬──────────┬──────────────┬─────┬─────────────┬─────────────┬─────────────┬─────────────┐
│ fruits   ┆ cars     ┆ literal_stri ┆ B   ┆ sum_A_by_ca ┆ sum_A_by_fr ┆ rev_A_by_fr ┆ sort_A_by_B │
│ ---      ┆ ---      ┆ ng_fruits    ┆ --- ┆ rs          ┆ uits        ┆ uits        ┆ _by_fruits  │
│ str      ┆ str      ┆ ---          ┆ i64 ┆ ---         ┆ ---         ┆ ---         ┆ ---         │
│          ┆          ┆ str          ┆     ┆ i64         ┆ i64         ┆ i64         ┆ i64         │
╞══════════╪══════════╪══════════════╪═════╪═════════════╪═════════════╪═════════════╪═════════════╡
│ "apple"  ┆ "beetle" ┆ "fruits"     ┆ 11  ┆ 4           ┆ 7           ┆ 4           ┆ 4           │
├╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ "apple"  ┆ "beetle" ┆ "fruits"     ┆ 11  ┆ 4           ┆ 7           ┆ 3           ┆ 3           │
├╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ "banana" ┆ "beetle" ┆ "fruits"     ┆ 11  ┆ 4           ┆ 8           ┆ 5           ┆ 5           │
├╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ "banana" ┆ "audi"   ┆ "fruits"     ┆ 11  ┆ 2           ┆ 8           ┆ 2           ┆ 2           │
├╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┼╌╌╌╌╌╌╌╌╌╌╌╌╌┤
│ "banana" ┆ "beetle" ┆ "fruits"     ┆ 11  ┆ 4           ┆ 8           ┆ 1           ┆ 1           │
└──────────┴──────────┴──────────────┴─────┴─────────────┴─────────────┴─────────────┴─────────────┘

性能

Polars速度非常快，事实上，它是目前性能最好的解决方案之一。具体可参见 h2oai's db基准测试结果。

此处我们自己用一些示例代码来对比python中pandas和polars处理数据的速度差距。

import pandas as pd
import polars as pl
import timeit

# 读取时间对比
start_df = timeit.default_timer()
df = pd.read_csv("/Users/lenskit/Desktop/aa.csv")
df = df.sort_values("company_name", ascending=False).head()
stop_df = timeit.default_timer()
print('time: ', stop_df - start_df)

start_pl = timeit.default_timer()
data = pl.read_csv("/Users/lenskit/Desktop/aa.csv")
data.sort(by="company_name", reverse=True).head()
stop_pl = timeit.default_timer()
print('time1: ', stop_pl - start_pl)

# 纵向拼接时间对比
start_df1 = timeit.default_timer()
df_1 = pd.read_csv('/Users/lenskit/Desktop/aa.csv')
df_2 = pd.read_csv('/Users/lenskit/Desktop/bb.csv')
df_1.append(df_2, ignore_index=True)
stop_df1 = timeit.default_timer()
print('time2: ', stop_df1 - start_df1)

start_pl1 = timeit.default_timer()
pl_1 = pl.read_csv('/Users/lenskit/Desktop/aa.csv')
pl_2 = pl.read_csv('/Users/lenskit/Desktop/bb.csv')
pl_1.vstack(pl_2)
stop_pl1 = timeit.default_timer()
print('time3: ', stop_pl1 - start_pl1)


time:  5.088931238
time1:  0.8967700230000002
time2:  4.707102063
time3:  0.639797883

可以看到在读取文件上，polars比pandas速度快了5倍多，在数据纵向拼接上，polars比pandas快了有7倍多。

Python安装

用如下语句安装最新的polars版本：

$ pip3 install -U polars[pyarrow]

目前polars的更新频率很高（每周/每隔几天），所以最好定期更新一下polars来获得最新的错误修复/功能。

Rust安装

您可以从 http:// crates.io 获取最新版本，或者如果你想使用最新的功能/性能改进，可以用如下命令指向版本的master分支。

polars = { git = "https://github.com/pola-rs/polars", rev = "<optional git tag>" }

注意需要Rust version >=1.58

文档

想知道Polars支持的所有功能吗？阅读文档！

Python

安装指南：$ pip3 install polars
Python文档https://link.zhihu.com/?target=https%3A//pola-rs.github.io/polars/py-polars/html/reference/index.html
用户指南https://link.zhihu.com/?target=https%3A//pola-rs.github.io/polars-book/user-guide/index.html

Rust

Rust文件（主分支）https://link.zhihu.com/?target=https%3A//pola-rs.github.io/polars/polars/index.html
用户指南https://link.zhihu.com/?target=https%3A//pola-rs.github.io/polars-book/user-guide/index.html

Node

安装指南：yarn install nodejs-polars
Node文档https://link.zhihu.com/?target=https%3A//pola-rs.github.io/polars/nodejs-polars/html/index.html
用户指南https://link.zhihu.com/?target=https%3A//pola-rs.github.io/polars-book/user-guide/index.html

[Python]: 从源代码编译polars

如果你想要获取最前沿的版本或最大的性能，你应该从源代码编译Polar。

这可以通过按顺序执行以下步骤来完成：

1、安装最新的 Rust编译器
2、安装 maturin :$ pip3 install maturin
3、选择以下任一:
最快的二进制文件，非常长的编译时间：
$ cd py-polars && maturin develop --rustc-extra-args="-C target-cpu=native" --release
较快的二进制文件，短一些的编译时间：
$ cd py-polars && maturin develop --rustc-extra-args="-C codegen-units=16 -C lto=

需要注意的是，Python实现的Rust crate被称为 py-polars ，以区别于Rust crate包 polars 本身。然而，Python包和Python模块都被命名为 polars ，所以你可以 pip install polars 和 import polars 。

Arrow2

Polars已经转移到 arrow2 。Arrow2是 Apache Arrow Columnar Format 更快、更安全的实现。Arrow2还具有更细粒度的代码库，有助于减少编译器膨胀。

猜你喜欢

CAD2023中文版下载安装破解教程：文件破解方式
2022Q3全球十大IC设计厂商：博通升至第二，韦尔位居第十！
欧洲先进半导体制造还有多少家底？
什么是代理IP？选择代理IP和使用代理IP的说明
工程监测仪器振弦模拟信号采集仪VTN的ADC接口与DAC 接口
Parallels Desktop 18.1.1虚拟机
XnViewMP for Mac(看图软件)
au2023更新了什么：Au2023中文版最新功能和特性
AP2813双路降压恒流驱动器一切一 MOS切换储能电源指示灯
5G芯片价格战又要开打！联发科市占率及毛利率或将下滑
韩国企业开发出基于石墨烯材料的EUV光罩保护膜
中芯国际回应半导体万亿补贴传闻
行业首家！地平线征程5获颁CCRC IT产品信息安全认证EAL3+证书
中国首个原生Chiplet互联技术标准发布
市值276亿！燕东微登陆科创板：募资40亿建12吋特色工艺产线！
台积电1nm晶圆厂或将2026年动工
投资数十亿美元，索尼计划在日本熊本建新晶圆厂产生CIS芯片
强大的Git客户端:Tower for Mac版 v9.2(351)
看好2023年汽车及工控市场，恩智浦资本支出翻倍投入扩产
鸿海被迫放弃投资紫光集团：将以不低于53.8亿元转让全部股权！

zl程序教程