如果要快速的读写表格,Pandas 并不是最好的选择
最近在用 Pandas 读取 csv 进行数据分析,好在数据量不是很大,频率不是很高,使用起来得心用手,不得不说真的很方便。不过当数据量很大,你就要考虑读写的性能了,可以看下这个库,留下印象,以备不时之需。
Pandas 有两个竞争对手,一个是 Dask[1] 另一个是 DataTable[2],不过 Pandas 太牛逼了,其他两个库都提供了与 Pandas 的 DataFrame 相互转换的方法。
它们都可以用来读写 Excel
有网友对此做了读写性能测试[3],先生成随机数据集,其中包含可变行和三十列——包括字符串、浮点数和整数数据类型。每个测试重复了五次,取其平均值。CSV 的行数从 10 万到 500 万不等。
下面是测试结果:
读取 csv
当行数少于一百万时,Dask 和 Pandas 从 CSV 生成 Pandas DataFrame 的时间大致相同。
但是,当我们超过一百万行时,Dask 的性能会变差,生成 Pandas DataFrame 所花费的时间要比 Pandas 本身多得多。
在这两种情况下,Datatable 在 Pandas 中生成 DataFrame 所需的时间最少,提供高达 4 到 5 倍的加速。
写入 csv
Dask 在将 Pandas DataFrame 存储到 CSV 方面的表现都比 Pandas 差。而 DataTable 表现最好,比 Pandas 提高了近 8 倍。
最后的话
当数据量大时,用 DataTable。如果觉得有帮助,还请点个在看。
参考资料
[1]
Dask: https://www.dask.org/get-started
[2]
DataTable: https://datatable.readthedocs.io/en/latest/
[3]
读写性能测试: https://towardsdatascience.com/its-time-to-say-goodbye-to-pd-read-csv-and-pd-to-csv-27fbc74e8
相关文章
- pandas数据分析练习记录
- Pandas 创建DataFrame提示:type object ‘object‘ has no attribute ‘dtype‘
- pandas’_pandas 删除列
- PANDAs_pandas去除缺失值
- pandas_VS_Excel条件统计人数与求和
- pandas无法打开.xlsx文件,xlrd.biffh.XLRDError: Excel xlsx file; not supported
- 【Python】这25个Pandas高频实用技巧,不得不服!
- 10快速入门Query函数使用的Pandas的查询示例
- 数据导入与预处理-拓展-pandas时间数据处理01
- (六)Python:Pandas中的DataFrame
- Python自动化办公--Pandas玩转Excel数据分析【三】
- pandas group by + rank 求在分组内的百分位、最接近某百分位的行
- Pandas中高效的选择和替换操作总结
- python内置库和pandas中的时间常见处理(1)
- pandas(一)操作Series和DataFrame的基本功能详解大数据
- 利用Pandas与MSSQL进行数据分析(pandas mssql)