前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如果要快速的读写表格,Pandas 并不是最好的选择

如果要快速的读写表格,Pandas 并不是最好的选择

作者头像
somenzz
发布2022-10-25 20:44:55
6060
发布2022-10-25 20:44:55
举报
文章被收录于专栏:Python七号Python七号

最近在用 Pandas 读取 csv 进行数据分析,好在数据量不是很大,频率不是很高,使用起来得心用手,不得不说真的很方便。不过当数据量很大,你就要考虑读写的性能了,可以看下这个库,留下印象,以备不时之需。

Pandas 有两个竞争对手,一个是 Dask[1] 另一个是 DataTable[2],不过 Pandas 太牛逼了,其他两个库都提供了与 Pandas 的 DataFrame 相互转换的方法。

它们都可以用来读写 Excel

有网友对此做了读写性能测试[3],先生成随机数据集,其中包含可变行和三十列——包括字符串、浮点数和整数数据类型。每个测试重复了五次,取其平均值。CSV 的行数从 10 万到 500 万不等。

下面是测试结果:

读取 csv

当行数少于一百万时,Dask 和 Pandas 从 CSV 生成 Pandas DataFrame 的时间大致相同。

但是,当我们超过一百万行时,Dask 的性能会变差,生成 Pandas DataFrame 所花费的时间要比 Pandas 本身多得多。

在这两种情况下,Datatable 在 Pandas 中生成 DataFrame 所需的时间最少,提供高达 4 到 5 倍的加速。

写入 csv

Dask 在将 Pandas DataFrame 存储到 CSV 方面的表现都比 Pandas 差。而 DataTable 表现最好,比 Pandas 提高了近 8 倍。

最后的话

当数据量大时,用 DataTable。如果觉得有帮助,还请点个在看。

参考资料

[1]

Dask: https://www.dask.org/get-started

[2]

DataTable: https://datatable.readthedocs.io/en/latest/

[3]

读写性能测试: https://towardsdatascience.com/its-time-to-say-goodbye-to-pd-read-csv-and-pd-to-csv-27fbc74e8

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-06-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python七号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 读取 csv
  • 写入 csv
  • 最后的话
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档