前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谁是Python/R/Julia数据处理工具库中的最强武器?

谁是Python/R/Julia数据处理工具库中的最强武器?

作者头像
Python进击者
发布2021-08-27 17:03:30
1.7K0
发布2021-08-27 17:03:30
举报
文章被收录于专栏:JAVAandPython君JAVAandPython君

Python/R/Julia中的数据处理工具多如牛毛「如pandas、spark、DataFrames.jl、polars、dask、dplyr、data.table、datatable等等」,如何根据项目需求挑选趁手的武器,H2O.ai机器学习平台维护的一个项目给出答案。


待评估软件

项目目前已收录Python/R/Julia中13种的工具👇,随着工具版本迭代、新工具的出现,该项目也在持续更新,其它工具如AWK、Vaex、disk也在陆续加入到项目中。

代码语言:javascript
复制
7种Python工具 
 dask
 pandas
 datatable
 cuDF
 Polars
 Arrow
 Modin

2种R工具
 data.table
 dplyr

1种Julia工具
 DataFrames.jl

3种其它工具
 spark
 ClickHouse
 duckdb

评估方法

分别测试以上工具在在0.5GB、5GB、50GB数据量下执行groupby、join的效率,

数据量

  • 0.5GB 数据 10,000,000,000行、9列
  • 5GB 数据 100,000,000,000行、9列
  • 50GB 数据1,000,000,000,000行、9列

groupby性能

比较以下各种需求的效率,

详细代码,见每个柱子图上方,

join性能

比较以下各种需求的效率,

详细代码,见每个柱子图上方,


评估结果

groupby

可以看到Python中的Polars、R中的data.table、Julia中的DataFrame.jl等在groupby时是一个不错的选择,性能超越常用的pandas,详细👇,

0.5GB数据 groupby

5GB数据 groupby

50GB数据 groupby

join

同样可以看到Python中的Polars、R中的data.table在join时表现不俗,详细👇,

0.5GB数据 join

5GB数据 join

50GB数据 join

小结

R中的data.table、Python中的Polars、Julia中的DataFrame.jl表现连续出色,后续可以用起来,常用的pandas并无亮点~

REF:https://h2oai.github.io/db-benchmark/

代码语言:javascript
复制
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-08-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python进击者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 待评估软件
  • 评估方法
    • 数据量
      • groupby性能
        • join性能
        • 评估结果
          • groupby
            • join
            • 小结
            相关产品与服务
            腾讯云 TI 平台
            腾讯云 TI 平台(TencentCloud TI Platform)是基于腾讯先进 AI 能力和多年技术经验,面向开发者、政企提供的全栈式人工智能开发服务平台,致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型评估、模型部署、到 AI 应用开发的产业 + AI 落地全流程链路,帮助用户快速创建和部署 AI 应用,管理全周期 AI 解决方案,从而助力政企单位加速数字化转型并促进 AI 行业生态共建。腾讯云 TI 平台系列产品支持公有云访问、私有化部署以及专属云部署。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档