首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >胶水火花写入数据一个分区的时间

胶水火花写入数据一个分区的时间
EN

Stack Overflow用户
提问于 2022-01-31 16:59:30
回答 1查看 372关注 0票数 0

需要帮助来理解它是如何工作的:我有2TB的数据,我正在使用胶水火花分区写在一个特定的日期列。我使用的是40个工作节点的g2x。

以下是几点意见:

  1. 作业是一次编写一个分区,即只加载一天的数据。(它不应该在多个分区中写入数据-并行)
  2. 它在分区内创建非常小的文件。

由于上述原因,编写数据的速度非常慢。是否有任何设置可以更改以改善这一点?

EN

Stack Overflow用户

发布于 2022-01-31 17:10:42

为了避免创建非常小的文件,可以使用coalesce(k),其中k是您希望拥有的分区数,可能是40个。

更多关于合并的信息

票数 0
EN
查看全部 1 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70929863

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档