需要帮助来理解它是如何工作的:我有2TB的数据,我正在使用胶水火花分区写在一个特定的日期列。我使用的是40个工作节点的g2x。
以下是几点意见:
由于上述原因,编写数据的速度非常慢。是否有任何设置可以更改以改善这一点?
发布于 2022-01-31 17:10:42
为了避免创建非常小的文件,可以使用coalesce(k),其中k是您希望拥有的分区数,可能是40个。
coalesce(k)
更多关于合并的信息
https://stackoverflow.com/questions/70929863
相似问题