问Hadoop Spark -存储在一个大文件中，而不是许多小文件和索引中
EN

Stack Overflow用户

提问于 2018-06-05 00:26:17

回答 1查看 156关注 0票数 0

在每天的基础上，我会计算一些统计数据，并将其存储在一个文件中(大约40行数据)。下面的df是每天计算的。问题是，当我每天存储它时，它会变成一个新文件，我不想这样做，因为hadoop不能很好地处理多个小文件。我不能重写这个文件，因为我也需要历史数据。

Df.repartition(1).write.save(路径，格式=‘df.repartition’，.write.save=‘append’，mypath

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50684971

复制

相似问题

问Hadoop Spark -存储在一个大文件中，而不是许多小文件和索引中EN