首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >Hadoop Spark -存储在一个大文件中,而不是许多小文件和索引中

Hadoop Spark -存储在一个大文件中,而不是许多小文件和索引中
EN

Stack Overflow用户
提问于 2018-06-05 00:26:17
回答 1查看 156关注 0票数 0

在每天的基础上,我会计算一些统计数据,并将其存储在一个文件中(大约40行数据)。下面的df是每天计算的。问题是,当我每天存储它时,它会变成一个新文件,我不想这样做,因为hadoop不能很好地处理多个小文件。我不能重写这个文件,因为我也需要历史数据。

  • 我知道你可以使用coalese(1)我认为这是一个很差的性能,所以我不知道?

  • 我想我想通过文件中的一个时间列来索引这个文件。我该如何实现这一点?

Df.repartition(1).write.save(路径,格式=‘df.repartition’,.write.save=‘append’,mypath

EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50684971

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档