在每天的基础上,我会计算一些统计数据,并将其存储在一个文件中(大约40行数据)。下面的df是每天计算的。问题是,当我每天存储它时,它会变成一个新文件,我不想这样做,因为hadoop不能很好地处理多个小文件。我不能重写这个文件,因为我也需要历史数据。
Df.repartition(1).write.save(路径,格式=‘df.repartition’,.write.save=‘append’,mypath
https://stackoverflow.com/questions/50684971
复制相似问题