我们正在使用aws等作业将s3 Json或CSV转换为parquet格式,并将结果保存在nnew s3中。此作业正在定期运行。我们正面临着一个问题,例如,如果我们每次运行都有10json文件,那么它就会创建新的10parquet文件,因此它变成了10 20 30 40....and,因此我们只想看到10个文件。有没有什么方法可以覆盖现有的拼图文件,.We只使用胶水生成的Python脚本。我们可以只转换已更新的文件,还是可以转换所有过期的文件?
发布于 2018-02-07 01:57:14
如果要使用python覆盖拼图文件,则可以使用df.write.mode('overwrite').parquet("/output/folder/path")。
https://stackoverflow.com/questions/48648532
复制相似问题