文章/答案/技术大牛

发布

社区首页 >问答首页 >用自定义名称将DataFrame写入S3中的csv文件

问用自定义名称将DataFrame写入S3中的csv文件
EN

Stack Overflow用户

提问于 2022-03-03 22:00:50

回答 1查看 3.8K关注 0票数 1

我正在用以下代码将文件写入S3桶：

df.write.format('csv').option('header','true').mode("append").save("s3://filepath")

这将按照需要将多个文件输出到S3桶，但每个部分都有一个长文件名，如：

part-00019-tid-5505901395380134908-d8fa632e-bae4-4c7b-9f29-c34e9a344680-236-1-c000.csv

是否有一种方法可以将其写入自定义文件名，最好是在PySpark写函数中？例如：

部件-00019-my-output.csv

pyspark

aws-databricks

amazon-s3

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-03-03 22:11:17

你不能只靠火花就能做到这一点。后面的长随机数是为了确保没有重复，当有许多执行者试图在同一个位置写入文件时，不会发生覆盖。

您必须使用AWS来重命名这些文件。

P/S:如果您想要一个CSV文件，可以使用coalesce。但是文件名仍然不能确定。

df.coalesce(1).write.format('csv')...

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71344340

复制

相似问题

问用自定义名称将DataFrame写入S3中的csv文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用自定义名称将DataFrame写入S3中的csv文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用自定义名称将DataFrame写入S3中的csv文件
EN