有没有一种方法可以让我们把Apache Crunch输出写到S3存储桶中。在crunch流水线写入中有一种以Target为参数的方法。有没有办法将S3作为目标添加到crunch的编写方法中。
发布于 2021-03-12 23:40:52
难道不能只在PCollection上使用write方法并将其提供给您的S3位置吗?
PCollection<String> items = ...;
items.write(To.avroFile("s3://bucket/prefix");
pipeline.done();
这基本上就是我们如何做的,但是我们在EMR中运行。为了从我们的本地集群迁移数据,我们使用Hadoop dist-cp命令。
https://stackoverflow.com/questions/65919089
复制相似问题