我已经在亚马逊EC2上建立了一个Hadoop集群,提供了NameNode/DataNode和其他一些服务。我的摄取作业将数据带入EC2 HDFS集群(比方说hdfs://ec2-hdfs/
)。
现在我有了一个以每周批处理的方式运行的管道。我正在启动一个新的Amazon EMR集群来运行我的计算。一旦处理完成,我将终止EMR集群。
我需要在EMR中运行的spark作业的输入是在EC2 HDFS (hdfs://ec2-hdfs/
)中。如何从新创建的EMR集群访问?我相信在EMR集群启动期间应该会有一些选项(引导/VPC/子网)可用。
https://stackoverflow.com/questions/57051489
复制相似问题