我正在尝试创建一个aws数据池任务,这将创建一个电子病历集群,并运行一个简单的wordcount.py火花程序。/output/outfile5/",
线程"main“中的异常:错误打开作业jar: /mnt/var/lib/hadoop/steps/s-187JR8H3XT8N7RunJar.java:160) at org.apache.hadoop.util
我正在尝试使用AWS Data PipeLine在电子病历集群中设置一个运行spark作业的流程。我们的流程按“随需应变”计划运行。作为本活动的一部分,我们首先在管道中创建一个EMR集群,然后希望在一个emr集群上并行运行多个spark作业。
有没有一个我们可以用“随需应变”的时间表在数据管道上运行并行作业。