目前,正在尝试在亚马逊网络服务上运行一个利用RDS和EC2实例的定量数据处理管道。有一部分流水线需要大量的计算能力,但不是任务或时间关键型的,因此我想在这一点上使用EC2 spot实例集群。我一直在考虑使用AWS Data pipeline产品来构建管道。但是,我不确定如何集成spot实例。AWS文档建议,spot实例可以在使用
我正在尝试使用AWS Data PipeLine在电子病历集群中设置一个运行spark作业的流程。我们的流程按“随需应变”计划运行。作为本活动的一部分,我们首先在管道中创建一个EMR集群,然后希望在一个emr集群上并行运行多个spark作业。
有没有一个我们可以用“随需应变”的时间表在数据管道上运行并行作业。