发布
社区首页 >问答首页 >用于EMR自动化的AWS数据管道与lambda

用于EMR自动化的AWS数据管道与lambda
EN

Stack Overflow用户
提问于 2018-01-19 07:36:12
回答 1查看 3.4K关注 0票数 1

下面是我在AWS中应用程序的步骤。

  1. 数据将每周在单独的35个S3文件夹中加载。
  2. 完成每35个文件夹中的数据加载后,将创建35个EMR集群。
  3. 每个EMR集群都将有火花-scala脚本来并行运行。
  4. 作业完成后,所有群集都将终止。

我怎样才能做到这一点?

据我所查,有两种选择。

  1. AWS lambda事件和lambda上调用S3函数将创建EMR集群并进行火花提交。
  2. 我读过关于AWS数据管道的文章。

AWS Data pipeline在我的场景中会有帮助吗?

此外,我有星火-scala脚本,我一直在运行齐柏林飞艇。如果需要的话,我可以用它创建jar并在数据管道中提交。

请考虑成本也.I有5TB的数据将交付给客户每周。

EN

回答 1

Stack Overflow用户

发布于 2018-01-19 08:14:10

我觉得你应该使用数据管道。管道将负责EMR的创建、作业的提交和处理完成后关闭EMR。您可以在“活动”部分中指定EMR的步骤。“资源”部分可以指定EMR集群的参数(例如要使用的实例类型/角色等)

您甚至可以配置一个警报-如果管道由于某种原因失败,可以通过SNS向您发送电子邮件。

接下来是关于如何触发管道的部分。如果输入的数据是预先确定的时间,则可以考虑在管道中使用“调度”。然后,管道将在指定的时间(每天/每周/月)启动。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48336173

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档