下面是我在AWS中应用程序的步骤。
S3
文件夹中加载。我怎样才能做到这一点?
据我所查,有两种选择。
AWS lambda
事件和lambda上调用S3函数将创建EMR集群并进行火花提交。AWS Data pipeline
在我的场景中会有帮助吗?
此外,我有星火-scala脚本,我一直在运行齐柏林飞艇。如果需要的话,我可以用它创建jar并在数据管道中提交。
请考虑成本也.I有5TB的数据将交付给客户每周。
发布于 2018-01-19 08:14:10
我觉得你应该使用数据管道。管道将负责EMR的创建、作业的提交和处理完成后关闭EMR。您可以在“活动”部分中指定EMR的步骤。“资源”部分可以指定EMR集群的参数(例如要使用的实例类型/角色等)
您甚至可以配置一个警报-如果管道由于某种原因失败,可以通过SNS向您发送电子邮件。
接下来是关于如何触发管道的部分。如果输入的数据是预先确定的时间,则可以考虑在管道中使用“调度”。然后,管道将在指定的时间(每天/每周/月)启动。
https://stackoverflow.com/questions/48336173
复制相似问题