首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >多个google-数据流和dataproc作业

多个google-数据流和dataproc作业
EN

Stack Overflow用户
提问于 2016-05-26 10:55:57
回答 2查看 972关注 0票数 2

我有多个谷歌数据流作业,用于数据收集和ETL目的。然后google dataproc作业(Spark)用于进一步的机器学习。

我想把这些工作像工作流一样绑在一起,然后我就可以安排整个工作流程了。

你有什么建议/产品可以帮助我吗?

EN

回答 2

Stack Overflow用户

发布于 2016-05-31 17:52:17

我目前还不知道GCP有什么很好的答案,但是有几个选择:

  • 使用任务队列
  • 使用以下模式在数据流作业完成后触发DataProc作业:使用Create创建一个具有单个元素的虚拟PCollection。在这个集合上编写一个ParDo,其中DoFn的主体包含调用DataProc作业的java代码。因为它正在处理包含一个元素的集合,所以它将执行一次(模重试)。以数据流作业的最终输出为例,使用ParDo处理它,该PCollection不输出任何内容,并为您提供一个空的PCollection。将该PCollection作为侧输入传递到调用DataProc的ParDo中。换句话说,使用假数据依赖来强制在数据流作业的主体和创建DataProc作业的最后一步之间进行排序。
票数 1
EN

Stack Overflow用户

发布于 2016-12-07 13:33:28

我们实施了两种方法.

  1. 调用dataproc作业的自定义解决方案。这包括使用google调用Dataproc &数据流的Spring调度程序
  2. 一个以流模式运行的dataproc作业和这个流模式dataproc作业管理其他的dataproc和数据流作业。我们将消息发送到发布子模式和流模式,接收消息,然后调用进一步的链。

我更喜欢第二种解决方案,而不是第一种,因为我们使用云格式来管理Spring应用程序

第二种解决方案带来了运行24*7的dataproc作业的额外成本。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37458837

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档