首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用python numpy和大熊猫在GCP上部署小批作业

使用python numpy和大熊猫在GCP上部署小批作业
EN

Stack Overflow用户
提问于 2019-10-12 05:52:45
回答 2查看 319关注 0票数 2

我有一个小的日常计算任务,它从BigQuery导入数据,使用Python数值计算库来处理结果,然后将结果写入外部表(另一个项目为Firestore或MySQL )。

在GCP上部署它的推荐方法是什么?

我们的开发人员建议我们不要仅仅为了执行批处理而创建单个vm。他们不愿意自己管理VM基础设施,应该有支持批处理作业的服务。他们坚持让我使用Dataflow。但是我认为Dataflow分布的特性有点过分了。

非常感谢,

更新2019年10月14日:

我正在考虑修改批处理作业并将其部署到K8集群中。缺点是集群应该承载多个作业,因此值得进行设置和维护工作。有人能给我关于这种方法的可行性和适用性的建议吗?

更新2019年10月15日:

感谢亚历克斯·蒂托夫在https://googlecloud-community.slack.com/archives/C0G6VB4UE/p1571032864020000上的评论。根据他的建议,我将把我的工作分解为多个小云函数组件,并将它们作为云计划器和/或云编写器的管道连接在一起。

EN

回答 2

Stack Overflow用户

发布于 2019-10-12 07:42:32

云数据流做的正是您想要的,所以它比VM更容易管理、扩展和构建。事先只问自己几个问题,如果这些问题不适用,请使用Dataflow:

  • 是否只限于特定的云提供商(本例中为GCP)?
  • 在这个项目中,是否使用了其他云服务,或者它们只是使用来自云的基础设施(保持一致性)。另外,我们希望这个项目朝哪个方向发展?(使用自定义或云解决方案)
  • 我想要绝对控制这个批处理软件处理工具吗?如果是这样的话,您可能没有使用Dataflow。
  • 其他注意事项,如成本、部署时间、停工时间等。

如果所有答案都倾向于云服务,那么请使用它。

票数 2
EN

Stack Overflow用户

发布于 2019-10-14 09:13:15

如果您包含您的作业,则有2种运行它的无服务器解决方案。第三天,云运行时间可以超过15分钟(在路线图中,但没有发布日期)

  1. 使用云构建。考虑正确设置超时。实际上,云构建是为运行任何容器而设计的。I 写了一篇文章
  2. 使用人工智能平台。一位(伟大的)谷歌员工拥有发表了一篇关于这个的文章

这两种解决方案都很好,您可以选择运行容器的底层VM的机器类型。由于这一点,您不需要管理K8S集群并在不使用它时支付费用。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58351290

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档