我有一个小的日常计算任务,它从BigQuery导入数据,使用Python数值计算库来处理结果,然后将结果写入外部表(另一个项目为Firestore或MySQL )。
在GCP上部署它的推荐方法是什么?
我们的开发人员建议我们不要仅仅为了执行批处理而创建单个vm。他们不愿意自己管理VM基础设施,应该有支持批处理作业的服务。他们坚持让我使用Dataflow。但是我认为Dataflow分布的特性有点过分了。
非常感谢,
更新2019年10月14日:
我正在考虑修改批处理作业并将其部署到K8集群中。缺点是集群应该承载多个作业,因此值得进行设置和维护工作。有人能给我关于这种方法的可行性和适用性的建议吗?
更新2019年10月15日:
感谢亚历克斯·蒂托夫在https://googlecloud-community.slack.com/archives/C0G6VB4UE/p1571032864020000上的评论。根据他的建议,我将把我的工作分解为多个小云函数组件,并将它们作为云计划器和/或云编写器的管道连接在一起。
发布于 2019-10-12 07:42:32
云数据流做的正是您想要的,所以它比VM更容易管理、扩展和构建。事先只问自己几个问题,如果这些问题不适用,请使用Dataflow:
如果所有答案都倾向于云服务,那么请使用它。
发布于 2019-10-14 09:13:15
如果您包含您的作业,则有2种运行它的无服务器解决方案。第三天,云运行时间可以超过15分钟(在路线图中,但没有发布日期)
这两种解决方案都很好,您可以选择运行容器的底层VM的机器类型。由于这一点,您不需要管理K8S集群并在不使用它时支付费用。
https://stackoverflow.com/questions/58351290
复制相似问题