我对GCP比较陌生,刚刚开始在GCP上建立/评估我的组织架构。
设想情况:
数据将流入pub/子主题(高频率、低数据量)。我们的目标是将这些数据移动到“大表”中。根据我的理解,您可以通过具有触发主题的云函数或使用Dataflow来实现这一点。
现在我有了以前对云功能的经验,我对此很满意,所以这将是我的选择。
我看不出选择一个而不是另一个的好处。所以我的问题是什么时候选择这些产品?
谢谢
发布于 2018-07-05 19:07:56
这两种解决办法都可能奏效。如果您的发布/子通信量增加到大量数据,则数据流的扩展性会更好,但对于低数据量的数据,云函数应该可以正常工作;我将查看这个页面(特别是速率限制部分),以确保您适合云函数:https://cloud.google.com/functions/quotas。
另一件需要考虑的事情是,Dataflow可以保证数据只处理一次,这样就不会在BigTable中出现重复的情况。云功能不会为您提供现成的服务。如果采用函数方法,则需要确保Pub/Sub消息一致地确定向哪个BigTable单元写入;这样,如果函数多次被重试,相同的数据将简单地覆盖相同的BigTable单元。
发布于 2018-07-05 19:20:02
您的需求听起来相对简单,而且Dataflow可能对您想要做的事情过分了。如果云函数能满足您的需要,它们可能会坚持这样做。当谈到可维护性时,我常常发现简单性是关键。
但是,当您需要在将这些事件存储在BigTable中之前执行像用户合并这些事件这样的转换时,这正是Dataflow真正闪耀的地方:
https://beam.apache.org/documentation/programming-guide/#groupbykey
https://stackoverflow.com/questions/51197653
复制相似问题