我正在使用cron作业编写从google (googles SQL datawarehouse)到mysql的数据。我们使用google /sub作为中介(从bigquery读取,发布到pub/Sub,然后从pub/Sub订阅,然后写到mysql(在cloudsql上))。我们在bigquery表的每一行上放置一个published_flag布尔值,以表示某一行何时已成功发布。这方面的问题是,bigquery每个表每天都有数量有限的更新/插入/删除语句。此外,我们正在处理数十亿行数据。解决这一问题的替代办法是什么?是否有任何GCP服务或web服务能够更优雅地处理这个问题?
我们目前的选择是:
发布于 2018-05-08 11:02:38
结合cronjob和Pub/SUb
可能不是这个用例的好选择。最合适的产品应该是Cloud Dataflow
,因为它是为ETL设计的。在这种特殊情况下,您可以使用BigqueryIO从Bigquery
和JdbcIO读取数据,将其写入SQL数据库。
https://stackoverflow.com/questions/49753160
复制相似问题