我正试图在google中构建python管道,而google云数据流似乎是一个不错的选择。当我研究文档和开发人员指南时,我发现apache梁总是附在数据流上,因为它是基于它的。我可能会在apache beam中找到处理我的数据文件的问题。
我的问题是:
我的管道的目标是从BigQuery读取数据,处理它,并将其重新保存到bigquery表中。我可以在脚本中使用一些外部API。
发布于 2021-08-23 14:11:25
关于您的第一个问题,它似乎是为沿着Apache使用它而编写的,可以在正式的Dataflow上的Google文档中查看。因此,这可能是使用Apache进行ETL的一个实际要求。
关于第二个问题,本教程向您介绍了如何使用Python和Google平台函数构建自己的ETL管道,它们实际上是无服务器的。你能确认一下这个链接是否对你有帮助吗?
发布于 2021-08-23 15:14:22
关于您的第一个问题,Dataflow需要使用Apache。事实上,在Apache之前,有一个叫做Dataflow的东西,它是Google专有的,然后它被开源到Apache。
一旦您对Python做了一点努力,它就相当容易了,您需要的主要进程操作非常接近于本地Python语言。
如果你的最终目标是读,处理和写到烧烤,我会说梁+数据流是一个很好的匹配。
https://stackoverflow.com/questions/68893891
复制相似问题