各位GCP开发人员好,
我是GCP数据工程产品的新手,有微软SSIS ETL工具的经验,我想知道谷歌数据流中的各种转换和功能是什么。MS SSIS工具提供了简单的界面(拖放)和SQL使用来执行ETL。
数据流主要是用Python编写的,但是当特定字段值小于所需数量(基于一个字段过滤行)时,如何更改或加载CSV/Text文件中的特定行呢?
数据流名称无处不在(在线),但为什么没有数据处理示例的文档可用?
如果您知道任何在线课程(除了coursera )或具有实践和动手能力的书籍,请分享它。
谢谢
发布于 2019-01-03 20:53:40
Dataflow是一个受管理的Apache光束服务,所以只需将runner设置为DataflowRunner即可应用general Beam quickstarts。
Here您可以找到Java SDK可用转换的摘要(包括用于您提到的筛选行的示例的筛选器)。Beam也可用于Python和Golang,但Java API是这三种语言中最成熟的。
此外,如果您想要一个更类似于Microsoft SSIS的图形界面,您可能需要研究一下Dataprep,它构建在数据流之上,并且确实提供了一些更具交互性的特性。
https://stackoverflow.com/questions/53403999
复制相似问题