我正在处理一个beam管道,以处理json并将其写入bigquery。JSON是这样的。其要求是根据消息对象的数量创建多个TableRows。我在JSON和publishDate中还有一些属性,这些属性将添加到tableRow和每个消息属性中。所以表如下所示。但是,不确定它将如何根据消息列表输出多个行。:301)
at org.apache.beam.runners.direct.DirectRun
我已经编写了一个Python数据流作业,用于从csv文件读取数据并使用该数据填充BigQuery表。但是,每当我运行此作业时,都会弹出一个错误。如果我删除write to Big Query部分,改为写入文件,则代码执行正常,并且表以dict格式写入输出文件。ReadFromTextfrom apache_beam.metrics imp
这里是:我在GCS中有一组文件被压缩,并且有一个.gz文件扩展名(即000000_0-5.gz),我正试图将这些文件导入到一个BQ表中。压缩的GCS文件中的数据是一个复杂的JSON结构,经常更改模式,因此最简单的方法是将整个文件作为一个TSV,只包含一个名为record的列,然后在BQ中使用JSON_EXTRACT函数解析所需的值。apache_beam as beam</