通过这个问题:How to group data and construct a new column - python pandas?,我知道了如何使用pandas对多列进行分组并构造一个新的唯一id,但是如果我想在Python中使用Apachebeam来实现该问题中描述的相同功能,我如何实现它,然后将新数据写入换行符分隔的JSON格式文件(每行都是一个unique_id,其中
我试图对一个BigQuery表执行一个查询,提取一个列并填充到一个文件中。下面的代码引发异常。我可能错了,但这个过程似乎正在尝试编写临时结果,将位置临时转换为avro格式,读取其中的数据并抛出强制转换异常。$1.apply(BigQuerySourceBase.java:242) at org.apache.beam.sdk.io.gcp.bigquery.BigQuerySourceBase$1.apply(BigQuerySour
我正在尝试从mongodb(在AWS Documentdb中运行)读取数据并写入bigquery。 我已经为此编写了python代码,并使用python3命令运行它。我的管道字符串如下所示: p | ReadFromMongoDB(uri='mongodb://documentdb_url:27017',db="test_db",coll="test_collection") | b