我正在运行一个数据流作业,它从BigQuery读取,并在8 GB of data and result in more than 50,000,000 records.周围扫描,现在按步骤分组我想根据一个键进行分组,并需要连接一列。但是在连接列的连接大小超过100MB之后,为什么我必须在数据流作业中执行该group by,因为该group by不能在Bigquery level due to row size limit of 100 MB.中完成
现在,当从BigQuery读取数据时,数据流作业的伸缩性很好,但是停留在Group by step上,我有两个版本的数据流代码,但这两个都是gro