关于管道没有处理所有数据，您能确认您是否正在使用默认设置运行一个大文件吗？例如: workerMachineType、numWorkers、maxNumWorkers？当前的流水线代码使用基于行的偏移量，如果输入文件很大，则需要具有大量工作线程的highmem机器类型。例如，对于10 GB、80M的线路，您可能需要5个highmem工作者。

有一件事你可以试着看看它是否有帮助，那就是用更多的资源触发管道，例如：--workerMachineType=n1-highmem-8，numWorkers=10，maxNumWorkers=10，看看它是否更好。

或者，有一个使用state and timer API的基于字节的偏移量的V2 solution，用于优化批处理和资源利用率，您可以试用它。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63530706

复制

相似问题

问使用数据流的DLP从GCS读取并写入BigQuery -只有50%的数据写入BigQuery
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用数据流的DLP从GCS读取并写入BigQuery -只有50%的数据写入BigQueryEN