我有一组日期分区表employee_wages_<date>,并希望使用数据流读取一些列。(python示例)行中的一些内容 beam.io.BigQuerySource(query='SELECT user_name, sum(salary) as total_salary FROM `project_id.dataset_id.employe
我已经部署了一个简单的apache函数,它工作得很好,但是当我试图读取文件时会出现路径错误。当我使用参数-runner从本地运行时,与Dataflowrunner一样,相同的脚本运行,有人建议我必须执行pip安装apache-beamgcp。我已经在当地做过了,而且效果很好。下面是我的密码。'Read all from AVRO' >> beam.io.avroio.ReadFromAvro(PATH + 'avrofile_*
我需要使用AvroIO通过动态传递模式和文件路径来读取Apache Beam中的AVRO文件。有没有什么方法可以把ValueProvider或者侧边输入或者其他任何东西传递给AvroIO.read。下面是我使用的代码:
PCollection<GenericRecord> records =p.apply(AvroIO.readGenericRecords(dynamicallyProvidedSchema