我试图从GCS桶中读取XML文件的集合,并处理它们,其中集合中的每个元素都是一个字符串,表示整个文件,但我找不到一个关于如何实现这一点的好例子,也无法从主要关于Java版本的Apache文档中理解它。
我目前的管道如下:
p = beam.Pipeline(options=PipelineOptions(pipeline_args))
(p
| 'Read from a File' >> beam.io.Read(training_files_folder)
| 'String To BigQuery Row' >> beam.Ma
我的项目运行的是Python2.7(是的,我知道...)Google Dataflow上的Apache Beam 2.19。我们连接到BigQuery的方式与Apache光束教程中指定的方式相同:
p | 'Get data from BigQuery' >> beam.io.Read(beam.io.BigQuerySource(
query=get_query(limit),
use_standard_sql=True)))
然而,此管道的读取步骤非常慢-很可能是由于读取.avro文件所致。不过,看起来fastavro似乎并没有真正被使用。AFA
我正在编写一个mapReduce作业来读取和处理Avrofile。输入文件为Avro,输出格式为Avro
当我执行Mapreduce作业时,我在reducer阶段得到以下异常。当reducer抛出IOException时,我无法在reducer中捕获和消除它。色调中的错误堆栈跟踪看起来
java.io.IOException: Invalid int encoding
at org.apache.avro.io.DirectBinaryDecoder.readInt(DirectBinaryDecoder.java:113)
at org.apache.avro.io.ValidatingDe
我需要通过java从本地或gcs读取avro文件。我遵循了文档中的示例
Pipeline p = ...;
// A Read from a GCS file (runs locally and using remote execution):
Schema schema = new Schema.Parser().parse(new File("schema.avsc"));
PCollection<GenericRecord> records =
p.apply(AvroIO.readGenericRecords(schema)
我想读取一个GZIP压缩的帕奎特文件从GCS到BigQuery使用Python SDK for Apache光束。但是,apache_beam.io.parquetio.ReadFromParquet方法似乎不支持从压缩文件中读取。根据源代码,压缩类型被硬编码为UNCOMPRESSED。
有没有一个技巧来读取压缩的拼图文件,而不需要在GCS中预先解压缩文件?如果这是唯一的方法,有没有办法在GCS中直接解压缩文件?