使用Beam SQL查询Avro Schema

文章/答案/技术大牛

发布

1回答

、、

我正在尝试读取avro文件与Apache横梁和使用横梁SQL来转换数据。 Schema schema = new Schema.Parser().parse(new File("data/RATE_CODE/RATE_CODE.avscCreate record/row */ PCollection<GenericRecord&g

浏览 53提问于2019-10-28得票数 2

回答已采纳

1回答

使用beam、python读取具有Avro模式的大查询表

、、、

我将apache-beam SDK从2.5.0更改为2.12.0，并在使用python从beam中的Big Query中读取表时出现了Avro模式错误。 BQ表有一个时间戳字段，其他字段是字符串。data = pipe \ beam.io.BigQuerySource(dataset=args.dataset_name,

浏览 15提问于2019-07-01得票数 3

回答已采纳

1回答

如何在apache_beam python中推断Avro中的模式？

、、

我有一个AVRO文件，该文件的头中有模式。我正在尝试使用apache_beam Pyhotn从标头中获取模式。但无法得到它。任何帮助或指导都将被采纳。

浏览 1提问于2022-10-19得票数 2

2回答

数据流Python Source/Sync

、、

我希望通过Python在GCS中摄取和编写Avro文件。通过Avro利用Python，这是目前可能的吗？如果是这样的话，我怎么做呢？我在消息来源中看到了TODO对此的评论，所以我不太乐观。

浏览 4提问于2016-06-13得票数 1

回答已采纳

2回答

使用自定义参数从BigQuerySource读取失败，并显示“找不到所需的参数serialized_source”

、、

我正在使用一个自定义的worker_harness_container_image (和experiment=beam_fn_api)在数据流上尝试一个非常简单的管道： main.py import(query="SELECT 1", use_standard_sql=True)) ) p.run(={value=gs://bucket/000

浏览 30提问于2020-01-21得票数 0

1回答

用Dataflow Python从PubSub读取AVRO消息

、、、

我需要阅读另一个GCP项目的PubSub主题的AVRO消息。我之前已经实现了Python管道，它从PubSub读取JSON消息并写入BigQuery。但我对处理阿夫罗的信息很陌生。我试图查找AVRO的Python文档，它将我指向这个链接在这个链接中，有从文件读取和写入文件的示例，但我认为从PubSub读取这些函数并不有用。我使用下面的转换从PubSub读取，其中输出是字节串。"Read from PubSub" >> beam.io.ReadFromPubSub(topic=TOPIC).

浏览 9提问于2020-04-14得票数 2

回答已采纳

1回答

流传输管道不向桶写入文件。

、、

UI在GCP数据流上有一个python流管道，它从PubSub中读取数千条消息，如下所示： lines = lines | "Parse" >> beam.Map(parse_json) l

浏览 3提问于2020-06-17得票数 2

回答已采纳

2回答

读取Avro文件并将其写入BigQuery表

、、、

我的目标是从云存储中读取avro文件数据，并使用Java将其写入BigQuery表。如果有人提供代码片段/想法来读取avro格式的数据并使用将其写入BigQuery表，那就太好了。

浏览 1提问于2019-02-05得票数 5

回答已采纳

1回答

Java gradle kafka-avro-serializer和kafka-schema-registry-client无法在部署管道中下载

、、、

:2.32.0 > org.apache.beam:beam-sdks-java-io-kafka:2.32.0 > Could not resolve io.confluent:kafka-avro-serializer/5.3.2/kafka-avro-serializer-5.3.2.pom'/kafka-avro-serializer-5.3.2.pom':2.32.0 > org.apache.beam</e

浏览 207提问于2021-11-22得票数 0

回答已采纳

2回答

使用Python在Google - Apache束中通过推断模式读写avro文件

、、、、

问题:我正在尝试创建一个云数据流管道，该管道使用Python从Google读取文件，并在Google上进行一些处理和回写一个Avro文件。我使用了ReadFromAvro和WriteToAvro函数。我试图实现的是读取一个Avro文件并使用Dataflow编写相同的Avro文件，但是它给了我以下警告，并且没有输出一个avro文件。(pipeline_args) p = beam.Pipeline(options=pipeline_options

浏览 9提问于2017-10-24得票数 3

回答已采纳

1回答

如何获取Apache Beam* SQL查询的输出模式？*

、、

我一直在使用and DSL，如果不提供一个能够手动识别输出模式的编码器，我就无法使用查询的输出。我可以推断输出模式而不是硬编码它吗？sc.avroFile[Foo](args("input")) .map(fooToRowcom.esotericsoftware.kryo.KryoException: java.l

浏览 1提问于2018-09-05得票数 1

回答已采纳

1回答

Apache reading从GCS读取Avro文件并写入BigQuery

、、、

我在寻求帮助- 这是代码- // Get Avro SchemaSchema schema= new Schema.Parser().parse(schemaJson); // Check schema field types before starting the Dataflow jobapply(AvroToCsv.java:1

浏览 36提问于2020-06-01得票数 0

2回答

在Apache /Dataflow的WriteToBigQuery转换中，如何使用Method.FILE_LOADS和Avro* temp_file_format启用死信模式*

、、、、

在这个中，Apache建议在写入BigQuery时使用死信模式。此模式允许您用'FailedRows'标记从转换输出中获取未能写入的行。然而，当我尝试使用它时： table=self.bigquery_table_name, schema={"fields": self.bigquery_table_schema_avro_writer.write(row) File "fastavro/_wri

浏览 34提问于2022-09-03得票数 0

回答已采纳

1回答

使用Beam将Avro写入BigQuery

、、、、

Q1:假设我使用BigQuery加载工具加载Avro编码的数据。现在我需要将这些数据写入到不同的表中，仍然是Avro格式。我正在尝试测试不同的分区，以便测试表的性能。如何使用Beam将SchemaAndRecord写回BigQuery？在这种情况下，模式检测也能工作吗？Q2:从Avro schema type转换为Avro schema type时，似乎丢失了架构信息。例如，在BigQuery中，double和float Av

浏览 1提问于2018-06-08得票数 0

1回答

读取BigQuery类形式的Java表数据(Pojo)

、、

我需要使用数据流从Bigquery中读取表数据，而不是使用/存储数据到TableRow类。我想在Java Pojo类中存储数据，有没有什么方法可以将数据直接映射到Pojo中。Way2： GenericRecord s = schemaAndRecord.getRecord(); .fr

浏览 25提问于2019-05-24得票数 1

0回答

在使用python avro库时读写模式

、、

avro规范允许使用不同的写入和读取模式，前提是它们匹配。该规范还允许别名迎合读取和写入模式之间的差异。下面的python 2.7试图说明这一点。import uuidimport jsonfromavro.io import DatumReader, DatumWriter

浏览 1提问于2017-06-12得票数 6

2回答

如何从Apache Beam* KafkaIO中的kafka主题推断avro模式*

、、、、

我正在使用Apache Beam的kafkaIO读取一个主题，该主题在Confluent模式注册表中具有avro模式。我能够反序列化消息并将其写入文件。但最终我还是想写给BigQuery。这是我使用模式注册表url设置反序列化器的代码，也是我从Kafka读取的代码： AbstractKafkaAvroSerDeConfig.SCHEMA_REGISTRY_URL_CONFIG.commitOffsetsInFi

浏览 3提问于2020-06-24得票数 0

1回答

Apache streaming python流编写每小时一次的avro文件文件

、、、

', '-') parsed_schema = u.get_parsed_avro_from_schema_service( schema_repo_url='localhost' p = beam.Pipe

浏览 11提问于2019-02-25得票数 0

回答已采纳

1回答

使用google数据流beam.io.avroio.WriteToAvro将python中的csv转换为avro* (*

、

使用/ Composer为CSV到Avro，一切都在我的本地环境中工作。__ import absolute_importimport loggingimport avro.schema help='Avro

浏览 0提问于2018-08-22得票数 1

回答已采纳

1回答

如何将列索引添加到Apache Beam* Python SDK的拼图输出中？*

、

我试着从GCS批量处理.avro文件，并将结果作为拼图文件写回GCS，数据是时间序列，元素是时间戳。如何从拼图输出中的timestamp列创建列索引？class AddTimestampDoFn(beam.DoFn): yield beam.window.TimestampedValue| 'ReadAvro' >> beam.io.ReadFromAvro( 'gs:/&#x

浏览 13提问于2021-08-10得票数 1

回答已采纳

点击加载更多