使用beam、python读取具有Avro模式的大查询表_如何使用Airflow BigQuery模块检索大查询表的模式_使用python将具有不同模式的项附加到Avro中的现有文件 - 腾讯云开发者社区

python、google-bigquery、apache-beam、avro

我将apache-beam SDK从2.5.0更改为2.12.0，并在使用python从beam中的Big Query中读取表时出现了Avro模式错误。 BQ表有一个时间戳字段，其他字段是字符串。data = pipe \ beam.io.B

浏览 15提问于2019-07-01得票数 3

回答已采纳

2回答

BigQuery自动检测模式和创建表，在apache_beam中发生流作业时

google-bigquery、google-cloud-dataflow、apache-beam、apache-beam-io

我有一个信息流进来，想要将它们记录在BigQuery中，但问题是用户可以在启动apache_beam作业之前定义一个新的表名。此外，流中的架构可以更改超时。我想知道是否有人使用Python实现了流apache_beam作业的自动表创建和模式更改。

浏览 12提问于2022-09-27得票数 0

0回答

在使用python avro库时读写模式

python、python-2.7、avro

avro规范允许使用不同的写入和读取模式，前提是它们匹配。该规范还允许别名迎合读取和写入模式之间的差异。下面的python 2.7试图说明这一点。, read_schema))此代码具有以下错误消息： /Library/Frameworks/Python.framework/Versions/2.7/bin&

浏览 1提问于2017-06-12得票数 6

1回答

我正在阅读关于Apache中的文档，但我不能理解它的用途，如何以及为什么或在哪些情况下我应该使用它们。使用模式或使用扩展Serializable接口的类有什么区别？<TransactionPojos> transactionPojos = readTransactionsAsPojo(); 但是它没有解释readTransactionsAsPojo函数是如何构建的。我认为关于这一点有很多缺失的解释。

浏览 0提问于2020-06-17得票数 1

2回答

如何从Apache Beam KafkaIO中的kafka主题推断avro模式

google-bigquery、apache-beam、confluent-schema-registry、apache-beam-io、apache-beam-kafkaio

我正在使用Apache Beam的kafkaIO读取一个主题，该主题在Confluent模式注册表中具有avro模式。我能够反序列化消息并将其写入文件。但最终我还是想写给BigQuery。我的管道无法推断出模式。如何提取/推断模式并将其附加到管道中的数据，以便我的下游进程(写入BigQuery)可以推断该模式？这是我<

浏览 3提问于2020-06-24得票数 0

1回答

用Dataflow Python从PubSub读取AVRO消息

python-3.x、google-cloud-dataflow、avro、google-cloud-pubsub

我需要阅读另一个GCP项目的PubSub主题的AVRO消息。我之前已经实现了Python管道，它从PubSub读取JSON消息并写入BigQuery。但我对处理阿夫罗的信息很陌生。我试图查找AVRO的Python文档，它将我指向这个链接在这个链接中，有从文件读取和写入文件的示例，但我认为从PubSub读取这些函数并不有用。我使用下面的转换从PubSub读取，其中

浏览 9提问于2020-04-14得票数 2

回答已采纳

2回答

使用Python在Google - Apache束中通过推断模式读写avro文件

python、google-cloud-platform、google-cloud-dataflow、avro、apache-beam

问题:我正在尝试创建一个云数据流管道，该管道使用Python从Google读取文件，并在Google上进行一些处理和回写一个Avro文件。在研究了Apache网站上提供的一些示例之后，我尝试运行以下代码。我使用了ReadFromAvro和WriteToAvro函数。我试图实现的是读取一个Avro文件并使用Dataflow编写相同的Avro文件，但是它给了我以下警告，并且没有输出一个

浏览 9提问于2017-10-24得票数 3

回答已采纳

1回答

日期分区表上的BigQuerySource

google-bigquery、google-cloud-platform、google-cloud-dataflow

我有一组日期分区表employee_wages_<date>，并希望使用数据流读取一些列。(python示例)行中的一些内容 beam.io.BigQuerySource(query='SELECT user_name, sum(salary) as total_salary FROM `project_id.dataset_id.employe

浏览 5提问于2016-09-21得票数 0

1回答

有什么方法可以从嵌套的束流管道记录中获取很少的字段吗？

python、apache-beam

我正在读取一个Avro文件，该文件具有太多字段的嵌套模式。例如: employeeId、empName、empPersonalInfo.Address.city等。schema of an avro file is : "namespace" : "studentjoin.avro", } } }

浏览 1提问于2019-06-12得票数 0

回答已采纳

2回答

使用自定义参数从BigQuerySource读取失败，并显示“找不到所需的参数serialized_source”

python、google-cloud-dataflow、apache-beam

我正在使用一个自定义的worker_harness_container_image (和experiment=beam_fn_api)在数据流上尝试一个非常简单的管道： main.py import_sdk 像这样启动： python3.7 -m main \--project project_id \ --temp_location gs:/这是失败的，因为 Caused by: org.apache.beam</

浏览 30提问于2020-01-21得票数 0

1回答

匿名调用方没有storage.objects.get访问Google对象的权限

google-cloud-platform、google-cloud-storage、google-dataflow

我有一个简单的Apache程序，它从gcp云存储中读取avro文件并将其写入大查询。())transaction =(p ] # wait until pipeline

浏览 12提问于2022-07-03得票数 1

回答已采纳

3回答

Parquet:将特定列读入内存

mapreduce、avro、parquet

我已经将mysql表导出到一个拼图文件(基于avro)。现在，我想从该文件中读取特定的列。我如何才能完整地阅读特定的列？我正在寻找java代码的例子。有没有api可以让我传递需要的列，然后得到一个二维表的数组？

浏览 2提问于2014-08-16得票数 3

1回答

从BigTable到模式问题？

google-cloud-platform、apache-beam、gcloud、avro、google-cloud-bigtable

我正在尝试使用Dataflow模板1将一个Avro文件(使用Spark3.0生成)摄取到BigTable中，并获得以下错误。知道吗？谢谢你的支持！, missing required field key{"type":"record","name":"topLevelRecord",&q

浏览 6提问于2020-12-22得票数 1

回答已采纳

1回答

BigQuery无法解析avro文件

google-bigquery、avro

我需要在Google的大查询中使用avro模式文件创建一个空表，但是没有这样做.我已经编写了以下示例模式文件 "namespace": "tutorialspoint.com", "name": "emp", {&q

浏览 0提问于2019-05-26得票数 0

1回答

使用Apache光束/数据流从BigQuery读取数据时使用fastavro

google-bigquery、google-cloud-dataflow、apache-beam

我的项目运行的是Python2.7(是的，我知道...)Google Dataflow上的Apache Beam 2.19。我们连接到BigQuery的方式与Apache光束教程中指定的方式相同： query=get_query(limit), use

浏览 0提问于2020-03-19得票数 0

2回答

适用于GenericRecord的Apache光束编码器

google-cloud-dataflow、avro、apache-beam

我正在构建一个读取Avro通用记录的管道。要在阶段之间传递GenericRecord，我需要注册AvroCoder。文档指出，如果我使用泛型记录，模式参数可以是任意的：但是，当我将一个空模式传递给AvroCoder.of(Class, Schema)方法时，它会在运行时抛出异常。有没有一种方法可以为GenericRecord创建不需要模式的AvroCoder？在我的例子中，每个GenericRecord都有一个嵌入

浏览 2提问于2018-12-13得票数 7

1回答

无法将查询结果读写回BigQuery

google-cloud-platform、google-bigquery

我使用BigQueryIO.readTableRows().fromQuery(...)从BigQuery读取行，然后使用BigQueryIO.writeTableRows()将TableRow写回BigQuery我已经创建了具有正确模式的表，因此使用CreateDisposition.CREATE_NEVER，并且不必在Beam中设置模式。问题是，所有Record字段都在查询结果中被平放(下划线附

浏览 2提问于2018-06-15得票数 0

回答已采纳

1回答

使用Beam将Avro写入BigQuery

serialization、google-cloud-platform、google-bigquery、avro、apache-beam

Q1:假设我使用BigQuery加载工具加载Avro编码的数据。现在我需要将这些数据写入到不同的表中，仍然是Avro格式。我正在尝试测试不同的分区，以便测试表的性能。如何使用Beam将SchemaAndRecord写回BigQuery？在这种情况下，模式检测也能工作吗？Q2:从Avro schema type转换为Avro schema type时，似乎丢失了架构

浏览 1提问于2018-06-08得票数 0

1回答

带gcp云函数的apache光束

google-cloud-platform、google-cloud-functions、apache-beam、apache-beam-io

我已经部署了一个简单的apache函数，它工作得很好，但是当我试图读取文件时会出现路径错误。当我使用参数-runner从本地运行时，与Dataflowrunner一样，相同的脚本运行，有人建议我必须执行pip安装apache-beamgcp。我已经在当地做过了，而且效果很好。下面是我的密码。'Read all from AVRO' >> beam.io.avroio.ReadFromAvro(PATH + 'avrofile_*

浏览 11提问于2022-08-04得票数 1

回答已采纳

1回答

使用AvroIO类读取运行时值

apache-beam、dataflow

我需要使用AvroIO通过动态传递模式和文件路径来读取Apache Beam中的AVRO文件。有没有什么方法可以把ValueProvider或者侧边输入或者其他任何东西传递给AvroIO.read。下面是我使用的代码： PCollection<GenericRecord> records =p.apply(AvroIO.readGenericRecords(dynamicallyProvidedSchema

浏览 0提问于2017-11-08得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云