Apache reading从GCS读取Avro文件并写入BigQuery_使用数据流的DLP从GCS读取并写入BigQuery -只有50%的数据写入BigQuery_从BigQuery读取数据并将其写入云存储上的avro文件格式 - 腾讯云开发者社区

、、、

我使用气流将BigQuery行提取到的Avro格式。 with models.DAG( "bigquery_to_bigtable", default_args=default_args, schedule_interval=None, start_date=datetime.now(), catchup=False, tags=["test"], ) as dag: data_to_gcs = BigQueryInsertJobOperator( task_id="dat

浏览 9提问于2021-08-05得票数 1

回答已采纳

1回答

带有限制和偏移量的BigQuery存储读取API

、、、

如何使用应用基于限制和偏移的数据选择？下面是我试图从BigQuery表读取数据的示例。它正在获取整个表，我可以提供基于列值的过滤器。但是我想应用限制和偏移，并为数据获取/读取提供自定义SQL。在存储API中有可能吗？ import com.google.api.gax.rpc.ServerStream; import com.google.cloud.bigquery.storage.v1.AvroRows; import com.google.cloud.bigquery.storage.v1.BigQueryReadClient; import com.google.cloud.bigq

浏览 39提问于2022-02-16得票数 0

2回答

是否有方法将avro模式与Bigquery和Bigtable匹配？

、、、

我想使用将bigquery数据导入到bigtable。将Avro格式的bigquery行导出到GCS是成功的。但是，未将Avro数据导入Bigtable。错误说 Caused by: org.apache.avro.AvroTypeException: Found Root, expecting com.google.cloud.teleport.bigtable.BigtableRow, missing required field key 我想bigquery和bigtable之间的模式应该是匹配的。但我不知道该怎么做。

浏览 8提问于2021-08-05得票数 1

回答已采纳

2回答

bigquery存储API:可以直接将AVRO文件流/保存到吗？

、、、、

我想导出一个90 TB的BigQuery表到。根据的说法，BigQuery存储API (beta)应该是因为与其他方法相关联的导出规模配额(例如ExtractBytesPerDay)。该表是按日期划分的，每个分区占300 GB.我有一个运行在GCP上的Python笔记本，它通过这个从改编的脚本运行分区(并行)。 from google.cloud import bigquery_storage_v1 client = bigquery_storage_v1.BigQueryReadClient() table = "projects/{}/datasets/{}/tables/{

浏览 4提问于2020-05-20得票数 1

2回答

波束数据流流水线表创建Sink作为来自GCS的Bigquery

、、、

我想创建beam数据流作业来从GCS加载数据到Bigquery，我将在GCS的不同文件夹中有100s的文件，可以在GCS的不同文件夹中加载文件，是否可以在beam代码中创建源数据集和表。我的最终目标是创建管道，将数据从GCS加载到Bigquery，谢谢。

浏览 10提问于2021-02-23得票数 0

回答已采纳

1回答

使用Google python读取一组xml文件

、

我试图从GCS桶中读取XML文件的集合，并处理它们，其中集合中的每个元素都是一个字符串，表示整个文件，但我找不到一个关于如何实现这一点的好例子，也无法从主要关于Java版本的Apache文档中理解它。我目前的管道如下： p = beam.Pipeline(options=PipelineOptions(pipeline_args)) (p | 'Read from a File' >> beam.io.Read(training_files_folder) | 'String To BigQuery Row' >> beam.Ma

浏览 6提问于2018-08-22得票数 3

回答已采纳

2回答

BigQuery表加载的avro模式推断

、

我正在使用java，试图将avro文件中的数据加载到BigQuery中。创建外部表时，BigQuery会自动从.avro文件中检测架构。在为要加载的数据创建常规BigQuery表时，是否有一种方法在GCS中指定模式/数据文件？先谢谢你

浏览 1提问于2018-08-23得票数 0

回答已采纳

1回答

分区BigQuery表，从AVRO加载

、、

我有一个bigquery表，它的数据是从GCS上的AVRO文件加载的。这不是外部表。每个AVRO对象中的一个字段是created ( long类型的date)，我想使用这个字段对表进行分区。做这件事最好的方法是什么？谢谢

浏览 1提问于2020-03-30得票数 1

3回答

Apache光束GCP在动态创建的目录中上传Avro

、、、

我想在GCP中创建一个流式Apache光束管道，它从Google Pub/Sub读取数据并将其推送到GCS。我有一个可以从发布/订阅中读取数据的位。我的当前代码看起来就像这样(从GCP Apache beam模板中挑选出来的) pipeline.apply("Read PubSub Events", PubsubIO.readMessagesWithAttributes().fromTopic(options.getInputTopic())) .apply("Map to Archive", ParDo.of(new Pu

浏览 25提问于2020-04-28得票数 1

回答已采纳

1回答

使用数据更新GCS中的AVRO文件

、、、、

我在一个POC上工作，从API中提取数据并将新的/更新的记录加载到GCS中存在的AVRO文件中，我还想从AVRO文件中删除带有已删除标志的记录。使用数据流实现这一点的可行方法是什么，有没有我可以参考的资源？

浏览 5提问于2021-10-26得票数 0

1回答

数据流-将avro对象存储到未知的GCS文件夹

、、、、

我有一个DataFlow管道，它使用来自云发布/订阅的JSON消息，将它们转换为Avro，并将它们存储到Google Cloud Storage。有没有办法让DataFlow根据某个JSON字段将每个Avro对象存储到GCS中的不同文件夹中，如果它的值实际上可以是任何值的话？此文件夹结构的目标是通过云函数使用PubSub通知，将每个结果文件加载到不同的BigQuery表中。

浏览 17提问于2020-02-20得票数 0

1回答

在AI笔记本中使用AVRO编写GCS

、、、、

摘要： 1)如何在木星笔记本(如AI笔记本)中编写Pandas数据帧到GCS(谷歌云存储)中 2)在同一个笔记本中，如何调用要上传到Bigquery中的新数据集的对象问题我确实有一个大到无法在本地下载它的对象，然后将它写在GCS -> BQ上。然而，这个对象还不够大，无法使用Apache进行处理。我用烧烤魔法把它带进了笔记本。在进行了一些转换之后，我想将一个对象发送回我的数据存储库。因此，我试图使用AVRO复制它，但我不知道如何使它工作。我尝试过遵循这个指南()，但我还没有想到函数应该如何拼写。我要这么做： OUTPUT_PATH='{}/resumen2008a2019.

浏览 3提问于2019-11-20得票数 0

回答已采纳

1回答

云Dataproc使用BigQuery连接器读取BigQuery视图

、

是否有可能让Cloud使用BigQuery连接器读取BigQuery视图？另外，对于用户来说，比如在Apache ( Dataproc )中运行了一些工作负载，在相同的数据上运行一些工作负载( BigQuery )-- =>是否更好地将数据保存在(GCS)中，作为avro编码格式(或)，是否最好仅以BigQuery格式保存这些数据，如果可以使用Cloud使用BigQuery连接器来访问BigQuery中的授权视图呢？

浏览 0提问于2019-02-01得票数 0

回答已采纳

2回答

如何将DeltaLake文件从GCS包含到BigQuery

、、、、

是否有库/连接器可直接将存储在Google (GCS)中的文件导入到BigQuery？我已经成功地使用Spark作为中介编写了BigQuery表，但是我找不到--任何直接连接器或BigQuery库--如果不通过spark 进行转换就可以做到这一点。 Update 1：我尝试使用正式的连接器，但是缺少关于如何指向BigQuery中的特定项目的文档，所以我只能将DeltaLake文件从GCS加载到Dataframe中。更新2：使用哈维尔的评论，我设法写到了can，但是这个解决方案没有被优化，而且我尽可能地优化火花作业，它不会像使用Google库那样直接。 Update 3和临时解决方案：没有找

浏览 3提问于2021-10-27得票数 2

回答已采纳

1回答

使用goavro创建的Avro文件将数值数据加载到BigQuery中

、、

我正在尝试弄清楚如何使用Avro文件将美元值加载到BigQuery中的数值列中。我使用golang和包来生成avro文件。 go中处理货币的适当数据类型似乎是big.Rat。 BigQuery 指出，应该可以使用Avro来实现这一点。从几个可以看出，将*big.Rat编码为fixed.decimal类型是可能的。我正在使用一个简单的avro模式使用goavro.OCFWriter对数据进行编码，如下所示： { "type": "record", "name": "MyData", "fields":

浏览 2提问于2018-09-19得票数 0

2回答

BigQuery授权

、

我试图使用bq命令行工具从GCS将数据加载到BigQuery中，并收到以下错误消息： BigQuery error in load operation: Access Denied: Job mythical-maxim-293:bqjob_r11765e0cd9ceb52b_000001427694f0e1_1: RUN_JOB 我使用服务帐户(带有私钥)进行身份验证。我遵循了以下授予服务帐户访问级别的链接：服务帐户电子邮件被授予了对BigQuery数据集的写访问权和使用GCS桶的读访问权。注:添加服务帐户电子邮件作为一个项目的作者，解决了问题，但这是不可行的情况下。我不允许请求项目

浏览 4提问于2013-11-20得票数 1

回答已采纳

2回答

如何使用在数据流执行期间计算的架构写入BigQuery？

我有以下情况：管道A在BigQuery中查找表A，进行一些计算并返回列名列表。这个列名列表用作管道B输出的BigQuery模式。请你告诉我什么是实现这一目标的最佳选择？管道A可以使用TextIO将列名列表写入临时或暂存位置文件，然后由管道执行器读取这些文件以定义管道B的架构。如果这种方法看起来不错，请告诉我是否有Dataflow实用程序从临时或临时位置读取文件，或者是否应该使用GCS。

浏览 3提问于2015-04-03得票数 4

1回答

大型bigquery加载作业的最可靠格式

我有一个100 GB的表，我正试图加载到google bigquery中。它在GCS上存储为一个100 GCS的avro文件。当前，我的bq load作业失败，并显示一条无用的错误消息： UDF worker timed out during execution.; Unexpected abort triggered for worker avro-worker-156907: request_timeout 我在考虑尝试一种不同的格式。我知道bigquery支持几种格式(AVRO、JSON、CSV、Parquet等)，原则上可以加载这些格式中的任何格式的大型数据集。然而，我想知道在座的

浏览 0提问于2019-04-02得票数 3

2回答

将BigQuery联邦表作为数据源在数据流中读取会引发一个错误

、

我在BigQuery中有一个联邦源代码，它指向GCS中的一些CSV文件。当我尝试将联邦BigQuery表作为Dataflow管道的源读取时，它会引发以下错误： 1226 [main] ERROR com.google.cloud.dataflow.sdk.util.BigQueryTableRowIterator - Error reading from BigQuery table Federated_test_dataflow of dataset CPT_7414_PLAYGROUND : 400 Bad Request { "code" : 400,

浏览 5提问于2016-03-24得票数 4

回答已采纳

1回答

使用Apache光束/数据流从BigQuery读取数据时使用fastavro

、、

我的项目运行的是Python2.7(是的，我知道...)Google Dataflow上的Apache Beam 2.19。我们连接到BigQuery的方式与Apache光束教程中指定的方式相同： p | 'Get data from BigQuery' >> beam.io.Read(beam.io.BigQuerySource( query=get_query(limit), use_standard_sql=True))) 然而，此管道的读取步骤非常慢-很可能是由于读取.avro文件所致。不过，看起来fastavro似乎并没有真正被使用。AFA

浏览 0提问于2020-03-19得票数 0

1回答

Google函数-错误:找不到模块google/bigquery

、、、、

我正在创建一个云功能，它可以将avro文件从GCS移动到BigQuery，任何时候GCS中都会有新的文件。我在GCP中使用云功能ui。我有512 MB的内存分配。触发器是Google存储。事件类型，如果完成/创建。源代码是内联编辑器。下面是我的密码。我可以成功地部署，但是我在部署后会收到下面的错误，没有任何东西会移动到BigQuery。此外，我试图将avro文件从存储桶中的文件夹中移出，因此我不会直接从顶部的父桶中提取文件。这就是下面代码的目的，因为我试图进入这个文件夹，这个文件夹名为“例_/”。错误:找不到模块google/bigquery 'use strict';

浏览 0提问于2019-05-02得票数 1

回答已采纳

1回答

BigQuery表的加载限制

我有成吨的avro格式的文件保存在GCS中。我想使用BigQuery REST API将它们加载回BigQuery表。我每天可以加载的数据总量(例如10TB)是否有限制？谢谢，叶夫

浏览 0提问于2019-12-19得票数 0

1回答

java.io.IOException: int编码无效

、

我正在编写一个mapReduce作业来读取和处理Avrofile。输入文件为Avro，输出格式为Avro 当我执行Mapreduce作业时，我在reducer阶段得到以下异常。当reducer抛出IOException时，我无法在reducer中捕获和消除它。色调中的错误堆栈跟踪看起来 java.io.IOException: Invalid int encoding at org.apache.avro.io.DirectBinaryDecoder.readInt(DirectBinaryDecoder.java:113) at org.apache.avro.io.ValidatingDe

浏览 4提问于2014-02-14得票数 7

1回答

在BigQuery中创建外部分区表时，它说:不允许为STORAGE_FORMAT_AVRO指定架构

我遵循google文档中的指南创建外部分区表，即：创建表：从GCS中选择文件: gs://my_bucket/data/ymd=20200703/* 文件格式: Avro 源数据分区，URI前缀: gs://my_bucket/ Data / 表类型：外部但是，当我单击create时，它会说：不允许为STORAGE_FORMAT_AVRO指定架构如果我使用本机表而不是外部，它就能工作。我还尝试了gs://my_bucket/data/，gs://my_bucket/data/，gs://my_bucket/data/**，gs://my_bucket/data/ymd=202

浏览 0提问于2020-07-08得票数 0

回答已采纳

1回答

在GCS上读取Avro文件时的OutOfMemoryError异常

我将大小约为650 GCS的BigQuery数据集导出到GCS上的Avro文件，并运行数据流程序来处理这些Avro文件。但是，即使只处理一个大小约为1.31GB的Avro文件，也会遇到OutOfMemoryError异常。我收到了以下错误消息，似乎异常来自于AvroIO和Avro库： Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded at org.apache.avro.io.BinaryDecoder.readString(BinaryDecod

浏览 1提问于2015-01-16得票数 0

回答已采纳

1回答

为什么需要临时的GCS存储桶才能将数据写入到BigQuery: pyspark

、、、

最近，我遇到了一个问题，当我使用pyspark将数据写入BigQuery中时。这里是： pyspark.sql.utils.IllegalArgumentException:必须通知U‘informed或持久性GCS桶在对问题进行研究后，我发现暂时性的GCS桶要提到spark.conf。 bucket = "temp_bucket" spark.conf.set('temporaryGcsBucket', bucket) 我认为在Biquery中为像Hive这样的表创建一个文件是没有概念的。我想知道更多关于它的情况，为什么我们需要临时gcs将数据写入

浏览 6提问于2021-06-11得票数 1

回答已采纳

1回答

BigQuery导出到Avro格式失败，出现“内部错误”

在BigQuery中，我尝试运行(从4月5日开始)几个导出作业(Avro格式)到GCS，但我一直收到错误："Internal Error“。我做错了什么？

浏览 0提问于2017-04-10得票数 1

1回答

基于google云存储的Spark结构化流媒体

、、、

我正在运行几个使用google云存储上的Avro数据的batch Spark管道。我需要更新一些管道，使其更实时，并且想知道spark structured是否可以以流的方式直接消费来自gcs的文件，即parkContext.readstream.from(...)可以应用于从外部源的存储桶下连续生成的Avro文件。 Apache beam已经有像File.MatchAll().continuously()，Watch，watchnewFiles这样的东西，允许beam管道监控新文件并以流的方式读取它们(从而消除了对pubsub或通知系统的需要)，Spark structured stream

浏览 1提问于2018-01-05得票数 2

1回答

从模板中在数据流作业中添加两个新字段

、

几周前，我从一个模板(到BigQuery)创建了一个数据流作业。我停止了作业，然后尝试用相同的模板创建一个新作业(到BigQuery)。现在，我看到了两个需要的新字段(在GCS通知策略中使用的Pub/Sub订阅。，Datastream输出文件格式(avro/json))。我不知道我应该进入这些领域。页面上的教程甚至不起作用。知道这两个新字段应该输入什么值吗？我找不到任何关于输入新的所需字段的文档。错误视图教程图片：添加图像的新字段：

浏览 1提问于2021-07-27得票数 1

1回答

以编程方式将Firestore备份导入BigQuery

、、

我在GCS中有一个名为all_namespaces_kind_Rates.export_metadata的firestore备份文件。我设置了一个cron作业，每24小时更新一次此文件。我现在需要的是找到一种以编程方式将此export_metadata文件发送到BigQuery的方法。BigQuery具有从全局控制系统调度数据传输的能力，但仅适用于以下格式的文件: CSV、JSON、AVRO、PARQUET和ORC。如何以编程方式将firestore备份文件传输到BigQuery？

浏览 0提问于2019-09-13得票数 0

1回答

数据流管道中的TextIOWrapper运行缓慢

、、、

我正在将csv文件从GCS加载到BigQuery中，并通过Cloud Composer触发任务(然后做一些其他的事情)。由于某些字段中存在各种字符，bq load命令无法正确解析文件，因此我求助于数据流来帮助解析和加载。有8个文件，每个文件的大小约为1 1GB。它有96列的数据和大约3M条记录直接从GCS加载到BQ。大多数字段都是带有少量数字和时间戳类型的字符串。我的流水线在运行，但速度非常慢。我可以成功地将文件读入BigQuery，但是管道在经过18分钟后会自动扩展到+15个工作线程，此时它只处理了大约300k行。用户界面显示，它的处理速度仅为每秒300个元素。我已经尝试了网上发布的各

浏览 20提问于2019-06-26得票数 0

1回答

无法调试的数据流异常

我们在数据流中创建了一个非常简单的作业。它定期从BigQuery读取并存储到RedisCluster中。管道代码如下所示。 // initialize pipeline PipelineOptions options = PipelineOptionsFactory.fromArgs(args).withValidation().create(); Pipeline pipeline = Pipeline.create(options); // ... read from bigquery final String query = "...&#

浏览 1提问于2018-11-20得票数 3

2回答

是否可以用Snappy压缩将Avro文件加载到BigQuery？

、、

我知道BigQuery支持Avro文件上传，并且我成功地将Avro文件加载到BigQuery中。使用以下命令， java -jar avro-tools-1.7.7.jar fromjson --codec snappy --schema-file SourceSchema.avsc Source.json > Output.snappy.avro 我已经生成了一个使用Snappy压缩并试图加载到BigQuery中的Avro文件，但是加载作业在以下错误中失败， Errors: file-00000000: The Apache Avro library failed to parse

浏览 5提问于2016-09-28得票数 1

回答已采纳

1回答

使用BigQuery类从表中读取SchemaAndRecord数字数据类型

、、、、

在开发代码时，我使用下面的代码片段从BigQuery读取表数据。 PCollection<ReasonCode> gpseEftReasonCodes = input. apply("Reading xxyyzz", BigQueryIO.read(new ReadTable<ReasonCode>(ReasonCode.class)) .withoutValid

浏览 1提问于2019-05-23得票数 1

回答已采纳

1回答

从google pubsub到spark streaming的数据摄取速度很慢

、、、、

我正在使用google cloud Dataproc Spark集群来运行Spark streaming作业，该作业从多个PubSub订阅中读取数据并写入BigQuery。PubSub有500万个元素，滑动窗口为2分钟，批/窗口为30秒，我每批只能得到大约200,000个元素。我希望第一批就能全部拿到五百万。每个元素的大小约为140字节，并且是Avro消息格式。我已经在数据流中实现了每秒100万个元素的速度，但我想用Dataproc做同样的事情。我尝试了Dataproc的自动缩放选项，也尝试了在数据流上工作的相同的波束管道代码。如果我增加订阅的数量，那么它可能会提供更多的吞吐量。是否有可能从

浏览 5提问于2019-07-22得票数 3

2回答

使用BigQueryToCloudStorageOperator导出为JSON

、、

当我手动使用BigQuery控制台时，我可以看到在将表导出到GCS时有3个选项：CSV、JSON (Newline delimited)和Avro。对于Airflow，当使用BigQueryToCloudStorageOperator运算符时，传递给export_format的正确值是什么，以便将数据作为JSON (Newline delimited)传输到GCS？它是简单的JSON吗？我在网上看到的用于BigQueryToCloudStorageOperator的所有示例都使用export_format='CSV'，而不是JSON，所以我不确定这里的正确值是多少。

浏览 39提问于2020-11-13得票数 0

回答已采纳

1回答

在Airflow任务中从Google云存储导入JSON

、、

将数据从GCS转移到MongoDB似乎并不常见，因为没有太多关于这方面的文档。我们有以下任务，我们将其作为python_callable传递给Python操作符-该任务将数据从BigQuery作为JSON移动到GCS中： def transfer_gcs_to_mongodb(table_name): # connect client = bigquery.Client() bucket_name = "our-gcs-bucket" project_id = "ourproject" dataset_id = "

浏览 20提问于2020-11-14得票数 1

回答已采纳

2回答

读取GCS blob，其中文件名来自apache beam中以前的p-集合。

、、、、

我正在尝试读取一个GCS blob，其中文件名来自apache束中的以前的p集合。代码示例如下所示。 pubsub = (p | "Read from Topic" >> ReadFromPubSub(topic=topic) |"decode bytes" >>beam.Map(lambda element: element.decode('utf-8')) # b'"gs://beam-gcs/example.parquet"' | &#

浏览 0提问于2021-05-09得票数 0

1回答

将AVRO文件加载到BigQuery时出错

、、

我已经使用bq实用工具成功地将大量AVRO文件(相同模式类型的文件加载到相同的表中)，存储在Google中。但是，对于一些AVRO文件，在加载到bigquery时，我得到了非常神秘的错误，错误说： Apache库无法读取包含以下错误的数据: EOF到达(错误代码:无效) 当avro-tools验证AVRO文件没有损坏时，报告输出： java -jar avro-1.8.1.jar修复-o报告2017-05-15-07-15-01_48a99.avro恢复文件: 2017-05-15-07-15-01_48a99.avro文件摘要:块数: 51损坏块数:0记录数: 58598损坏记录数:0 我

浏览 0提问于2017-06-08得票数 1

1回答

Beam.BigQueryIO: numFileShards是干什么用的？

、

当我想将我的未绑定输入从Kafka加载到BigQuery时，我遇到了.withMethod()选项。通过使用Method.FILE_LOAD，我还必须指定触发频率以及非零numFileShards。我的问题是文件碎片的数量控制多少？它是用来做什么的？在我的观察中，它绝对不是在我的GCS临时位置生成的临时文件，对我来说是可见的。但是我想知道我应该在这里选择几个数字？根据我引用的源代码，默认值应该是1000，但实际上是0，所以当我没有显式地设置它时，我得到了一个异常，当我将它设置为1时，异常消失了，但是我还是不知道它是什么，我正在设置什么，lol。 /**Control使用

浏览 1提问于2018-09-10得票数 2

回答已采纳

1回答

通过命令行将Avro数据加载到BigQuery？

、、

我已经创建了一个avro-hive表，并使用hive insert-overwrite命令将数据从另一个表加载到avro-table中。我可以看到avro-hive表中的数据，但当我尝试将其加载到bigQuery表中时，出现错误。表架构：- CREATE TABLE `adityadb1.gold_hcth_prfl_datatype_acceptence`( `prfl_id` bigint, `crd_dtl` array< struct < cust_crd_id:bigint,crd_nbr:string,crd_typ_cde:string,crd_

浏览 5提问于2017-12-27得票数 1

2回答

在Apache /Dataflow的WriteToBigQuery转换中，如何使用Method.FILE_LOADS和Avro temp_file_format启用死信模式

、、、、

在这个中，Apache建议在写入BigQuery时使用死信模式。此模式允许您用'FailedRows'标记从转换输出中获取未能写入的行。然而，当我尝试使用它时： WriteToBigQuery( table=self.bigquery_table_name, schema={"fields": self.bigquery_table_schema}, method=WriteToBigQuery.Method.FILE_LOADS, temp_file_format=FileFormat.AVRO, ) 我的一个元素中的架构不匹

浏览 34提问于2022-09-03得票数 0

回答已采纳

1回答

从GCS读取输入和模式作为运行时参数的数据流模板

、、

我正在尝试创建一个带有3个运行时参数的自定义数据流模板。来自gcs和bigquery数据链接表的输入文件和架构文件位置。输入文件似乎可以使用beam.io.textio.ReadFromText方法正确读取。但是，我需要提供模式文件(而不是通过从gcs读取来在模板中对其进行硬编码。此模式还需要传递给beam.io.WriteToBigQuery 这是我第一次使用Dataflow，我正在努力让它工作。当gcs位置作为运行时参数提供时，如何将该位置作为字符串读取(知道在推送Dataflow模板时，运行时参数上的get()失败)。 from __future__ import absolute_

浏览 2提问于2019-08-07得票数 1

2回答

Apache光束无法读取Avro文件

、、、

我需要通过java从本地或gcs读取avro文件。我遵循了文档中的示例 Pipeline p = ...; // A Read from a GCS file (runs locally and using remote execution): Schema schema = new Schema.Parser().parse(new File("schema.avsc")); PCollection<GenericRecord> records = p.apply(AvroIO.readGenericRecords(schema)

浏览 5提问于2018-03-03得票数 0

1回答

Apache光束Python SDK -从GCS读取GZIP压缩的拼图文件

、、、

我想读取一个GZIP压缩的帕奎特文件从GCS到BigQuery使用Python SDK for Apache光束。但是，apache_beam.io.parquetio.ReadFromParquet方法似乎不支持从压缩文件中读取。根据源代码，压缩类型被硬编码为UNCOMPRESSED。有没有一个技巧来读取压缩的拼图文件，而不需要在GCS中预先解压缩文件？如果这是唯一的方法，有没有办法在GCS中直接解压缩文件？

浏览 2提问于2019-11-25得票数 0

1回答

雪管无法读取通过从BigQuery导出的排气压缩的AVRO

我试图导入从BigQuery导出的数据作为AVRO，压缩数据作为泄气。这两种编码中唯一通用的编码是“除无”之外的“紧缩”。我正在导出一个具有13,343,598行的公开数据集bigquery-public-data:covid19_open_data.covid19_open_data。我使用以下命令导出： bq extract --destination_format=AVRO --compression=DEFLATE bigquery-public-data:covid19_open_data.covid19_open_data gs://staging/covid19_open_dat

浏览 2提问于2021-08-12得票数 1

1回答

Avro向后兼容性不像预期的那样工作

、、、

我有两个Avro模式V1和V2，它们如下所示： import org.apache.spark.sql.avro.functions._ val jsonFormatSchema = new String(Files.readAllBytes(Paths.get("./examples/src/main/resources/V1.avsc"))) val df = spark .readStream .format("kafka") .option("kafka.bootstrap.servers", "host1:por

浏览 10提问于2021-11-14得票数 1

回答已采纳

1回答

google cloud dataflow从压缩数据中读取数据

我正在尝试使用google cloud dataflow从GCS中读取数据并加载到BigQuery表中，但是GCS中的文件是压缩的(Gzip)，有没有类可以用来从压缩/gzip文件中读取数据？

浏览 1提问于2015-02-07得票数 2

1回答

从Bigquery到Avro

、、

我现在运行一个SQL查询将公共BigQuery数据集中的数据提取到一个表中，在那里我可以很容易地使用导出功能来生成Avro文件并将其保存到GCS中。如何以编程方式生成此文件？我已经使用BQ API将表读取到Pandas Dataframe中，是不是读取到Pandas DF，然后将其导出到Avro的最佳选择？或者这是一种更好的方法。

浏览 20提问于2019-06-03得票数 0

回答已采纳

1回答

将CSV文件上载到分区的bigquery表中(从文件名生成分区)

、、

我使用bigquery客户端对象将一些CSV文件(位于云存储中)上载到bigquery表中。我成功地将数据上载到bigquery表中，但我希望将目标表更改为已分区表。分区将是文件名中的日期。文件名是CSV文件中的一个列，与CSV文件名相同。这就是我如何从文件名(假设文本是文件名)中提取数据的方法，date1稍后将用作我们的分区： text = 'sales_2022-09-09T21-27-05_018787' match = re.search(r'\d{4}-\d{2}-\d{2}', text) date1 = datetime.strptime(m

浏览 7提问于2022-11-21得票数 0