基于文件模式从云存储读取avro文件的Google dataflow作业_从存储在GCS中的文件读取Google Cloud Dataflow中的Excel文件_从Google云存储读取Excel文件 - 腾讯云开发者社区

、、、

我试图使用将谷歌的PubSub消息写入。PubSub消息以json格式出现，我要执行的唯一操作是从json到parquet文件的转换。在官方文档中，我找到了一个由google提供的模板，它从Pub/Sub主题中读取数据，并将Avro文件写入指定的云存储桶()。问题是模板源代码是用Java编写的，而我更喜欢使用Python。这是我对Dataflow和Beam进行的第一次测试，而且没有太多的在线材料可以从中得到提示。任何建议，链接，指导，代码将不胜感激。

浏览 0提问于2020-07-21得票数 0

回答已采纳

1回答

如何使用Python代码启动数据流作业

、、、

我想启动数据流作业，一旦我将一个文件放入云storage.And，我启动一个云函数来触发it.But，我不知道如何使用Python启动数据流作业?有人可以帮助我吗？ const kickOffDataflow = (input, output) => { var jobName = CONFIG.DATAFLOW_JOB_NAME; var templatePath = CONFIG.TEMPLETE_FILE_PATH; var request = { projectId: "test", requestBody: { jobName:

浏览 7提问于2019-02-07得票数 0

回答已采纳

1回答

使用Apache Beam编写通用记录时Avro“不打开”异常

、、

我使用AvroIO.<MyCustomType>writeCustomTypeToGenericRecords()将通用记录写入流数据流作业中的GCS。在前几分钟，一切似乎都正常，但是，大约10分钟后，作业开始抛出以下错误： java.lang.RuntimeException: org.apache.beam.sdk.util.UserCodeException: org.apache.avro.AvroRuntimeException: not open com.google.cloud.dataflow.worker.GroupAlsoByWindowsPar

浏览 1提问于2018-11-16得票数 0

回答已采纳

1回答

调试预期无法工作的Google数据流流作业

、、

下面是关于如何将数据从oracle数据库迁移到Cloud实例的教程。我正在使用Google提供的流模板。在高层次上，这正是人们所期望的： Datastream导出Avro格式的回填，并将数据从源Oracle数据库中更改到指定的云桶位置这将触发Dataflow作业，从这个云存储位置提取Avro文件并插入到PostgreSQL实例中。当Avro文件上传到云存储位置时，作业确实会被触发，但是当我检查目标PostgreSQL数据库时，所需的数据还没有被填充。当我检查作业日志和工作日志时，没有错误日志。触发作业时，记录的日志如下： StartBundle: 4 Matched

浏览 5提问于2022-01-13得票数 6

回答已采纳

1回答

数据流-将avro对象存储到未知的GCS文件夹

、、、、

我有一个DataFlow管道，它使用来自云发布/订阅的JSON消息，将它们转换为Avro，并将它们存储到Google Cloud Storage。有没有办法让DataFlow根据某个JSON字段将每个Avro对象存储到GCS中的不同文件夹中，如果它的值实际上可以是任何值的话？此文件夹结构的目标是通过云函数使用PubSub通知，将每个结果文件加载到不同的BigQuery表中。

浏览 17提问于2020-02-20得票数 0

1回答

在GCS上读取Avro文件时的OutOfMemoryError异常

我将大小约为650 GCS的BigQuery数据集导出到GCS上的Avro文件，并运行数据流程序来处理这些Avro文件。但是，即使只处理一个大小约为1.31GB的Avro文件，也会遇到OutOfMemoryError异常。我收到了以下错误消息，似乎异常来自于AvroIO和Avro库： Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded at org.apache.avro.io.BinaryDecoder.readString(BinaryDecod

浏览 1提问于2015-01-16得票数 0

回答已采纳

1回答

从BigTable到模式问题？

、、、、

我正在尝试使用Dataflow模板1将一个Avro文件(使用Spark3.0生成)摄取到BigTable中，并获得以下错误。注意:这个文件可以在Spark库中读取，不会出现明显的问题。知道吗？谢谢你的支持！错误(短) Caused by: org.apache.avro.AvroTypeException: Found topLevelRecord, expecting com.google.cloud.teleport.bigtable.BigtableRow, missing required field key Avro模式(提取) {"type":"re

浏览 6提问于2020-12-22得票数 1

回答已采纳

1回答

如何为包装TableRow的类指定/定义编码器

、、

我定义了一个包装com.google.api.services.bigquery.model.TableRow类的类，并将其定义为内部成员 public class TableRowWrapper implements Serializable { private TableRow tableRow; public TableRowWrapper() { } ... } 我还有一些DoFn，它处理那个TableRowWrapper类的输入/输出实例，生成一个PCollection<TableRowWrapper>。我尝试过用@DefaultCoder(

浏览 2提问于2015-10-28得票数 4

1回答

如何从GCP中的云函数调用用Python(3.x)编写的数据流作业

、

我的目标是创建一种机制，当新文件上传到云存储中时，它将触发云函数。最终，此Cloud function将触发Cloud Dataflow作业。我有一个限制，云数据流作业应该用Python编写，云函数也应该用Python编写。我现在面临的问题是，我不能从Cloud Function调用Cloud Dataflow作业。

浏览 1提问于2019-08-30得票数 1

1回答

从BigQuery读取数据并将其写入云存储上的avro文件格式

、、、、

我的目标是从BigQuery表中读取数据，并使用Java将其写入云存储上的Avro文件。如果有人提供代码片段/想法来编写BigQuery表数据，并使用Cloud Dataflow将其写入avro格式的数据，那将是一件好事。

浏览 16提问于2019-09-11得票数 0

1回答

无法调试的数据流异常

我们在数据流中创建了一个非常简单的作业。它定期从BigQuery读取并存储到RedisCluster中。管道代码如下所示。 // initialize pipeline PipelineOptions options = PipelineOptionsFactory.fromArgs(args).withValidation().create(); Pipeline pipeline = Pipeline.create(options); // ... read from bigquery final String query = "...&#

浏览 1提问于2018-11-20得票数 3

1回答

为什么BigQuery不能解析一个Avro文件，这个文件被avro工具所接受？

、、、、

我正在尝试将google数据存储数据导出到Google云存储中的Avro文件中，然后将这些文件加载到BigQuery中。首先，我知道大型查询会加载数据存储备份。这有几个我想避免的缺点：备份工具格式是无文档的。数据流不能直接读取备份工具格式 (显然是永久的)阿尔法。在应用程序引擎中是可能的，但它是火和遗忘。您将不知道备份什么时候完成，或者文件名是什么。为了澄清这个实验的动机，下面是我的Dataflow管道将数据导出到avro格式： package com.example.dataflow; import com.google.api.services.

浏览 3提问于2016-05-09得票数 5

回答已采纳

3回答

触发DataPrep数据流作业的云函数

、

我有一个很小的流水线，我正在尝试执行：文件放入GCS存储桶> 2.云函数在文件放入GCS存储桶(不工作)时触发数据流作业> 3.写入大查询表(此部分工作) 我已经通过Dataprep创建了一个数据流作业，因为它有很好的UI，可以在写入GCS表之前执行所有转换(写入BigQuery很好)，并且云函数会在文件上传到BigQuery存储桶时触发。然而，云函数不会触发数据流作业(我在Dataprep中编写的)。请看一下我的云函数的下面的示例代码，如果我能得到任何关于为什么数据流作业没有触发的指针。 /** * Triggered from a message on a Cloud

浏览 64提问于2018-05-08得票数 1

回答已采纳

1回答

CombineFn数据流-不按顺序执行步骤，创建空指针

、、

我是数据流新手，如果我犯了什么错误，请原谅，最近，我使用dataflow/beam来处理来自pubsub的几个数据，我以云数据流-纽约出租车大亨为起点，但我将其升级到SDK2.2.0以使其与Big Table一起工作。我使用http云函数来模拟它，该函数将单个数据发送到pubsub，这样数据流就可以使用下面的代码来吸收它。 .apply("session windows on rides with early firings", Window.<KV<String, TableRow>>into( new GlobalWindow

浏览 0提问于2018-02-02得票数 0

2回答

使用Python在Google - Apache束中通过推断模式读写avro文件

、、、、

问题:我正在尝试创建一个云数据流管道，该管道使用Python从Google读取文件，并在Google上进行一些处理和回写一个Avro文件。在研究了Apache网站上提供的一些示例之后，我尝试运行以下代码。我使用了ReadFromAvro和WriteToAvro函数。我试图实现的是读取一个Avro文件并使用Dataflow编写相同的Avro文件，但是它给了我以下警告，并且没有输出一个avro文件。警告/错误 /Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/apache_beam/io/g

浏览 9提问于2017-10-24得票数 3

回答已采纳

1回答

BQ加载不同架构的Avro文件，仅添加字段

、、、、

上下文：我们有一个Dataflow作业，它用每周变化的模式将Avro文件写入GCS (仅增加字段)。这意味着，在GCS前缀下，我们有一堆具有不同模式的Avro文件，很可能在任何给定的时间都有2个模式。有关更多细节，请参见 post中的上下文部分。问题:根据，当将包含多个模式的Avro文件加载到BigQuery中时，BigQuery将选择具有最大字典顺序的文件。然而，这不是我观察到的行为。我在观察不一致的行为。在我的第一次尝试中，我获得了新的模式，新的字段就在那里了。然而，烧烤负荷本身比它应该花费的时间长得多。装载368,594条记录花了7分钟。在我的第二次尝试中，具有较大字典顺序的文件正

浏览 2提问于2020-01-24得票数 3

1回答

Gcloud数据流作业未能写入临时位置

、、

我正在使用gcloud cli调用数据流作业。我的命令如下所示； gcloud dataflow jobs run avrojob4 \ --gcs-location=gs://dataflow-templates/latest/Cloud_Bigtable_to_GCS_Avro \ --region=europe-west1 \ --parameters bigtableProjectId="project-id",bigtableInstanceId="instance-id",bigtableTableId="table-id",o

浏览 0提问于2020-03-23得票数 1

2回答

Google Cloud Composer(Airflow) - DAG内的数据流作业成功执行，但DAG失败

、、、

我的DAG看起来像这样 default_args = { 'start_date': airflow.utils.dates.days_ago(0), 'retries': 0, 'dataflow_default_options': { 'project': 'test', 'tempLocation': 'gs://test/dataflow/pipelines/temp/', 'stagingLoc

浏览 11提问于2020-05-21得票数 8

回答已采纳

1回答

Google to Bigquery模板无法将数据同步到大型查询

、、、、

我正在设计CDC管道，使用DataStreams和GCP上的Dataflow将数据从cloud传输到CloudStorage，数据部分工作良好，我可以看到数据正在以avro格式成功地传输到CloudStorage。当涉及到DataFlow时，我使用的是DataFlow模板DataStream to BigQuery和屏幕截图中的配置我可以看到DataFlow作业启动并运行，日志中没有错误，但是我看不到从Cloud到BigQuery的任何数据传输。在我看来，还缺少一些东西，那就是云存储和Pub/Sub之间的链接，我认为应该有一个链接来将数据从GCS流到Pub/Sub，最终应该有从Pub/S

浏览 2提问于2022-08-17得票数 1

回答已采纳

1回答

java.io.IOException: int编码无效

、

我正在编写一个mapReduce作业来读取和处理Avrofile。输入文件为Avro，输出格式为Avro 当我执行Mapreduce作业时，我在reducer阶段得到以下异常。当reducer抛出IOException时，我无法在reducer中捕获和消除它。色调中的错误堆栈跟踪看起来 java.io.IOException: Invalid int encoding at org.apache.avro.io.DirectBinaryDecoder.readInt(DirectBinaryDecoder.java:113) at org.apache.avro.io.ValidatingDe

浏览 4提问于2014-02-14得票数 7

2回答

YAML文件到Google BigQuery。我在Google Cloud平台上的架构应该是什么？

、、、

这个问题涉及到在Google Cloud Platform上应该为我的特定用例建立一个合适的架构。我有一堆.yaml文件，我想使用Google Cloud Platform的产品在这些文件上运行SQL查询。这些文件的总大小不会超过30MB，每个文件的平均大小约为50KB。新文件也不会频繁添加-大约一年2-3次。我在想，我可以设计一个架构，将所有这些文件保存在云存储上，我运行一个数据流管道/云函数来将这些.yaml文件转换为.json，然后将它们导入到BigQuery中运行SQL查询。什么似乎是一个合适的方法？使用Dataflow或Cloud Functions进行预处理还是完全使用其他功

浏览 0提问于2018-12-13得票数 0

1回答

使用大查询或大表查询聚合值的用例？

、、

我用它来设计30 TB文本文件的存储，作为在Google云上部署数据管道的一部分。我的输入数据是CSV格式，我希望尽量减少为多个用户查询聚合值的成本，这些用户将使用多个引擎在云存储中查询数据。对于这个用例，下面哪个选项更好呢？使用云存储进行存储，并链接大查询中的永久表以进行查询，或使用Cloud表进行存储，并在计算引擎上安装HBaseShell来查询大表数据。基于下面对这个特定用途的分析，我发现下面的云存储可以通过BigQuery查询。此外，Bigtable支持CSV导入和查询。BigQuery限制还提到，根据文档，在CSV、JSON和Avro的所有输入文件中，每个加载作业的最大大小为15

浏览 0提问于2019-01-24得票数 0

回答已采纳

2回答

如何批量加载其他来源生成的自定义Avro数据？

、

云Spanner文档说Spanner可以导出/导入Avro格式。此路径是否也可用于批量摄取从其他来源生成的Avro数据？文档似乎表明它只能导入也是由扳手生成的Avro数据。我运行了一个快速导出作业，并查看了生成的文件。清单和模式看起来非常简单。我想我应该在这里发帖，以防这个兔子洞很深。清单文件 ‘ { "files": [{ "name": "people.avro-00000-of-00001", "md5": "HsMZeZFnKd06MVkmiG42Ag==" }] } 架构文件

浏览 5提问于2018-08-14得票数 2

1回答

基于文件模式从云存储读取avro文件的Google dataflow作业

、

假设给定gcs中以以下格式存储的文件：-.avro。尝试使用google dataflow作业中的读取文件，使用apache Trying的FileIO.matchAll库根据时间戳间隔读取文件。示例，gcs中的文件： gs://test-bucket/abc_20200101000000.txt gs://test-bucket/abc_20200201000000.txt gs://test-bucket/abc_20200301000000.txt 现在我们想要获取所有大于时间戳20200101000000到当前时间戳的文件，我可以使用什么文件模式？

浏览 10提问于2020-11-07得票数 0

1回答

有没有办法将文件从本地机器复制到python + apache beam中的Dataflow线束实例

、、

我想根据json模式文件验证ParDo函数中每个元素的数据。为此，我需要从本地计算机复制json模式文件，以利用由Python Beam Dataflow SDK创建的Dataflow实例。每个单独的元素表示单独的表的数据(这种不同的元素的变化是26，这意味着可以根据表示表名的元素中的键字段将元素转储到这26个表中的任何一个表中)。我希望这个json模式文件只在Dataflow作业开始时复制一次，然后对已经存储了json模式的元素进行验证。我偶然看到一篇文章，说使用DoFn.setup()方法，但不确定如何使用它将文件从本地复制到线束机器。 Python 3.6，apache-bea

浏览 22提问于2021-02-11得票数 0

1回答

从迁移到Apache

、、、

我是Google的Mapreduce库的长期用户，用于处理Google中的数据。Google不再支持它，它在Python3中根本不起作用。我试图将我们以前的Mapreduce作业迁移到Google的Dataflow / Apache，但是很糟糕，它只是描述Apache，它没有告诉您如何迁移。具体而言，问题是：在Mapreduce中，作业将在您现有的已部署应用程序上运行。然而，在Beam中，您必须创建和部署一个定制的Docker映像来构建Dataflow环境，对吗？要在Mapreduce中创建一个新的作业模板，只需编辑一个yaml文件并进行部署。要在Apache中创建一个，您需要创

浏览 4提问于2021-01-16得票数 0

2回答

如何在Java中从云函数触发云数据流管道作业？

、、、、

我需要从Cloud函数触发Cloud管道。但是云函数必须用Java编写。所以云函数的触发器是的Function /Create事件，也就是说，当一个文件上传到GCS桶中时，云函数必须触发云数据流。当我创建数据流管道(批处理)并执行该管道时，它将创建一个dataflow管道模板并创建一个Dataflow作业。但是，当我在Java中创建一个云函数并上传一个文件时，状态只表示"ok"，但它不会触发数据流管道。云函数 package com.example; import com.example.Example.GCSEvent; import com.google.api.c

浏览 14提问于2020-08-21得票数 9

回答已采纳

2回答

用Python调度作业

、

目前，这些是用来安排执行我所知道的Dataflow的任务的：使用App服务或云函数。 - This [example](https://cloud.google.com/blog/products/gcp/scheduling-dataflow-pipelines-using-app-engine-cron-service-or-cloud-functions) is with Java, There are any official example with Python as simple? - This [example](https://zablo.net/blog/po

浏览 0提问于2018-12-10得票数 4

2回答

具有共同功能的Google数据流自定义键

我们正在使用Dataflow Java，而且我们有越来越多的自定义键类，它们几乎是相同的。我想让他们扩展一个公共的抽象类，但是Dataflow似乎试图实例化抽象类，从而导致InstantiationException。 Caused by: java.lang.RuntimeException: java.lang.InstantiationException at org.apache.avro.specific.SpecificData.newInstance(SpecificData.java:316) at org.apache.avro.specific.Speci

浏览 2提问于2015-12-03得票数 3

回答已采纳

1回答

从同一个云函数执行多个批处理数据流作业

、、、、

我已经创建了一个自定义模板，它使用BigQuery I/O连接器从ReadFromBigQuery读取。我就是这样用的： import apache_beam as beam from apache_beam.options.pipeline_options import PipelineOptions from apache_beam.options.pipeline_options import GoogleCloudOptions from apache_beam.options.pipeline_options import StandardOptions from apache_be

浏览 1提问于2021-08-13得票数 0

回答已采纳

1回答

在Google云存储中使用Google Dataflow转换的Avro vs Parquet

、、、、

使用Google Dataflow服务将来自Kafka的相同10k json记录批量加载到Google云存储中。下面是分别使用Apache Beam的AvroIO、ParquetIO和TextIO库生成的文件的分解。我们假设镶嵌文件的大小在数据占用空间方面比GCP的avro要小，因为HDP(Hortonworks)和CDH (Cloudera)显示了类似的研究。然而，在这10k记录上的结果表明GCS上的Avro大小较小。这是否可以被假定为选择数据格式。除了这里提到的优点之外，还需要考虑哪些其他因素：我们希望将GCS成本保持在最低水平，选择最好的格式，并保持总体成本最低。 // using

浏览 27提问于2019-03-20得票数 3

1回答

从读取KMS加密文件

、、

我浏览过谷歌云，其中提到:- 数据流可以访问受Cloud键保护的源和接收器，而不必指定这些源和接收器的Cloud键，只要您不创建新的对象。关于这一点，我有几个问题： Q.1.这是否意味着我们不需要在我们的束代码中解密加密的源文件？Dataflow有此功能内置吗？问题2。如果源文件是加密的，那么Dataflow的输出文件是否会默认使用相同的密钥加密(假设我们有一个对称密钥)？问题3.这里提到的对象是什么？ PS:我想从放在GCS桶中的加密AVRO文件中读取，从我的代码中应用我的Apache转换，并将一个加密的文件写回桶中。

浏览 7提问于2022-05-19得票数 0

回答已采纳

2回答

将数据流模板GCS调试为BigQuery

、

我收到了一些很难调试的奇怪错误。我正在运行一个简单的UDF JavaScript映射程序，它映射JSON数据并将其导入BigQuery。我以前运行过其他UDF函数，从来没有遇到过这样的错误。有任何方法来调试数据流模板UDF错误(使用实际的调试器或至少使用console.log或类似的)吗？问题中的错误：exception: "java.lang.RuntimeException: org.apache.beam.sdk.util.UserCodeException: java.lang.RuntimeException: java.lang.RuntimeException: o

浏览 0提问于2018-05-18得票数 1

1回答

错误:模板参数无效。运行现有数据流模板GCS_Text_Bigquery的Google函数

、、、

我正在构建一个云函数，使用存储触发器，并试图从内部运行数据流。我创建了一个数据流作业"jsonbq-1"，并使用现有的GCS_Text_BigQuery模板创建了一个简单的uDF来接收传入的CSV数据并放入表中。云函数被执行，数据流被调用，但是没有响应，log:Error中显示的错误:模板参数无效。我不知道错误在哪里。 Index.js 看起来像这样。 `const google = require('googleapis'); //const { auth } = require('google-auth-library'); exp

浏览 0提问于2018-08-12得票数 2

1回答

启用compute.requireShieldedVm后，谷歌云数据流出现故障

我们公司的策略要求启用策略约束"compute.requireShieldedVm“。但是，在运行云数据流作业时，它无法创建工作进程，并显示以下错误：项目项目/*违反了约束约束/Compute.requiShieldedVm。启动盘的'initialize_params.source_image‘字段指定了一个非屏蔽镜像: projects/dataflow-service-producer-prod/global/images/dataflow-dataflow-owned-resource-20200216-22-rc00.有关更多信息，请参阅。“ 在运行数据流作业时，是

浏览 0提问于2020-03-11得票数 1

3回答

从BigQuery读取时带有数据流的Apache光束-空指针

、、

我正在运行一个作业的谷歌数据流编写的阿帕奇光束，从BigQuery表和文件读取。转换数据并将其写入其他BigQuery表。作业“通常”会成功，但有时当我从大型查询表中读取数据时，会随机得到空指针异常，并且作业会失败： (288abb7678892196): java.lang.NullPointerException at org.apache.beam.sdk.io.gcp.bigquery.BigQuerySourceBase.split(BigQuerySourceBase.java:98) at com.google.cloud.dataflow.worker.runners.work

浏览 0提问于2017-06-23得票数 2

2回答

更改谷歌云数据流BigQuery优先级

、、

我有一个运行在从BigQuery读取数据的谷歌云DataFlow上的Beam作业。当我运行作业时，作业需要几分钟时间才能开始从(微型)表中读取数据。结果是数据流作业发送的是以批处理模式运行而不是以交互模式运行的BigQuery作业。如何将其切换为在Apache光束中立即运行？我在API中找不到更改优先级的方法。

浏览 2提问于2017-05-26得票数 1

1回答

在GCP中，服务帐户和服务代理有什么区别？

、

假设我有个案子我得用数据流做些测试在这个数据流作业中，我需要访问一个gcs桶，并将输出保存在那里。我需要用我自己的SA来运行数据流作业，而不是默认的SA。我创建了一个Google帐户来运行我的数据流工作。但是在我启用了数据流API之后。最后我的面前有两个SA。服务帐户代理-> 123456789@dataflow.gserviceaccount.com 数据流作业运行程序服务帐户-> dataflow-job-runner@MY-PROJECT-ID.iam.gserviceaccount.com 看到说了些什么让我很困惑一些Goo

浏览 3提问于2020-12-01得票数 5

回答已采纳

1回答

谷歌云数据流服务帐户没有传播给工人？

、、

我们有多个作业(用Java /Kotlin编写)，它们可以以两种不同的方式运行：从用户的Google帐户启动从服务帐户启动(具有所需的策略和权限) 当从用户帐户运行数据流作业时，Dataflow向员工提供。它不向工人提供授权用户。当从服务帐户运行Dataflow作业时，我设想使用设置的服务帐户将被传播到Dataflow在后台使用的辅助VM。没有提到任何这一点，但是他们确实提到了凭据用于对GCP服务进行身份验证。在我们的大多数Dataflow用例中，我们在项目A中运行Dataflow作业，而在项目B中从BigQuery中读取数据流作业。因此，我们为用户提供对项目B中的Bi

浏览 0提问于2018-12-05得票数 3

2回答

当Schema需要TLS客户端身份验证时，无法从数据流作业连接到架构注册表

、、、

我正在开发一个GCP云数据流作业，它使用Kafka broker和Schema注册表。我们的Kafka broker和Schema注册表需要TLS客户端证书。在部署过程中，我面临着与Schema的连接问题。任何建议都受到高度欢迎。以下是我为Dataflow工作所做的工作。我为TLS配置创建了Consumer。 props.put("security.protocol", "SSL"); props.put("ssl.truststore.password", "aaa"); props.put("ssl.keystore

浏览 2提问于2019-05-08得票数 1

回答已采纳

1回答

正在尝试在美国中央1区域运行数据流作业，但源和目标在亚洲-南部1

、、

我想检查一下在文章"“中也提到的类似错误。我在数据流工作中遇到了类似的问题，我遇到了如下错误 2021-03-10T06:02:26.115216545ZWorkflow failed. Causes: S01:Read File from GCS/Read+String To BigQuery Row+Write to BigQuery/NativeWrite failed., BigQuery import job "dataflow_job_15712075439082970546-B" failed., BigQuery job "dataflow_j

浏览 12提问于2021-03-12得票数 0

回答已采纳

1回答

如何使用气流将bigquery导出到bigtable？图式问题

、、、

我使用气流将BigQuery行提取到的Avro格式。 with models.DAG( "bigquery_to_bigtable", default_args=default_args, schedule_interval=None, start_date=datetime.now(), catchup=False, tags=["test"], ) as dag: data_to_gcs = BigQueryInsertJobOperator( task_id="dat

浏览 9提问于2021-08-05得票数 1

回答已采纳

1回答

带有不正确字段类型的BigQuery Avro加载作业

、

我正在使用node.js：使用avsc NPM包创建Avro文件使用@google-cloud/storage NPM包上载到GCS 使用@google-cloud/bigquery NPM包调用BQ将Avro从GCS加载到BQ 我的问题是，即使我在创建加载作业时设置了useAvroLogicalTypes，我的日期数据也永远不会正确地以TIMESTAMP的形式创建，当useAvroLogicalTypes是而不是时，总是以useAvroLogicalTypes- 的形式创建。根据相同的文档，如果在Avro模式定义中设置了timestamp-millis，那么它应该以

浏览 5提问于2019-12-30得票数 1

回答已采纳

2回答

数据流作业在与“员工与服务失去联系”超过6个小时后失败？

、、、、

我使用Dataflow从BigQuery读取数据，然后使用python进行NLP预处理。我正在使用Python 3和SDK 2.16.0。我正在使用100个工作人员(provite、私有访问和Cloud )和europe-west6中的工作人员以及europe-west1中的端点。BigQuery表在US中。测试作业没有出现任何问题，但是当尝试处理完整表(32 GB)时，作业在6小时40分钟后失败，很难完全理解根本错误是什么。首先，Dataflow报告了以下情况：这有点令人困惑:在一种情况下，工作项失败，2名其他员工失去了与服务的联系，一名工人已报告死亡！现在让我们看看读取BigQue

浏览 1提问于2019-11-20得票数 0

回答已采纳

2回答

Google云数据流到云存储

、、、

上面的参考体系结构表明来自云数据流的云存储接收器的存在，但是看起来是当前默认的Dataflow API的Beam没有列出Cloud /O连接器。有谁能帮助澄清是否存在这样的数据，如果没有，那么从Dataflow到Cloud的替代方案是什么？

浏览 2提问于2017-03-03得票数 1

回答已采纳

2回答

错误：“应用程序默认凭据不可用”

、、

我们有一个作业，它可以写入Bigtable (通过HBase API)。不幸的是，由于以下原因，它失败了： java.io.IOException: The Application Default Credentials are not available. They are available if running in Google Compute Engine. Otherwise, the environment variable GOOGLE_APPLICATION_CREDENTIALS must be defined pointing to a file defining the

浏览 3提问于2016-05-13得票数 1

回答已采纳

2回答

当从同一个模板启动多个数据流作业时，如何避免"IN_USED_ADDRESSES“错误？

、

我创建了一个Dataflow模板，它允许我将数据从Cloud中的CSV文件导入到BigQuery中。我每天都使用云函数Firebase从这个模板创建工作。这是函数中的代码(删除了一些不相关的部分)。 const filePath = object.name?.replace(".csv", ""); // Exit function if file changes are in temporary or staging folder if ( filePath?.includes("staging") |

浏览 7提问于2020-04-16得票数 1

回答已采纳

1回答

BigQuery: NodeJS客户端库在执行云存储加载工作时似乎不尊重useAvroLogicalTypes

、、、、

我正在尝试从我的nodeJS服务器上运行一个作业，它将云存储上的AVRO文件加载到一个BigQuery表中。作业运行良好，但是date列作为表中的INTEGER类型加载。我在加载作业中包括了useAvroLogicalTypes参数，但它似乎没有任何效果。如果我使用一个date在表中强制转换SELECT DATE(TIMESTAMP_MILLIS(date))列，我确实得到了正确的日期，但希望避免这个额外的转换步骤。我到处读到，如果设置了参数，则可以隐式转换avro逻辑类型，但我一直无法使它正常工作。表是由作业创建的，因此没有预先存在的架构。我使用的客户端库版本是：4.4.0 for @g

浏览 0提问于2019-11-13得票数 0

1回答

在阿里巴巴云上部署Apache Beam管道

、、

我是阿里巴巴云的新手，我有一个运行在Google Cloud Dataflow上的Apache光束应用程序。现在，我想将相同的apache beam管道部署到阿里云。我正在寻求关于如何/需要哪些设置才能在阿里云中运行apache beam管道的帮助？阿里巴巴有没有相当于Google Cloud Platform Dataflow的资源？

浏览 2提问于2020-03-25得票数 0

2回答

问: BigQueryIO为每个输入行创建一个文件，对吗？

、

我是新手，我正在开发一个从JDBCIO获取行并将其发送到BigQueryIO的管道。我使用withAvroFormatFunction将行转换为avro文件，但它会为JDBCIO返回的每一行创建一个新文件。对于json文件，withFormatFunction也是如此。使用DirectRunner在本地运行它非常慢，因为它会将大量文件上传到Google Storage。这种方法对在Google Dataflow上进行扩展有好处吗？有没有更好的方法来处理它？谢谢

浏览 5提问于2020-05-21得票数 1