在数据流管道中写入BigQuery表失败_从DataFlow流管道写入表名中包含日期的BigQuery表_数据流从主题PubSub读取并写入Bigquery (多个表) - 腾讯云开发者社区

google-cloud-dataflow

也许我是个糟糕的探索者，但我在文档中找不到答案，所以我只想在这里试试运气。我知道写GCS似乎不是原子的，在作业运行的过程中会产生部分输出分区。但是，我已经尝试过通过数据流将数据转储到BQ中，并且在作

浏览 6提问于2016-08-05得票数 1

回答已采纳

1回答

如何在将JSON文件加载到BigQuery表中时管理/处理模式更改

python、google-cloud-platform、google-bigquery、google-cloud-functions、google-cloud-dataflow

{"Id": 4}在我的数据流管道中，我如何动态地确定每一行中存在哪些字段，以便遵守BigQuery表架构。例如，在</em

浏览 1提问于2018-02-21得票数 1

回答已采纳

1回答

如何使用Java处理数据流管道中的BigQuery插入错误？

java、google-cloud-platform、apache-beam

我正在解析XML并使用数据流管道写入Bigquery。如果在BigQuery中插入失败，如何处理错误？我想编写一个自定义代码，将失败的xml写入error bucket。

浏览 33提问于2019-03-23得票数 0

1回答

写入BigQuery* (错误401 :需要登录)*

google-cloud-platform、google-bigquery、google-cloud-dataflow、gcloud

我试图从Dataflow管道中将一些数据写入BigQuery表，但是在堆栈驱动程序中，以下错误消息导致写入失败： "error": { { } "code": 401, "message": &q

浏览 0提问于2018-10-02得票数 0

1回答

如何将Azure事件中心(kafka界面)的事件集成到google云发布/订阅

azure、apache-kafka、google-cloud-pubsub

消息必须以kafka主题为属性，以消息内容为主体，在公共子主题上发送。这是一个很高的要求。我看过以了解如何实现这一目标。

浏览 1提问于2021-06-03得票数 1

回答已采纳

1回答

停止执行管道转换，而其他管道转换继续运行。

google-bigquery、google-cloud-platform、google-cloud-dataflow

我在google存储中有许多文件，在应用了一个简单的ParDo转换之后，我必须将这些文件写到BigQuery中的多个表中，我正试图使用一个管道来执行该转换。因此，基本上，我有许多并行的、未连接的源和汇，它们在一个数据流作业中以单个管道运行。在Pardo转换中，我有一个条件，如果它的值为true，那么对特定的BigQuery表(

浏览 0提问于2016-08-18得票数 2

回答已采纳

2回答

紧跟在BigQueryIO.write()操作之后执行进程

google-cloud-dataflow、apache-beam

我有一个BigQuery表作为接收器的管道。在将数据写入BigQuery之后，我需要执行一些步骤。这些步骤包括对该表执行查询，从该表中读取数据并将其写入到另一个表中。如果上述操作都不起作用，是否可以从正在运行的管道中

浏览 2提问于2017-10-03得票数 2

2回答

从本地磁盘将数据加载到BigQuery和Google云存储中的策略

google-bigquery、google-cloud-storage、google-cloud-platform、google-cloud-dataflow

我有2年的合并数据，大小约300 my，在我的本地磁盘，这是我已经提取的数据。我必须将相同的数据加载到google云存储和BigQuery表中。google云存储中的最终数据应该以压缩格式逐日隔离(每天的文件应该是一个gz格式的文件)。我还必须在一个分区表中加载BigQuery中的数据，也就是说，每一天的数据都应该存储在一个分区中。但是数据流不允许创建730个分区(长达2年)，因为它击中了413请求

浏览 2提问于2016-08-10得票数 1

回答已采纳

1回答

使用数据流从大查询中提取数据的问题[ apache beam ]

google-cloud-platform、google-bigquery、google-cloud-dataflow、apache-beam

我需要使用Dataflow从BigQuery表中提取数据，然后写到GCS。代码409请求失败，由于IOExceptions

浏览 0提问于2020-01-12得票数 1

回答已采纳

1回答

使用的大型json文件BigQuery中的问题解析和编写

python、json、google-cloud-dataflow、dataflow

我正在尝试创建一个数据流(批处理)，它每小时从读取一个文件，解析它并在BigQuery表中写入一个条目。文件是一个.json，在女巫中，每一行都有一个复杂的json。但是，当文件增加时，数据流会花费更多的时间(15分钟，200到300 Mb)或者没有完成并以失败结束(超过1.5GB和350 K行)。我做了一些测试，当我在函数解析中创建一个json示例时，但没有使用input_elem，数据流

浏览 4提问于2020-08-21得票数 0

回答已采纳

1回答

将google数据流管道写入多个汇的结果

google-cloud-dataflow

我想写谷歌数据流管道结果到多个汇。例如，我希望使用TextIO将结果写入，并将结果作为一个表写入BigQuery中。我怎么能这么做？

浏览 0提问于2015-05-25得票数 4

回答已采纳

1回答

在BigQuery中更新购物客户级数据的最佳方法

google-bigquery、shopify-api

出于报告的目的，我正在考虑将我们的购物数据移动到BigQuery。我通过shopify API对customers端点进行分页，并获得所有客户级数据。然后我将其导出为csv，然后将其存储在google云存储上，然后导入到BigQuery。我的问题是，考虑到当前customer datamart上的一些条目(例如，总订单数)可能已经更改，并且自上次表更新以来可能已经创建了一些新客户，那么处理增量数据加载的最佳方法是什么。

浏览 0提问于2021-03-06得票数 1

1回答

无接收器的流数据流管道

google-cloud-dataflow

我们在工作人员上运行了一个流数据流管道，它需要从PubSub订阅中读取、分组消息并将它们写入BigQuery。内置的BigQuery Sink不适合我们的需要，因为我们需要针对每个组的特定数据集和表。由于流管道不支持自定义接收器，似乎唯一的解决方案是在ParDo中执行插入操作。就像这样：在编写这类管道时，是否存在在管道中没有水槽的已知

浏览 2提问于2017-01-24得票数 4

回答已采纳

1回答

如何使用gcloud上传到bigquery中的几个表

node.js、google-bigquery、gcloud

有没有办法使用nodejs gcloud库或使用bq命令行在一个加载作业中将不同的数据上传到几个表中到bigquery？

浏览 14提问于2016-07-17得票数 1

回答已采纳

1回答

Apache写入BigQuery的文件结构

google-bigquery、google-cloud-storage、apache-beam

我使用DynamicDestinations (来自BigQueryIO)将数据从一个Cassandra表导出到多个Google表。这个过程包括几个步骤，包括将准备好的数据写入(作为JSON格式的文件)，然后通过加载作业将文件加载到BQ。还有很多没有明显名字的文件：问题是文件的存储结构是什么？如何将文件与它们

浏览 1提问于2018-02-19得票数 0

回答已采纳

1回答

使用数据流避免BigQuery存储API的会话关闭

google-bigquery、google-cloud-dataflow、google-bigquery-storage-api

我正在实现一个ETL作业，它将非分区的BigQuery表迁移到分区的表。为此，我使用了来自BigQuery的Storage。这将创建许多要从其中提取数据的会话。为了将BigQuery写入路由到正确的分区，我使用了File方法。由于30天的限制，流插入是不可行的。存储写API似乎是有限的，识别分区。通过驻留到File方法，数据将被写入GCS。在幕后，文件加载方法是一个复杂的方法，有多个步骤。例如，写入GCS并将条目组合到目标/

浏览 4提问于2022-09-12得票数 1

1回答

Google BigQuery:行的最后修改日期时间

google-bigquery、google-cloud-dataflow

我正在尝试测量数据流管道的持续时间，数据流管道从发布/订阅中提取消息并将其加载到BigQuery表中。我找不到如何在BigQuery表中获取行的最后修改时间，尽管有表的最后修改日期时间。谁知道如何将上次修改的日期时间设置为BigQuery表的行？

浏览 2提问于2018-11-07得票数 0

2回答

数据流:我可以用批处理作业连续写入/流写入BigQuery吗？

google-bigquery、google-cloud-dataflow、apache-beam

我有一个apache管道，它接收一些信息，将其格式化为TableRows，然后写入BigQuery。直到数据流作业完成后，才会将行写入BigQuery。如果我有一个需要很长时间的数据流作业，我希望能够看到插入到BigQuery中的行，谁能给我指明正确的方向？提前感谢

浏览 0提问于2018-06-08得票数 1

1回答

Google随机化WritetoBigQuery

google-bigquery、google-cloud-platform、google-cloud-dataflow

我成功地实现了一个写入BigQuery的数据流管道。此管道正在转换Cloud引擎作业的数据。但是，我注意到已经写入的行是按数据的标签排序(或至少分组)的。我的意思是，它们在视觉上看起来是以某种方式组织起来的(这并不是完全随机的)。然后，当我将表导出到GCS中的切分. .csv时，每个切分的.csv本质上都是有序的。这意味着数据不能随机地输入到TensorFlow中，因为TF一次获取一个.csv，而..csv本身并不是

浏览 4提问于2017-10-16得票数 1

回答已采纳

1回答

使用数据流的DLP从GCS读取并写入BigQuery -只有50%的数据写入BigQuery

google-cloud-platform、google-bigquery、google-cloud-storage、google-cloud-dataflow、google-cloud-dlp

我最近启动了一个数据流作业，从GCS加载数据，通过DLP的标识模板运行它，并将屏蔽的数据写入BigQuery。我找不到谷歌提供的用于批处理的模板，因此使用了流模板(参考：link)。我看到只有50%的行被写入目标BigQuery表。管道上有一天没有任何活动，即使它处于运行状态。

浏览 30提问于2020-08-22得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

谷歌数据流每项作业是否有BT写原子？

如何在将JSON文件加载到BigQuery表中时管理/处理模式更改

如何使用Java处理数据流管道中的BigQuery插入错误？

写入BigQuery* (错误401 :需要登录)*

如何将Azure事件中心(kafka界面)的事件集成到google云发布/订阅

停止执行管道转换，而其他管道转换继续运行。

紧跟在BigQueryIO.write()操作之后执行进程

从本地磁盘将数据加载到BigQuery和Google云存储中的策略

使用数据流从大查询中提取数据的问题[ apache beam ]

使用的大型json文件BigQuery中的问题解析和编写

将google数据流管道写入多个汇的结果

在BigQuery中更新购物客户级数据的最佳方法

无接收器的流数据流管道

如何使用gcloud上传到bigquery中的几个表

Apache写入BigQuery的文件结构

使用数据流避免BigQuery存储API的会话关闭

Google BigQuery:行的最后修改日期时间

数据流:我可以用批处理作业连续写入/流写入BigQuery吗？

Google随机化WritetoBigQuery

使用数据流的DLP从GCS读取并写入BigQuery -只有50%的数据写入BigQuery

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐