triggering_frequency只能与写入BigQuery的FILE_LOADS方法一起使用

文章/答案/技术大牛

发布

2回答

、、、

无法为数据流作业设置triggering_frequency。beam.io.BigQueryDisposition.CREATE_IF_NEEDED, method=bigquery.WriteToBigQuery.Method.FILE_LOADS, ) Error: triggeri

浏览 29提问于2019-08-30得票数 1

回答已采纳

1回答

Google Dataflow -关于数据有限的流式管道的定价的澄清

、、

我对一些围绕流媒体的数据流定价感到有点困惑：现在，如果我启用了--s

浏览 6提问于2022-08-16得票数 0

回答已采纳

1回答

使用Dataflow (Python)的Pub/Sub到BigQuery* (批处理)*

、、、、

我打算这样做： create_disposition从Pub/Sub流，每60秒，它将批处理插入到BigQuery。我故意将max_files_per_bundle设置为1，以

浏览 1提问于2021-07-28得票数 0

1回答

Apache横梁使用多个表时的写入次数

、、、

我正在使用Apache Beam从PubSub读取消息，并将它们写入BigQuery。我正在尝试做的是根据输入中的信息写入多个表。为了减少写操作，我对来自PubSub的输入使用了窗口。"Table Destination");我在文档中找不到任何东西，但我想知道每个窗口有多少次写入如果是多个表，是否对窗口中所有元素的</em

浏览 0提问于2019-12-21得票数 0

2回答

对于数据流，BigqueryIO.write()和bigquery.insertAll()方法哪个更好

、、、

我正在开发java代码，以便从GCS读取记录并插入到BQ表中，从成本和性能的角度来看，哪个BigqueryIO.write()或bigquery.insertAll()方法更好。

浏览 0提问于2019-03-05得票数 1

1回答

我尝试使用新的谷歌BigQuery存储写入API在一个数据流作业中使用Beam。BigQueryIO.Write.Method.STORAGE_WRITE_API)When writing an unbounded PCollection via FILE_LOADSor STORAGE_API_WRITES, triggering frequency must be specified 然而，用于的beam文档( trigge

浏览 10提问于2022-02-10得票数 0

1回答

在流管道中使用WriteToBigQuery FILE_LOADS只会创建大量临时表(python SDK)

、、

我有一个流管道，它从发布/订阅中获取消息，解析它们，并将它们写入BigQuery。挑战在于，每条消息都会根据消息中的event属性转到不同的事件表，并且它们是没有排序的。这意味着(我相信) WriteToBigQuery方法不能有效地批量写入，我看到它基本上一次写入一条消息，因此它运行得太慢了。我还尝试添加了一个60秒的窗口，并添加了一个GroupByKey/FlatMap来尝试对它们进行重新排序，但在加快速度方面

浏览 17提问于2020-10-26得票数 3

回答已采纳

1回答

数据流作业-写入BigQuery时出错

、、、

通过使用'FILE_LOADS‘技术的Apache光束数据流作业写入BigQuery时遇到错误。流插入(else块)工作正常，正如预期的那样。'GCS存储桶上的临时文件是有效的JSON对象。import CreateDisposition, WriteDisposition from apache_beam.io.gcp.bigquery_tools import RetryStrategydataset=c[&q

浏览 0提问于2020-08-13得票数 1

3回答

将堆栈驱动程序跟踪导出到BigQuery

、、

我想知道是否有一种很好的方法来导出从Google到BigQuery的跨范围的跟踪，以便更好地分析跟踪？我目前看到的唯一可能的解决方案是单独编写跟踪和BigQuery API或临时编写。第一个不是很好，因为它需要对应用程序代码进行相当大的更改(我目前只使用OpenCensus与StackdrierEx静物一起透明地向Stackdriver写入跟踪)。第二个不是很好

浏览 0提问于2019-08-14得票数 0

回答已采纳

1回答

Apache光束-将延迟添加到管道中

、、、

我有一个简单的管道，可以从Pub Sub主题读取并写入BigQuery。我想在从主题中读取消息和将消息写入BQ之间引入5分钟的延迟。我想我可以使用触发器来做这件事，类似于下面的内容，但是消息仍然没有延迟地直接传递。.withAllowedLateness(Duration.standardMinutes(1))有没有可能使用触发器创建这样的延迟

浏览 0提问于2020-03-28得票数 0

1回答

Apache beam :从多个订阅读取

、、

我想创建一个侦听多个订阅并写入BigQuery的数据流。根据谷歌的，我可以读取多个PCollection对象并将它们组合在一起。然而，看看PubsubIO.Read的javadoc ，subscription方法似乎只接受一个String，那么，我们需要链接subscription方法才能从多个订阅中读取数据吗？

浏览 0提问于2017-11-07得票数 1

1回答

在GKE上插入BigQuery流失败

、、、

我们有一个拥有3x n2-highcpu-8节点的GKE集群，用GO编写的web应用程序可以扩展到3个实例(每个节点1个)，将所有请求都使用流传输到BigQuery，我注意到了非常奇怪的行为：在高应用程序使用率期间，应用程序启动的3个实例中有2个在流式写入时100%失败，错误是仅写入“超过上下文截止日期”，而当我删除这2个pod时，它们又开始接收流量，旧的1开始失败，出现“上下文截止日期超过”，而新的</e

浏览 19提问于2020-12-04得票数 0

回答已采纳

1回答

bigquery.tabledata().insertAll方法(Bigquery Java API)仅插入部分行

、、

我正在使用Java (Bigquery API)中的bigquery.tabledata().insertAll方法将数据插入到BigQuery中，但是它只在表中写入了部分行，并且没有给出任何错误。其余行的去向是什么？

浏览 0提问于2016-12-05得票数 1

1回答

如何在Apache Beam中用BigQuery* IO写BigQuery？*

、、、、

我正在尝试建立一个Apache Beam管道，它从Kafka读取数据，并使用Apache Beam向BigQuery写入数据。我在这里使用逻辑来过滤掉一些坐标：https://www.talend.com/blog/2018/08/07/developing-data-processing-job-using-apache-beam-streaming-pipeline/ TLDR:主题中的消息的格式是id，

浏览 32提问于2020-06-23得票数 0

1回答

如何连接到VPC项目

、

我是BigQuery的新手，我正在努力了解VPC如何为BigQuery项目工作。我有一个BigQuery项目，它从其他几个BigQuery项目中导入数据(没有VPC，而是同一个组织)。我还需要连接到VPC网络中的一个项目(仍然是同一个组织)。我阅读这个VPC项目的唯一方法是我希望能够在我自己的项目中读写VPC项目的查询我希望能够安

浏览 2提问于2020-05-27得票数 0

1回答

使用数据流避免BigQuery存储API的会话关闭

、、

我正在实现一个ETL作业，它将非分区的BigQuery表迁移到分区的表。为此，我使用了来自BigQuery的Storage。这将创建许多要从其中提取数据的会话。为了将BigQuery写入路由到正确的分区，我使用了File方法。由于30天的限制，流插入是不可行的。存储写API似乎是有限的，识别分区。通过驻留到File方法

浏览 4提问于2022-09-12得票数 1

1回答

BigQuery AEAD函数密钥集管理的最佳实践

、、、

我的目标是构建一个基于BigQuery的安全解决方案。我使用由CMEK保护的BigQuery表。另外，我有一个数据流作业，它可以在表中写入数据。它用一个AEAD函数加密一些值。我用Tableau从BigQuery读取数据。并使用AEAD函数解密一些值。我需要一种安全可靠的方法，用于与AEAD一起使用的密钥集管理。加密期间，应该为数据流提供密钥集

浏览 0提问于2020-10-17得票数 0

回答已采纳

2回答

在Apache /Dataflow的WriteToBigQuery转换中，如何使用Method.FILE_LOADS和Avro temp_file_format启用死信模式

、、、、

在这个中，Apache建议在写入BigQuery时使用死信模式。此模式允许您用'FailedRows'标记从转换输出中获取未能写入的行。然而，当我尝试使用它时： table=self.bigquery_table_name, method=WriteToBigQu

浏览 34提问于2022-09-03得票数 0

回答已采纳

2回答

使用多字符分隔符将存储在谷歌云存储上的数据加载到BigQuery

、、、

我想将带有多个字符分隔符的数据加载到BigQuery。BQ load命令当前不支持多个字符分隔符。它只支持单个字符分隔符，如'|‘、'$’、'~‘等我知道有一种数据流方法，它将从这些文件中读取数据并写入BigQuery。但是我有大量的小文件(每个文件400MB)，它们必须写入一个单独的表分区(分区编号在700左右)。这种方法在处理数据流时速度很慢，因为我当前必须启动一个不同的<

浏览 22提问于2016-08-11得票数 3

回答已采纳

1回答

为什么光束io需要beam.AddFixedKey+beam.GroupByKey才能正常工作？

、、、

我正在为Golang的Elasticsearch开发一个光束IO，目前我有一个正在工作的草案版本，但我只是通过做一些我不清楚为什么需要它的事情来设法让它工作。基本上，我查看了现有的IO，发现只有在添加以下内容时，写入才能正常工作：y := beam.GroupByKey(s, x) 在中有一个完整的示例我也检查了BEAM-3860的问题，但没有更多的细节。

浏览 10提问于2021-06-02得票数 0

点击加载更多