如何使用BigQuery存储读取API定义Apache Beam中的最大流数_如何使用自定义的视觉api读取表格格式的数据图像并存储到csv文件中？ - 腾讯云开发者社区

google-cloud-platform、google-bigquery、google-cloud-dataflow、apache-beam

我想从BigQuery中读取数据并将其发布到Pubsub。为此，我想使用Apache光束，并在数据流中运行此管道。而且我的BQ查询需要很长时间才能执行。因此，希望使用BigQuery的Storage Read API来减少这一时间，该API支持使用流读取数据。尽管Beam支持使用存储A

浏览 25提问于2021-05-02得票数 0

2回答

如何将SCollection元素保存到不同的BigQuery表中？

google-cloud-dataflow、apache-beam、spotify-scio

我需要根据SCollection元素的时间戳将它们保存到不同的每小时BigQuery表中。我试过以下方法- 按(TableName, Iterable[TableRow])对元素进行分组，然后使用BigQueryClient实例将每个Iterable[TableRow]保存到各自的表中。创建一个SCollection[TableName, PCollection[TableRow]]，然后使用BigQueryIO.Write将每个PCollecti

浏览 0提问于2017-06-19得票数 0

3回答

显示RuntimeException的Apache* Beam - Bigquery流插入: ManagedChannel分配站点*

google-bigquery、google-cloud-dataflow、apache-beam

我在Google Dataflow中运行了一个Apache beam流水线。它从Kafka中读取数据并将其流式插入到Bigquery。(BigQueryServicesImpl.java:1255)at org.apache

浏览 7提问于2021-06-01得票数 5

1回答

bigquery.readsession可以对BIGQUERY数据集做什么？

google-bigquery、gcloud、google-iam

我不理解BigQuery Read Session User的权限。我想知道我是否被指派了这个角色。我可以通过python查询Bigquery中的数据集吗？ from google.cloud import bigqueryproject_id = 'Project_

浏览 17提问于2022-11-30得票数 0

1回答

在TableRow Apache梁中访问BigQuery列

google-bigquery、google-cloud-dataflow、apache-beam

我在试着2.每15分钟使用文件加载将事件从Cloud /Sub加载到BigQuery，以节省流插入的成本。3.目标将根据JSON事件中的"user_id“和"campaign_id”字段而不同，"user_id“将是数据集名称，"campaign_id”将是表名。分区名称来自事件时间戳。4.所有表的架构保持不变。我对Java和Beam很陌生

浏览 0提问于2018-04-17得票数 0

回答已采纳

1回答

Apache Beam Python读取.tgz并解析为BigQuery

python、google-cloud-dataflow、apache-beam

它驻留在Google云存储中。在.tgz内部是一系列|分隔的.txt文件。例如，这10个文件中的一个可以命名为这就是我到目前为止

浏览 0提问于2018-12-13得票数 0

3回答

使用Google Big Query进行弹性搜索

elasticsearch、google-bigquery

我将事件日志加载到elasticsearch引擎中，并使用Kibana将其可视化。我的事件日志实际上存储在Google Big Query表中。目前，我正在将json文件转储到Google存储桶中，并将其下载到本地驱动器。然后使用logstash将json文件从本地驱动器移动到elastic搜索引擎。根据我所读到的，我了解到有一个输出连接器，它将来自elastic search的数据发送到Google大查询，但反之亦

浏览 4提问于2016-08-31得票数 7

2回答

GCP:设置从扳手到大查询的周期性数据管道的最佳选择是什么？

google-cloud-platform、google-bigquery、google-cloud-dataflow、google-cloud-spanner

任务：我们必须设置从扳手到大查询的记录的定期同步。我们的扳手数据库有一个关系表层次结构。问题：请建

浏览 4提问于2019-05-28得票数 1

回答已采纳

1回答

Google流插入到BigQuery命中率限制

python、google-cloud-dataflow、apache-beam

我试图使用数据流流处理将记录插入到BigQuery中。存储桶中更改的文件从PubSub读取，然后读取、转换并插入到BigQuery中。但是，我不明白为什么我会看到关于这些配额的消息，因为BigQuery的流插入配额是100万/秒。usageLimits", "reason": "rateLimitE

浏览 29提问于2020-02-25得票数 3

2回答

如何在数据流中从google中读取csv文件，并结合，对数据流中的数据进行转换，然后将其转储到bigquery中？

python、google-cloud-platform、google-cloud-dataflow、apache-beam

我必须在python中编写一个Dataflow作业，它将从GCS读取两个不同的.csv文件，执行一个连接操作，对连接数据的结果执行转换，然后最后将其发送到BigQuery表？我对此非常陌生，我知道在经过大量的研发之后，我们可以从apache.beam完成所有的流水线操作，我终于找到了一个模板，但在给定的点上仍然有很多的混乱。是桶的名字，还是存储路径？ 如何</e

浏览 1提问于2020-06-21得票数 4

2回答

如何在apache* beam数据流中将csv转换为字典*

python、csv、google-bigquery、google-cloud-dataflow、apache-beam

我想读取一个csv文件，并将其写入到BigQuery使用阿帕奇光束数据流。为此，我需要将数据以字典的形式呈现给BigQuery。如何使用apache beam转换数据以实现此目的？我的输入csv文件有两列，我想在BigQuery中创建一个后续的两列的表。我知道如何在BigQuery中创建数据，

浏览 1提问于2016-12-16得票数 9

回答已采纳

2回答

使用自定义参数从BigQuerySource读取失败，并显示“找不到所需的参数serialized_source”

python、google-cloud-dataflow、apache-beam

我正在使用一个自定义的worker_harness_container_image (和experiment=beam_fn_api)在数据流上尝试一个非常简单的管道： main.py importargparsefrom apache_beam.options.pipeline_options import PipelineOptions,(

浏览 30提问于2020-01-21得票数 0

2回答

如何使用数据流运行器将hyperLogLog字段从ApacheBeam保存到BigQuery

java、google-bigquery、google-cloud-dataflow、apache-beam、hyperloglog

我需要将所有草图从ApacheBeam保存到BigQuery中。但是我找不到一种方法将素描本身保存到BigQuery。为了能够稍后通过时间滑动将其与合并函数和其他函数一起使用:请参阅此 .apply("hll-count", Combine.perKey(ApproximateDistinct.ApproximateDistinctFntableRow.se

浏览 8提问于2019-04-04得票数 0

1回答

数据流:用python管道更新BigQuery行

python、google-bigquery、google-cloud-dataflow、apache-beam

想象一下一个简单的管道。在这个管道中，您可以使用apache函数从BQ读取数据，并根据返回的pcollection来更新这些行。('table', TABLE_SCHEMA_CANONICAL)) 这个管道的问题是，在读取表( UpdateBQ )时，会对返回的pcollection中的每个项执行beam.Map。可以更好地执行对BigQuery</em

浏览 1提问于2018-12-05得票数 1

回答已采纳

1回答

Bigquery加载JSON错误“无法将值转换为字符串”

json、google-bigquery、google-cloud-storage

我正在尝试将JSON事件数据从加载到BigQuery，并且希望以字符串的形式加载所有数据，然后再进行转换，因为对于某些消息，它们看起来如下所示：{"id":234} --schema=$SCHEMA \ $INPUT故障详细信息：在读取数据时出错行: 2；错误: 1；最大错误

浏览 2提问于2020-11-24得票数 3

2回答

更改谷歌云数据流BigQuery优先级

google-bigquery、google-cloud-dataflow、apache-beam

我有一个运行在从BigQuery读取数据的谷歌云DataFlow上的Beam作业。当我运行作业时，作业需要几分钟时间才能开始从(微型)表中读取数据。结果是数据流作业发送的是以批处理模式运行而不是以交互模式运行的BigQuery作业。如何将其切换为在Apache光束中立即运行？我在API中找不到更改优先级的方法。

浏览 2提问于2017-05-26得票数 1

1回答

从GCS读取输入和模式作为运行时参数的数据流模板

python、google-cloud-dataflow、apache-beam

我正在尝试创建一个带有3个运行时参数的自定义数据流模板。来自gcs和bigquery数据链接表的输入文件和架构文件位置。输入文件似乎可以使用beam.io.textio.ReadFromText方法正确读取。但是，我需要提供模式文件(而不是通过从gcs读取来在模板中对其进行硬编码。当gcs位置作为运行时参数提供时，如何将该位置作为字符串读取(知道在推送Dataflow模板时，运行时参数上的<

浏览 2提问于2019-08-07得票数 1

1回答

Apache :在PCollection中读取管道的PBegin

google-cloud-dataflow、apache-beam、apache-beam-io

我正在调试这个束管道，我的最终目标是将PCollection中的所有字符串写入一个文本文件。在我想要检查的PCollection创建之后，我已经设置了一个断点，我一直在尝试创建一个新的管道，

浏览 2提问于2020-03-18得票数 0

回答已采纳

1回答

java jdbctobigquery管道

java、google-cloud-platform、pipeline、dataflow

我正在创建一个从jave jdbc到bigquery的管道，但是我想添加一个额外的步骤来检查某一列中的值是否满足大于4个字符的标准。我将使用什么方法？下面是我的代码，它读取jdbc，转换为tablerow，并将tablerow附加到现有的bigquery表中。import com.google.api.services.bigquery.model.TableRo

浏览 13提问于2021-07-22得票数 0

2回答

无法在数据流中从GCS读取我的配置文本文件(列名)

google-cloud-platform、google-bigquery、google-cloud-dataflow、apache-beam

在GCS中，我有一个源CSV文件(没有头)以及头配置CSV文件(只包含列名)。我在Bigquery中还有静态表。我希望通过使用列头映射(config文件)将源文件加载到静态表中。之前我尝试了不同的方法(我是维护源文件，其中包含头和数据在同一个文件中，然后尝试从源文件中分割头，然后使用头列映射将这些数据插入Bigquery。我注意到这种方法是不可能的，因为数据流将数据洗牌到多个工作节点。所以我放弃了这种方法。下面的代

浏览 0提问于2018-06-22得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云