腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
通过
流式
插入
来
避免
BigQuery
中
的
重复
python-3.x
、
google-bigquery
我做了一个函数,每隔5~6秒将.CSV数据
插入
到
BigQuery
中
。我一直在寻找
避免
在
插入
后在
BigQuery
中
复制数据
的
方法。我想删除具有相同luid
的
数据,但我不知道
如何
删除它,所以是否可以在
插入
之前检查
BigQuery
表
中
已经存在.CSV
的
每个数据。我设置了row_ids参数来
避免
重复
的
浏览 30
提问于2021-01-14
得票数 1
回答已采纳
2
回答
对于数据流,BigqueryIO.write()和
bigquery
.insertAll()方法哪个更好
google-cloud-platform
、
google-bigquery
、
google-cloud-dataflow
、
dataflow
我正在开发java代码,以便从GCS读取记录并
插入
到BQ表
中
,从成本和性能
的
角度来看,哪个BigqueryIO.write()或
bigquery
.insertAll()方法更好。
浏览 0
提问于2019-03-05
得票数 1
1
回答
用于
重复
数据删除
的
Apache ->
BigQuery
- insertId不起作用
google-bigquery
、
apache-beam
我将数据从卡夫卡
流式
传输到
BigQuery
,使用
的
是带有谷歌数据流运行器
的
阿帕奇光束。我想使用insertId进行
重复
数据删除,我在谷歌文档中找到了这一点。但是,即使这些
插入
在几秒钟内发生,我仍然可以看到许多具有相同insertId
的
行。现在我在想,也许我没有正确使用API
来
利用BQ提供
的
流式
插入
的
重复
数据删除机制。我在beam
中
编写
的<
浏览 1
提问于2017-09-25
得票数 1
1
回答
BigQuery
流丢失了流数据,但未报告错误
google-bigquery
、
streaming
{ Log::error('Streaming to
BigQuery
基本上,它
的
作用是。如果流成功,我将返回true,如果流失败,我将返回false。 我有524845行要
插入
。为了
避免
超大错误,对于每1000行,我调用了上面的stream语句。如果
流式
处理成功(返回true),我将继续
流式
处理下1000行。如果
浏览 1
提问于2018-03-27
得票数 0
2
回答
如何
使用流insertAll在
BigQuery
中
插入
38000条记录?
google-cloud-platform
、
google-bigquery
、
streaming
、
spring-cloud-gcp-bigquery
我正在尝试使用
流式
insertAll方法在
BigQuery
中
插入
38000条记录。但首先我得到
的
错误是:com.google.cloud.
bigquery
.BigQueryException: Read timed out
bigquery
= bigqueryOptions.getDefaultInstance().getService();Insert operation n
浏览 5
提问于2021-02-18
得票数 2
1
回答
当从其他谷歌云服务
流式
传输数据时,有可能修复到
BigQuery
的
失败
插入
吗?
google-bigquery
BigQuery
提供insertIds并执行一些
重复
数据消除,以帮助解决
通过
API
插入
数据时
的
故障情况。根据文档,,所以如果
插入
失败,可以
通过
API重试
插入
,而不用担心可能
的
(
插入
的
)数据
重复
。问题是,在谷歌云上,有大量承诺将数据
插入
BigQuery
的
服务。例如,对于从许多来源获取数据到
BigQuery
浏览 1
提问于2018-06-12
得票数 0
2
回答
从HTTP请求API拉取数据到Google Cloud
api
、
google-app-engine
、
google-bigquery
、
cloud
、
google-cloud-storage
数据是半结构化
的
(json数据) 我想把这个数据发送到Google Big Query,以便储存所有的信息。 但是,我不知道
如何
才能正确地做到这一点。到目前为止,我已经在自己
的
服务器上使用Node
通过
POST请求获取数据。 你能帮帮我吗?特纳克。
浏览 17
提问于2019-10-15
得票数 0
1
回答
Bigquery
:检查流
中
的
重复
google-bigquery
我们在客户端安装了一些设备生成
的
数据。
重复
的
数据是存在
的
,这是
通过
设计
来
实现
的
,这意味着我们无法在数据生成阶段消除
重复
的
数据。我们现在正在研究在流到
Bigquery
时
避免
重复
的
可能性(而不是
通过
做表复制和稍后
的
删除
来
清理数据)。也就是说,对于每一条准备好
的
流记录,我们首先检查它是否已经在<em
浏览 3
提问于2014-09-10
得票数 3
回答已采纳
2
回答
通过
加载作业(非
流式
处理)
插入
到
BigQuery
google-bigquery
、
google-cloud-dataflow
我希望使用数据流将数据加载到使用
的
BigQuery
表
中
,而不是
流式
处理(对于我们
的
用例,
流式
处理
的
成本太高)。我看到Dataflow SDK内置了对
通过
BQ流
插入
数据
的
支持,但我在Dataflow SDK
中
找不到任何开箱即用
的
支持加载作业
的
功能。以下是一些问题: 1) Dataflow SDK是否支持
BigQuery
load作业
插入</
浏览 0
提问于2015-06-17
得票数 3
1
回答
异步实时ETL流水线
中
的
反复制
BigQuery
google-bigquery
我们
的
数据仓库团队正在评估
BigQuery
作为一种数据仓库列存储解决方案,并对其特性和最佳使用提出了一些问题。我们现有的etl管道
通过
队列异步地消耗事件,并将事件等效地保存到我们现有的数据库技术
中
。幂等结构允许我们在没有
重复
风险
的
情况下,偶尔重播几个小时或几天
的
事件,以纠正错误和数据中断。 在测试
BigQuery
时,我们尝试使用具有唯一密钥
的
实时流
插入
api作为insertId。这为我们提供了在短窗口上重新
插
浏览 3
提问于2017-03-27
得票数 3
回答已采纳
1
回答
将查询结果保存到
BigQuery
中
的
表
的
成本?
google-bigquery
我很好奇有一个python (QueryJobConfig)可以设置目标表
来
保存查询结果,所以为了节省这种开销,在GCP
中
需要花费多少?为了明确起见,保存查询结果可能会被视为
插入
,因此,如果我经常使用此方法更新表,那么执行流
插入
将花费很大
的
成本。
浏览 3
提问于2020-04-20
得票数 0
回答已采纳
1
回答
谷歌
BigQuery
-将数据
流式
传输到
BigQuery
java
、
google-cloud-platform
、
google-bigquery
我正在使用谷歌
BigQuery
为我
的
项目,现在我正在尝试
插入
一个新
的
行到基于此https://cloud.google.com/
bigquery
/streaming-data-into-
bigquery
#
bigquery
-stream-data-java
的
BQ private void insertRowsToBQ(MyCustomObject data) { String datasetName
浏览 21
提问于2021-03-24
得票数 1
2
回答
将数据实时
流式
传输到Big Query (使用Node)
的
最佳方式是什么?
node.js
、
aws-lambda
、
google-bigquery
、
google-cloud-functions
、
cloudflare-workers
我想实时(或接近实时)地将HTTP请求
流式
传输到
BigQuery
中
。理想情况下,我希望使用一个工具
来
提供一个端点来
流式
传输HTTP请求,并允许我编写这样
的
简单节点: 1.我可以添加适当
的
insertId,以便
BigQuery
可以在必要时删除
重复
请求;2.我可以对数据进行批处理,这样我一次不会发送一行(这将导致不必要
的
GCP开销)。我尝试过使用AWS Lambdas或Google Cloud Functions,但在这
浏览 3
提问于2019-06-14
得票数 2
1
回答
从Google云存储到Big Query
的
流式
数据流
google-cloud-platform
、
google-bigquery
、
google-cloud-storage
、
google-cloud-dataflow
我正在尝试使用DataFlow (Java)将数据从云存储
插入
到Big Query。我可以批量上传数据;但是,我想设置
流式
上传。因此,当新对象添加到我
的
存储桶
中
时,它们将被推送到
BigQuery
。我已经将PipelineOptions设置为
流式
传输,它在GCP Console UI
中
显示数据流管道是
流式
传输类型。存储桶中最初
的
一组文件/对象被推送到
BigQuery
。但是,当我向存储桶
中
添加
浏览 47
提问于2018-06-03
得票数 3
回答已采纳
1
回答
当
BigQuery
完成从Cloud上传文件到BQ或
通过
流
插入
数据时,它可以调用端点吗?
python
、
google-cloud-platform
、
google-bigquery
我正在从云存储并
通过
流式
方式将文件上传到
BigQuery
,我想知道当
BigQuery
完成在表中加载数据时,它是否可以调用我选择
的
端点。例如,存储
中
的
文件: source_uris=uri,destination_table, job_config=job_config, endpoint="http:/&
浏览 3
提问于2022-04-26
得票数 0
1
回答
如何
截断临时表?
google-bigquery
为了保持列
的
唯一性,我
的
几个客户将数据
流式
传输到BQ
中
的
临时表(如果不存在于主表
中
,则重试2次,间隔10分钟),并使用另一个cron作业每隔几分钟将临时表合并到一个列分区表
中
。如果临时表被合并到主表
中
,我需要截断它,但似乎我
的
客户端一直都在
流式
传输数据。这里有什么推荐吗?
浏览 2
提问于2018-07-22
得票数 1
2
回答
Google
BigQuery
:
通过
API批量加载
google-bigquery
首先,有没有可能
通过
它
的
API批量加载到Google
BigQuery
中
?如果是,那要多少钱呢?我将每天
插入
一百万行。
浏览 0
提问于2018-08-15
得票数 1
1
回答
BigQuery
-使用更改/删除
的
记录更新表
python
、
node.js
、
google-bigquery
目前,我们将整个文件发送到云(Google Cloud Storage),导入到
BigQuery
中
,然后进行简单
的
下载/替换。然而,随着文件大小
的
增长,我们
的
网络团队并不是特别喜欢我们占用
的
带宽,而其他ETL也在尝试运行。因此,我们只考虑发送已更改/已删除
的
行。 正在尝试查找有关
如何
执行此操作
的
路径/帮助文档。作用域--我将从一个简单
的
例子开始。我们有一个包含3亿条记录
的</em
浏览 0
提问于2019-12-18
得票数 0
2
回答
Bigquery
。“在末尾添加NULLABLE或
重复
列”是什么意思?
google-bigquery
我想在
Bigquery
中
更新表。这里有一个说明什么可以做什么不能做
的
文档:,它说: 在末尾添加NULLABLE或
重复
列,使所需字段NULLABLE 我能够
通过
插入
NULLABLE和
重复
字段
来
更新表,嵌套在我
的
模式
中
这不是
Bigquery
存储数据
的
内部细节吗?
浏览 1
提问于2015-05-13
得票数 0
3
回答
显示RuntimeException
的
Apache Beam -
Bigquery
流
插入
: ManagedChannel分配站点
google-bigquery
、
google-cloud-dataflow
、
apache-beam
我在Google Dataflow
中
运行了一个Apache beam流水线。它从Kafka
中
读取数据并将其
流式
插入
到
Bigquery
。但在
bigquery
流
插入
步骤
中
,它抛出了大量警告-at io.grpc.internal.ManagedChannelOrphanWrapper(BigQueryServicesImpl.ja
浏览 7
提问于2021-06-01
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Kafka,如何成功迁移SQL数据库中超过20亿条记录?
从Lambda到无Lambda,领英吸取到的教训
分析GitHub:最流行的许可证是什么?
这可能是北半球最暖的Kafka Connect数据管道教程:2
Flink:动态表上的连续查询
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券