腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
谷歌
数据流
每项作业是否有BT写原子?
google-cloud-dataflow
也许我是个糟糕的探索者,但我
在
文档
中
找不到答案,所以我只想在这里试试运气。我知道写GCS似乎不是原子的,
在
作业运行的过程中会产生部分输出分区。但是,我已经尝试过通过
数据流
将数据转储到BQ
中
,并且
在
作
浏览 6
提问于2016-08-05
得票数 1
回答已采纳
1
回答
如何在将JSON文件加载到
BigQuery
表
中
时管理/处理模式更改
python
、
google-cloud-platform
、
google-bigquery
、
google-cloud-functions
、
google-cloud-dataflow
{"Id": 4}
在
我的
数据流
管道
中
,我如何动态地确定每一行
中
存在哪些字段,以便遵守
BigQuery
表
架构。例如,
在</em
浏览 1
提问于2018-02-21
得票数 1
回答已采纳
1
回答
如何使用Java处理
数据流
管道
中
的
BigQuery
插入错误?
java
、
google-cloud-platform
、
apache-beam
我正在解析XML并使用
数据流
管道
写入
Bigquery
。如果在
BigQuery
中
插入
失败
,如何处理错误?我想编写一个自定义代码,将
失败
的xml
写入
error bucket。
浏览 33
提问于2019-03-23
得票数 0
1
回答
写入
BigQuery
(错误401 :需要登录)
google-cloud-platform
、
google-bigquery
、
google-cloud-dataflow
、
gcloud
我试图从Dataflow
管道
中将一些数据
写入
BigQuery
表
,但是
在
堆栈驱动程序
中
,以下错误消息导致
写入
失败
: "error": { { } "code": 401, "message": &q
浏览 0
提问于2018-10-02
得票数 0
1
回答
如何将Azure事件中心(kafka界面)的事件集成到google云发布/订阅
azure
、
apache-kafka
、
google-cloud-pubsub
消息必须以kafka主题为属性,以消息内容为主体,
在
公共子主题上发送。 这是一个很高的要求。我看过以了解如何实现这一目标。
浏览 1
提问于2021-06-03
得票数 1
回答已采纳
1
回答
停止执行
管道
转换,而其他
管道
转换继续运行。
google-bigquery
、
google-cloud-platform
、
google-cloud-dataflow
我
在
google存储中有许多文件,
在
应用了一个简单的ParDo转换之后,我必须将这些文件写到
BigQuery
中
的多个
表
中
,我正试图使用一个
管道
来执行该转换。因此,基本上,我有许多并行的、未连接的源和汇,它们
在
一个
数据流
作业
中
以单个
管道
运行。
在
Pardo转换
中
,我有一个条件,如果它的值为true,那么对特定的
BigQuery
表
(
浏览 0
提问于2016-08-18
得票数 2
回答已采纳
2
回答
紧跟在BigQueryIO.write()操作之后执行进程
google-cloud-dataflow
、
apache-beam
我有一个
BigQuery
表
作为接收器的
管道
。
在
将数据
写入
BigQuery
之后,我需要执行一些步骤。这些步骤包括对该
表
执行查询,从该
表
中
读取数据并将其
写入
到另一个
表
中
。如果上述操作都不起作用,是否可以从正在运行的
管道
中
浏览 2
提问于2017-10-03
得票数 2
2
回答
从本地磁盘将数据加载到
BigQuery
和Google云存储
中
的策略
google-bigquery
、
google-cloud-storage
、
google-cloud-platform
、
google-cloud-dataflow
我有2年的合并数据,大小约300 my,
在
我的本地磁盘,这是我已经提取的数据。我必须将相同的数据加载到google云存储和
BigQuery
表
中
。google云存储
中
的最终数据应该以压缩格式逐日隔离(每天的文件应该是一个gz格式的文件)。我还必须在一个分区
表
中加载
BigQuery
中
的数据,也就是说,每一天的数据都应该存储
在
一个分区
中
。但是
数据流
不允许创建730个分区(长达2年),因为它击中了413请求
浏览 2
提问于2016-08-10
得票数 1
回答已采纳
1
回答
使用
数据流
从大查询中提取数据的问题[ apache beam ]
google-cloud-platform
、
google-bigquery
、
google-cloud-dataflow
、
apache-beam
我需要使用Dataflow从
BigQuery
表
中提取数据,然后写到GCS。 代码409请求
失败
,由于IOExceptions
浏览 0
提问于2020-01-12
得票数 1
回答已采纳
1
回答
使用的大型json文件
BigQuery
中
的问题解析和编写
python
、
json
、
google-cloud-dataflow
、
dataflow
我正在尝试创建一个
数据流
(批处理),它每小时从读取一个文件,解析它并在
BigQuery
表
中
写入
一个条目。文件是一个.json,
在
女巫
中
,每一行都有一个复杂的json。但是,当文件增加时,
数据流
会花费更多的时间(15分钟,200到300 Mb)或者没有完成并以
失败
结束(超过1.5GB和350 K行)。我做了一些测试,当我
在
函数解析
中
创建一个json示例时,但没有使用input_elem,
数据流
浏览 4
提问于2020-08-21
得票数 0
回答已采纳
1
回答
将google
数据流
管道
写入
多个汇的结果
google-cloud-dataflow
我想写谷歌
数据流
管道
结果到多个汇。 例如,我希望使用TextIO将结果
写入
,并将结果作为一个
表
写入
BigQuery
中
。我怎么能这么做?
浏览 0
提问于2015-05-25
得票数 4
回答已采纳
1
回答
在
BigQuery
中
更新购物客户级数据的最佳方法
google-bigquery
、
shopify-api
出于报告的目的,我正在考虑将我们的购物数据移动到
BigQuery
。我通过shopify API对customers端点进行分页,并获得所有客户级数据。然后我将其导出为csv,然后将其存储
在
google云存储上,然后导入到
BigQuery
。我的问题是,考虑到当前customer datamart上的一些条目(例如,总订单数)可能已经更改,并且自上次
表
更新以来可能已经创建了一些新客户,那么处理增量数据加载的最佳方法是什么。
浏览 0
提问于2021-03-06
得票数 1
1
回答
无接收器的流
数据流
管道
google-cloud-dataflow
我们
在
工作人员上运行了一个流
数据流
管道
,它需要从PubSub订阅
中
读取、分组消息并将它们
写入
BigQuery
。内置的
BigQuery
Sink不适合我们的需要,因为我们需要针对每个组的特定数据集和
表
。由于流
管道
不支持自定义接收器,似乎唯一的解决方案是
在
ParDo
中
执行插入操作。就像这样:在编写这类
管道
时,是否存在在
管道
中
没有水槽的已知
浏览 2
提问于2017-01-24
得票数 4
回答已采纳
1
回答
如何使用gcloud上传到
bigquery
中
的几个
表
node.js
、
google-bigquery
、
gcloud
有没有办法使用nodejs gcloud库或使用bq命令行在一个加载作业中将不同的数据上传到几个
表
中
到
bigquery
?
浏览 14
提问于2016-07-17
得票数 1
回答已采纳
1
回答
Apache
写入
BigQuery
的文件结构
google-bigquery
、
google-cloud-storage
、
apache-beam
我使用DynamicDestinations (来自BigQueryIO)将数据从一个Cassandra
表
导出到多个Google
表
。这个过程包括几个步骤,包括将准备好的数据
写入
(作为JSON格式的文件),然后通过加载作业将文件加载到BQ。 还有很多没有明显名字的文件:问题是文件的存储结构是什么?如何将文件与它们
浏览 1
提问于2018-02-19
得票数 0
回答已采纳
1
回答
使用
数据流
避免
BigQuery
存储API的会话关闭
google-bigquery
、
google-cloud-dataflow
、
google-bigquery-storage-api
我正在实现一个ETL作业,它将非分区的
BigQuery
表
迁移到分区的
表
。为此,我使用了来自
BigQuery
的Storage。这将创建许多要从其中提取数据的会话。为了将
BigQuery
写入
路由到正确的分区,我使用了File方法。由于30天的限制,流插入是不可行的。存储写API似乎是有限的,识别分区。 通过驻留到File方法,数据将被
写入
GCS。
在
幕后,文件加载方法是一个复杂的方法,有多个步骤。例如,
写入
GCS并将条目组合到目标/
浏览 4
提问于2022-09-12
得票数 1
1
回答
Google
BigQuery
:行的最后修改日期时间
google-bigquery
、
google-cloud-dataflow
我正在尝试测量
数据流
管道
的持续时间,
数据流
管道
从发布/订阅中提取消息并将其加载到
BigQuery
表
中
。我找不到如何在
BigQuery
表
中
获取行的最后修改时间,尽管有
表
的最后修改日期时间。谁知道如何将上次修改的日期时间设置为
BigQuery
表
的行?
浏览 2
提问于2018-11-07
得票数 0
2
回答
数据流
:我可以用批处理作业连续
写入
/流
写入
BigQuery
吗?
google-bigquery
、
google-cloud-dataflow
、
apache-beam
我有一个apache
管道
,它接收一些信息,将其格式化为TableRows,然后
写入
BigQuery
。直到
数据流
作业完成后,才会将行
写入
BigQuery
。如果我有一个需要很长时间的
数据流
作业,我希望能够看到插入到
BigQuery
中
的行,谁能给我指明正确的方向? 提前感谢
浏览 0
提问于2018-06-08
得票数 1
1
回答
Google随机化WritetoBigQuery
google-bigquery
、
google-cloud-platform
、
google-cloud-dataflow
我成功地实现了一个
写入
BigQuery
的
数据流
管道
。此
管道
正在转换Cloud引擎作业的数据。但是,我注意到已经
写入
的行是按数据的标签排序(或至少分组)的。我的意思是,它们
在
视觉上看起来是以某种方式组织起来的(这并不是完全随机的)。然后,当我将
表
导出到GCS
中
的切分. .csv时,每个切分的.csv本质上都是有序的。这意味着数据不能随机地输入到TensorFlow
中
,因为TF一次获取一个.csv,而..csv本身并不是
浏览 4
提问于2017-10-16
得票数 1
回答已采纳
1
回答
使用
数据流
的DLP从GCS读取并
写入
BigQuery
-只有50%的数据
写入
BigQuery
google-cloud-platform
、
google-bigquery
、
google-cloud-storage
、
google-cloud-dataflow
、
google-cloud-dlp
我最近启动了一个
数据流
作业,从GCS加载数据,通过DLP的标识模板运行它,并将屏蔽的数据
写入
BigQuery
。我找不到谷歌提供的用于批处理的模板,因此使用了流模板(参考:link)。我看到只有50%的行被
写入
目标
BigQuery
表
。
管道
上有一天没有任何活动,即使它处于运行状态。
浏览 30
提问于2020-08-22
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
弃用 Lambda,Twitter 启用 Kafka 和数据流新架构
使用Kafka,如何成功迁移SQL数据库中超过20亿条记录?
从Lambda到无Lambda,领英吸取到的教训
谷歌推出Bigtable联邦查询,实现零ETL数据分析
系统架构设计师:系统架构设计基础知识--数据流体系结构风格
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券