腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
具有
大量
小文件
和
作业
限制
的
BigQuery
google-bigquery
我有
大量
的
小文件
要加载到
BigQuery
中
的
单个表中。我喜欢有一个云函数,当他们被上传到GCS存储桶时加载到Big Query中。现在每天只有几个(比如说10个),但可能会增长到数千个,我想我会很快达到每天1500个工作岗位
的
限制
。我不想使用流媒体,因为相对于费用而言,没有业务需求。有没有办法在不执行定期批量加载
的
情况下做到这一点?
浏览 31
提问于2020-07-01
得票数 0
回答已采纳
1
回答
数据流
作业
是否达到了
Bigquery
配额
和
限制
?
google-bigquery
、
google-cloud-platform
、
google-cloud-dataflow
、
apache-beam
我有大约1500个
作业
要用Dataflow来实现。这些工作将每天安排。我们可以在
作业
中使用
Bigquery
客户端库使用
大量
的
DML语句。列出我对
Bigquery
配额
和
限制
的
关注。参考资料:https://cloud.google.com/
bigquery
/quotas 请确认我们是否需要在以下任何一个场景中考虑
Bigquery
的
每日使用<em
浏览 1
提问于2017-11-28
得票数 0
回答已采纳
2
回答
使用多字符分隔符将存储在谷歌云存储上
的
数据加载到
BigQuery
google-bigquery
、
google-cloud-storage
、
google-cloud-platform
、
google-cloud-dataflow
我想将带有多个字符分隔符
的
数据加载到
BigQuery
。BQ load命令当前不支持多个字符分隔符。它只支持单个字符分隔符,如'|‘、'$’、'~‘等 我知道有一种数据流方法,它将从这些文件中读取数据并写入
BigQuery
。但是我有
大量
的
小文件
(每个文件400MB),它们必须写入一个单独
的
表分区(分区编号在700左右)。这种方法在处理数据流时速度很慢,因为我当前必须启动一个不同
的
数据流
作业
,以便使用for循
浏览 22
提问于2016-08-11
得票数 3
回答已采纳
2
回答
以AVRO格式在GCS上
的
BigQuery
中创建外部表时
的
大小问题
google-cloud-platform
、
google-bigquery
、
avro
我正尝试在
BigQuery
中创建一个外部表,但在执行此操作时遇到以下异常: Error while reading table: nginx_ext_table, error message: Total
BigQuery
中
的
表/数据集大小有
限制
吗? 如有任何帮助,我们将非常感谢:)
浏览 22
提问于2019-02-19
得票数 1
1
回答
具有
二进制数据
的
PubSub主题到
BigQuery
google-bigquery
、
google-cloud-pubsub
、
google-cloud-run
我希望有数以千计
的
传感器以10 via
的
速度发送遥测数据,每帧大约有1KB
的
二进制数据,使用IOT,这意味着我将通过PubSub获得数据。我想将这些数据发送到
BigQuery
,并且不需要进行处理。由于Dataflow没有能够处理二进制数据
的
模板,使用它似乎有点麻烦,所以我想尽量避免它,使它变得完全没有服务器。 问题是,我最好
的
选择是什么?我考虑过云运行服务,运行一个快速应用程序来接受来自PubSub
的
数据,并使用全局变量在ram中累积大约500行,然后使用
Big
浏览 7
提问于2021-10-22
得票数 1
回答已采纳
1
回答
将CSV上传到桶中时丢失数据
function
、
csv
、
google-cloud-platform
、
bucket
把它放在上下文中,我有一个存储CSV文件
的
桶,还有一个函数,当您将新
的
CSV加载到存储桶中时,它可以将数据放入数据库。我试图同时上传100个CSV,总共有581.100条记录(70 MB),所有这些文件都出现在我
的
桶中,并创建了一个新表。但是,当我做一个“选择计数”时,我只找到了267306条记录(占总数
的
46%)--我试图再做一次,不同
的
桶、函数
和
表,我尝试上传另外100个文件,这一次是4.779.100条记录(312 MB) --当我在大查询中检查表时所以我
的
问题是
浏览 9
提问于2022-09-08
得票数 2
3
回答
BigQuery
无法插入
作业
。工作流失败
google-cloud-platform
、
dataflow
、
stackdriver
我需要通过数据流
和
光束运行从GCS到
BigQuery
的
批处理
作业
。我所有的文件都是
具有
相同模式
的
avro。这一步是加载到
BigQuery
。堆栈驱动程序表示处理过程停滞在步骤....for 10m00s...
和
Request failed with code 409, performed 0 retries due to IOExceptions我查找了409错误代码,指出我可能有一个现有的
作业
、数据集或表。我已经删除了所有的表,并重
浏览 0
提问于2018-04-04
得票数 5
1
回答
BigQuery
负载
作业
限制
为15 TB
google-bigquery
同时将大型数据集加载到
BigQuery
中。表大小超过170TB。在
BigQuery
中,我们听说每个加载
作业
有一个不超过15TB
的
负载
限制
,而不管文件压缩是Avro,parquet等。如果是,那么您能分享任何解决方法或选项来加载如此
大量
的
数据吗?
浏览 9
提问于2019-08-20
得票数 0
1
回答
在Google
的
Pub/Sub到
BigQuery
模板数据流中处理大容量消息
的
正确方法
google-bigquery
、
google-cloud-dataflow
、
google-cloud-pubsub
正如标题所指出
的
,我们使用数据流使用标准模板从PubSub向
BigQuery
发送消息。数据流
的
错误如下所示:我们不时地看到
大量
的
信息。尽管它们有共同之处,但它们中
的
大多数还远没有那么大,失去它们对我们来说是可以
的
,但我们想要意识到它们。有没有办法这样做呢?因此,我们希望接收存储在死信表中
的
浏览 2
提问于2020-05-25
得票数 0
1
回答
从S3加载
的
任务客户端内存不足
dask
、
dask-distributed
我有一个s3存储桶,里面有很多
小文件
,超过100K,加起来大约有700 up。当从数据包中加载对象然后持久化时,客户端总是会耗尽内存,很快就会消耗
大量
的
内存。将作用域
限制
为几百个对象将允许
作业
运行,但客户端正在使用
大量
内存。 客户不应该只跟踪期货吗?它们占用了多少内存?
浏览 0
提问于2018-08-07
得票数 0
1
回答
如何将数据从Redshift迁移到
BigQuery
amazon-s3
、
google-bigquery
、
google-cloud-storage
、
amazon-redshift
来自RDS
的
表需要尽可能快地出现在BQ上,并且主数据库
和
be副本之间
的
同步延迟很低。 我想要创建一个触发器,当RDS上
的
数据库被更新时,它将自动更新BQ数据库。我是否可以在触发时间
的
基础上迁移每个
作业
一个以上
的
表?
浏览 3
提问于2021-12-24
得票数 0
回答已采纳
1
回答
如何基于event_type将google中
的
大型事件表拆分为多个表?
python
、
google-bigquery
嗨,我想根据大型表中
的
event_type将一个大型
bigquery
表(100亿个事件记录)分割成多个表。让我们假设事件_type=‘登录’,‘页面查看’ 我应该使用什么加载
作业
类型:复制或加载
作业</em
浏览 9
提问于2021-11-13
得票数 0
回答已采纳
1
回答
为什么我要将多个拼花文件合并成一个单独
的
拼花文件?
python
、
pandas
、
csv
、
parquet
、
pyarrow
假设我有一个CSV文件,有数以亿计
的
记录。然后,我希望使用Python
和
Pandas将CSV转换为Parquet文件,以读取CSV并编写Parquet文件。但由于文件太大,无法将其读入内存并写入单个Parquet文件,所以我决定以500万条记录块
的
形式读取CSV,并为每个块创建一个Parquet文件。为什么我要将所有的拼花文件合并成一个单独
的
拼花文件?
浏览 2
提问于2022-02-14
得票数 2
3
回答
BigQuery
中将
大量
数据从美国数据集迁移到欧盟数据集
的
最佳方法?
google-bigquery
我在一个位于美国
的
多个数据集中托管
的
单个
BigQuery
项目中
的
大约100万个表中有许多TBs。我需要将所有这些数据转移到欧盟托管
的
数据集中。我这样做
的
最佳选择是什么?我会将表导出到并使用load
作业
重新导入,但是每个项目每天
的
加载
作业
有10K
的
限制
我会把它作为查询w/“允许大
的
结果”并保存到目标表,但是这不能跨区域工作。我现在看到
的
唯一
的
浏览 9
提问于2016-03-02
得票数 5
回答已采纳
1
回答
Google大查询回填需要很长时间
google-bigquery
我使用Google big query将来自多个来源
的
数据连接到一起。我已经连接到谷歌广告(使用数据传输从大查询),这工作得很好。但是,当我回填较旧
的
数据时,在大型查询中从180天获得数据需要3天以上
的
时间。谷歌建议最多180天。但这需要很长时间。我想做这件事在过去两年
和
多个客户(我们是一个机构)。
浏览 5
提问于2020-07-27
得票数 1
1
回答
如何将
大量
嵌套
的
海量数据从GCS加载到
BigQuery
google-bigquery
、
google-cloud-storage
我在将
大量
数据加载到
Bigquery
时遇到了麻烦。在GCS中,我有很多这样
的
文件:我想把它加载到
BigQuery
中,所以首先,我尝试了: --nosync\ gs://bucket
浏览 1
提问于2018-06-21
得票数 0
1
回答
数据流到
BigQuery
配额
google-bigquery
、
google-cloud-dataflow
对于这个问题,我找到了几个相关
的
问题,但谷歌小组没有给出明确
的
答案:我成功地运行了
作业
,
作业
显示>180 K行/秒,这些
作业
是通过Dataflow监视UI处理
的</
浏览 0
提问于2015-11-19
得票数 4
回答已采纳
1
回答
Hadoop中
的
小文件
vs Shuffle时间调整
hadoop
、
mapreduce
、
hdfs
、
bigdata
、
hadoop-yarn
在处理这么多
小文件
时,减少
和
调整混洗时间
的
更好方法是什么?Average Map Time 33sec Average Reduce Time 10sec
浏览 0
提问于2015-04-17
得票数 1
1
回答
我能使用
BigQuery
和
的
相同编程语言吗?
google-bigquery
、
google-cloud-dataflow
我希望在两种不同
的
技术中使用相同
的
函数来解析事件: Goolge
和
DataFlow。有我能用
的
语言吗?如果不是,谷歌是否计划在短期内支持一家公司?背景:这种解析有些很复杂(例如,应用自定义
的
URL提取规则,从用户代理中提取信息),但在计算上并不昂贵,而且不涉及将事件加入到任何其他大型查找表中。因为解析可能很复杂,所以我只想用一种语言编写解析逻辑,并在需要
的
地方运行它:有时在
BigQuery
中,有时在其他环境(如DataFlow )中。我希望避免用不同
的
浏览 0
提问于2018-06-12
得票数 0
1
回答
在上调试来自
BigQuery
的
慢速读取
google-cloud-dataflow
、
apache-beam
背景:我们有一个非常简单
的
管道,它从
BigQuery
(通常是300 to )过滤器/转换中读取一些数据,并将其放回
BigQuery
。在99%
的
情况下,该管道在7-10分钟内完成,然后重新启动以处理新
的
批处理。是否有人就如何处理此类案件
的
调试提出
浏览 0
提问于2018-01-26
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
苹果公司前员工Ashley Gjovik提出上诉:苹果具有限制性的员工手册原则和CEO库克的反泄密Edict违法。
大数据开发之用CombineFileInputFormat优化Hadoop小文件
BigQuery提供脚本存储程序,可在单一请求执行多个陈述式
谷歌BigQuery ML正式上岗,只会用SQL也能玩转机器学习!
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券