首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从s3加载数据的经济高效的BigQuery

从s3加载数据的经济高效的BigQuery
EN

Stack Overflow用户
提问于 2019-12-19 04:03:30
回答 4查看 1.2K关注 0票数 0

我每天都需要加载到BigQuery的分区表中,在s3中创建了(2 TB)大小为20k的文件。文件每5分钟滚动一次。

将数据传输到BigQuery的最经济高效的方法是什么?我正在寻找在亚马逊网络服务s3到GCP网络出口和实际数据加载的成本优化。

EN

Stack Overflow用户

发布于 2019-12-21 01:57:21

BigQuery数据摄取

有几种方法可以将s3数据导入到BigQuery中,这取决于在BigQuery中使用数据的速度。此外,任何数据转换(丰富、重复数据删除、聚合)的任何要求都应考虑到总体成本。

将数据传输到BigQuery的最快方式是流式API (在秒级延迟内),每200MB收费0.010美元。Streaming API Pricing

BigQuery转账服务是另一种最简单和免费的选择。它允许您计划数据传输,使其每天运行不超过一次(当前)。在您的例子中,数据是连续产生的,这将是将数据传送到BigQuery的最慢方法。Transfer Service Pricing

如果您需要复杂的转换,您也可以考虑云数据流,这不是免费的。Cloud Dataflow Pricing

最后,您还可以考虑无服务器解决方案,它完全是事件驱动的,允许您近乎实时地摄取数据。有了这些,您将为lambda和云函数执行支付费用,这应该是每天几美元加上出口成本。

对于亚马逊网络服务S3和谷歌云存储之间的数据镜像,你可以使用无服务器Cloud Storage Mirror,它带有数据压缩或动态AVRO代码转换的有效负载大小优化。

为了将数据加载到BigQuery,您可以使用无服务器BqTail,它允许您批量运行加载。为了使每个表每天的BigQuery负载配额不超过1K,您可以轻松地使用90秒的批处理窗口,在最坏的情况下,它会在几分钟的延迟内将您的数据加载到BigQuery。您还可以选择运行重复数据消除、数据丰富和聚合。

出口成本考虑因素

在您的场景中,当传输大小相对较小时,每天2 TB,我可以接受出口成本;但是,如果您希望增长到每天的40TB+,您可以考虑使用直接连接到GCP。有了一个简单的代理,这应该会大大降低成本。

票数 0
EN
查看全部 4 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59399273

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档