首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >BigQuery数据仓库设计?

BigQuery数据仓库设计?
EN

Stack Overflow用户
提问于 2018-08-14 15:00:29
回答 1查看 533关注 0票数 0

在Datawarehouse的一个典型的HDFS环境中,我看到了一些不同的阶段,在这些阶段中,数据被分阶段处理和转换,如下所示。我正试图在Google云平台上设计一个系统,在那里我可以执行所有这些转换。请帮帮忙。

HDFS::着陆区->级1区->级2区

着陆区--对于具有原始数据级1区域的数据--来自着陆区的原始数据被转换,然后更改为不同的数据格式和/或非规范化并存储在第1阶段2区域中--第1阶段的数据在交易表上更新,例如HBASE。如果它只是一个时间段数据,那么仍然是基于HDFS的HIVE表,那么,报告会发生在第2阶段(如果转换之间也可能有多个区域)

我在Google中实现的思想过程:

登陆(谷歌云存储) ->第1阶段(BigQuery -托管所有基于时间的数据) ->阶段2(基于时间的数据的BigQuery/维护基于键的事务数据的大表)

我的问题如下:

( a)这一实施看上去是否现实。我计划使用数据流在这些区域之间进行读取和加载?如果有人在以前实现了一个仓库,那么什么样的设计会更好呢?

( b)使用Dataflow读取大查询,然后更新Big表的效果如何?我看到了一些用于大表更新的数据流连接器这里

( c) Json数据是否可以用作主要格式,因为BigQuery支持这种格式?

EN

Stack Overflow用户

回答已采纳

发布于 2018-08-14 17:05:14

  1. 有一个解决方案可能适合您的场景。我会将数据加载到云存储中,读取数据并使用Dataflow进行转换,然后将其发送到云存储,然后在Bigquery中加载,并/或使用您提到的Dataflow连接器直接写入BigTable。
  2. 正如我前面提到的,您可以从Dataflow将转换后的数据发送到两个数据库。请记住,BigQuery与Bigtable对分析是有益的,但是Bigtable具有低延迟读和写访问,而BigQuery具有很高的延迟时间,因为它需要查询作业来收集数据。
  3. 是的,这将是一个好主意,因为您可以直接将JSON数据从云存储加载到BigQuery。
票数 2
EN
查看全部 1 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51844450

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档