文章/答案/技术大牛

发布

社区首页 >问答首页 >BigQuery数据仓库设计？

问BigQuery数据仓库设计？
EN

Stack Overflow用户

提问于 2018-08-14 15:00:29

回答 1查看 533关注 0票数 0

在Datawarehouse的一个典型的HDFS环境中，我看到了一些不同的阶段，在这些阶段中，数据被分阶段处理和转换，如下所示。我正试图在Google云平台上设计一个系统，在那里我可以执行所有这些转换。请帮帮忙。

HDFS:：着陆区->级1区->级2区

着陆区--对于具有原始数据级1区域的数据--来自着陆区的原始数据被转换，然后更改为不同的数据格式和/或非规范化并存储在第1阶段2区域中--第1阶段的数据在交易表上更新，例如HBASE。如果它只是一个时间段数据，那么仍然是基于HDFS的HIVE表，那么，报告会发生在第2阶段(如果转换之间也可能有多个区域)

我在Google中实现的思想过程：

登陆(谷歌云存储) ->第1阶段(BigQuery -托管所有基于时间的数据) ->阶段2(基于时间的数据的BigQuery/维护基于键的事务数据的大表)

我的问题如下：

( a)这一实施看上去是否现实。我计划使用数据流在这些区域之间进行读取和加载？如果有人在以前实现了一个仓库，那么什么样的设计会更好呢？

( b)使用Dataflow读取大查询，然后更新Big表的效果如何？我看到了一些用于大表更新的数据流连接器这里

( c) Json数据是否可以用作主要格式，因为BigQuery支持这种格式？

google-bigquery

google-cloud-dataflow

dataflow

bigtable

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-08-14 17:05:14

有一个解决方案可能适合您的场景。我会将数据加载到云存储中，读取数据并使用Dataflow进行转换，然后将其发送到云存储，然后在Bigquery中加载，并/或使用您提到的Dataflow连接器直接写入BigTable。
正如我前面提到的，您可以从Dataflow将转换后的数据发送到两个数据库。请记住，BigQuery与Bigtable对分析是有益的，但是Bigtable具有低延迟读和写访问，而BigQuery具有很高的延迟时间，因为它需要查询作业来收集数据。
是的，这将是一个好主意，因为您可以直接将JSON数据从云存储加载到BigQuery。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51844450

复制

相似问题

问BigQuery数据仓库设计？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问BigQuery数据仓库设计？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问BigQuery数据仓库设计？
EN