在Datawarehouse的一个典型的HDFS环境中,我看到了一些不同的阶段,在这些阶段中,数据被分阶段处理和转换,如下所示。我正试图在Google云平台上设计一个系统,在那里我可以执行所有这些转换。请帮帮忙。
HDFS::着陆区->级1区->级2区
着陆区--对于具有原始数据级1区域的数据--来自着陆区的原始数据被转换,然后更改为不同的数据格式和/或非规范化并存储在第1阶段2区域中--第1阶段的数据在交易表上更新,例如HBASE。如果它只是一个时间段数据,那么仍然是基于HDFS的HIVE表,那么,报告会发生在第2阶段(如果转换之间也可能有多个区域)
我在Google中实现的思想过程:
登陆(谷歌云存储) ->第1阶段(BigQuery -托管所有基于时间的数据) ->阶段2(基于时间的数据的BigQuery/维护基于键的事务数据的大表)
我的问题如下:
( a)这一实施看上去是否现实。我计划使用数据流在这些区域之间进行读取和加载?如果有人在以前实现了一个仓库,那么什么样的设计会更好呢?
( b)使用Dataflow读取大查询,然后更新Big表的效果如何?我看到了一些用于大表更新的数据流连接器这里
( c) Json数据是否可以用作主要格式,因为BigQuery支持这种格式?
发布于 2018-08-14 17:05:14
https://stackoverflow.com/questions/51844450
复制相似问题