一个配置单元实例是否可以跨hdfs集群存储不同的表。然后在这些桌子上做hive ql?
我的用例是,我在一个hdfs集群上有一个配置单元表。我想用hive ql对其进行一些处理,并将输出写入另一个hdfs集群。我希望只通过hive直接实现这一点,而不需要运行一些转储/复制/导入过程。那么这是可能的吗?我真的不认为这是可能的,然而,我注意到一个设计页面:
https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=27837073
在其中,它说:
请注意,即使在今天,不同的分区/表也可以跨越多个dfs,并且配置单元不会强制执行任何限制。这些dfs也可以位于不同的数据中心
除此之外,我没能在谷歌上搜索到任何相关的东西。
有人对此有什么想法吗?谢谢。
发布于 2016-03-04 14:01:54
有多种方法可以处理这个问题。你可以使用镜像(使用像Apache Falcon这样的工具)。在这种情况下,数据存储在两个集群中。如果您希望跨具有不同表的集群进行查询而不使用镜像,那么可以使用Apache Drill这样的工具,这些工具可以连接来自不同数据源的数据。目前支持hive、mongo、json、kudu等
https://stackoverflow.com/questions/30077280
复制