我目前正在做一个使用Hadoop的项目。我们正处于项目的开始阶段。
首先,我有一个关系数据库的50个表。我们提取它们,然后在HDFS上输出。现在,我们希望将引用数据去规范化为“大表”(只有3-4个文件)。我想我会用地图缩减来完成这项工作。我知道我怎么能用小桌子,但是用大桌子.
例如,我有一个包含数百万条目的表“票证”,还有一个由150亿个条目组成的表"Lign“的联接。我必须把他们去杀了。
我的问题是,是否有任何方法或最佳做法?
提前谢谢你,安格利克
发布于 2014-03-19 19:42:53
考虑到Hadoop集群上肯定可以使用的其他工具,编写joins来执行MR中的去正化将是一个耗时的过程,可能不值得付出努力。
由于您已经为表提供了DDL,并且数据是结构化的,所以我推荐的最佳方法是使用Hive而不是原始的MapReduce。你会省下很多时间和问题。
https://stackoverflow.com/questions/22507517
复制相似问题