首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用Hadoop实现非规范化

用Hadoop实现非规范化
EN

Stack Overflow用户
提问于 2014-03-19 13:32:30
回答 1查看 1.6K关注 0票数 0

我目前正在做一个使用Hadoop的项目。我们正处于项目的开始阶段。

首先,我有一个关系数据库的50个表。我们提取它们,然后在HDFS上输出。现在,我们希望将引用数据去规范化为“大表”(只有3-4个文件)。我想我会用地图缩减来完成这项工作。我知道我怎么能用小桌子,但是用大桌子.

例如,我有一个包含数百万条目的表“票证”,还有一个由150亿个条目组成的表"Lign“的联接。我必须把他们去杀了。

我的问题是,是否有任何方法或最佳做法?

提前谢谢你,安格利克

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-03-19 19:42:53

考虑到Hadoop集群上肯定可以使用的其他工具,编写joins来执行MR中的去正化将是一个耗时的过程,可能不值得付出努力。

由于您已经为表提供了DDL,并且数据是结构化的,所以我推荐的最佳方法是使用Hive而不是原始的MapReduce。你会省下很多时间和问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22507517

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档