首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Hive -如何在内部执行多个大表连接查询(在MapReduce中),以及如何对其进行优化?

Hive -如何在内部执行多个大表连接查询(在MapReduce中),以及如何对其进行优化?
EN

Stack Overflow用户
提问于 2018-06-27 13:12:23
回答 1查看 575关注 0票数 1

假设我有4-5个大表(以to为单位的数据),我想在hive中加入它们。Hive在内部(在MapReduce中)执行joins的效果如何?

EN

回答 1

Stack Overflow用户

发布于 2018-06-27 13:29:46

许多大型表可以使用Bucketized Join或Sort-Merge-Join以最佳方式连接,请参阅HIVE Join strategies。所有的表都需要相应地进行结构化(以相同的方式存储桶,或者以相同的方式排序和存储)。如果您的表的组织方式不同(存储桶相同),那么剩下的唯一选择就是随机连接,这将复制整个表(速度很慢)。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51054934

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档