问Hive -如何在内部执行多个大表连接查询(在MapReduce中)，以及如何对其进行优化？
EN

Stack Overflow用户

提问于 2018-06-27 13:12:23

回答 1查看 575关注 0票数 1

假设我有4-5个大表(以to为单位的数据)，我想在hive中加入它们。Hive在内部(在MapReduce中)执行joins的效果如何？

hadoop

hive

mapreduce

回答 1

Stack Overflow用户

发布于 2018-06-27 13:29:46

许多大型表可以使用Bucketized Join或Sort-Merge-Join以最佳方式连接，请参阅HIVE Join strategies。所有的表都需要相应地进行结构化(以相同的方式存储桶，或者以相同的方式排序和存储)。如果您的表的组织方式不同(存储桶相同)，那么剩下的唯一选择就是随机连接，这将复制整个表(速度很慢)。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51054934

复制

相似问题

问Hive -如何在内部执行多个大表连接查询(在MapReduce中)，以及如何对其进行优化？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Hive -如何在内部执行多个大表连接查询(在MapReduce中)，以及如何对其进行优化？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Hive -如何在内部执行多个大表连接查询(在MapReduce中)，以及如何对其进行优化？
EN