假设我有4-5个大表(以to为单位的数据),我想在hive中加入它们。Hive在内部(在MapReduce中)执行joins的效果如何?
发布于 2018-06-27 13:29:46
许多大型表可以使用Bucketized Join或Sort-Merge-Join以最佳方式连接,请参阅HIVE Join strategies。所有的表都需要相应地进行结构化(以相同的方式存储桶,或者以相同的方式排序和存储)。如果您的表的组织方式不同(存储桶相同),那么剩下的唯一选择就是随机连接,这将复制整个表(速度很慢)。
https://stackoverflow.com/questions/51054934
复制相似问题