在对Hive和Pig进行基准测试后,我发现Pig中的Group By运算符比Hive慢得多。我想知道是否有人经历过同样的情况?人们是否有任何技巧来提高这个操作的性能?(在这里添加一个之前的帖子建议的DISTINCT并没有帮助。我目前正在重新运行基准测试,并启用了LZO压缩)。
发布于 2013-09-04 11:50:35
看起来你看错方向了。Group By只是以某种方式对数据进行分组,这一点非常重要。在尝试分析Pig中的性能时,您应该牢记以下几点:
1)多个语句可以合并到一个MR作业中,所以不要看这些语句,而要看生成的MR作业的性能。
2)性能上的巨大差异应该是有原因的。这可能是:
2.1不同的输入格式,基准测试Pig和Hive时的其他情况。
2.2Combiner由于某种原因被禁用:http://pig.apache.org/docs/r0.9.1/perf.html#When+the+Combiner+is+Used这在大多数情况下都是我的瓶颈。
根据我的经验,Pig/Hive的表现没有明显的区别。
https://stackoverflow.com/questions/18298486
复制