我有一个生成数十行代码的mapper类。然后通过mapreduce内部框架对此输出进行排序和合并。在这个排序之后,我只想通过reducer获得前5个要输出的记录。我怎样才能做到这一点呢?但这是不起作用的,它在输出中给出了所有记录。我想这是因为reduce类是为每个要缩减的输入行调用的,所以每次count都被初始化为0。有没有办法维护全局变量?公共类Reduce2扩展了Reducer{ int count=0;
@Ov
最重要的是,我正在做聚合。下面是我的配置单元设置,如下所示,我将使用这些设置来生成最终输出。我真的不确定如何调优查询并使其运行得更快。有没有人能分享你对此的看法?谢谢。hive.stats.fetch.partition.stats=true; set hive.tez.auto.reducer.parallelism= true;
set hive.exec.reducer