distinct(x) from table , 去重处理甚至比WordCount还要简单,假如我们要对以下文件的内容做去重处理(注:该文件也是后面几个示例的输入参数)
2
8
8
3
2
3
5
3...0
2
7
基本上啥也不用做,在map阶段,把每一行的值当成key分发下去,然后在reduce阶段回收上来就可以了....注:里面用到了一个自己写的类HDFSUtil,可以在 hadoop: hdfs API示例 一文中找到....-101这二行会默认把Mapper,Combiner,Reducer这三者的输出类型设置成相同的类型.
7) 改进型的WordCount(按词频倒排)
官网示例WordCount只统计出单词出现的次数,...并未按词频做倒排,下面的代码示例实现了该功能
1 package yjmyzz.mr;
2
3 import org.apache.hadoop.conf.Configuration;
4 import