前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据-WordCount在一堆给定的文本文件中统计输出每一个单词出现的总次数

大数据-WordCount在一堆给定的文本文件中统计输出每一个单词出现的总次数

作者头像
cwl_java
发布2019-12-25 11:32:08
1K0
发布2019-12-25 11:32:08
举报
文章被收录于专栏:cwl_Java

3. WordCount

需求: 在一堆给定的文本文件中统计输出每一个单词出现的总次数

Step 1. 数据格式准备

1.1 创建一个新的文件
代码语言:javascript
复制
cd /export/servers 
vim wordcount.txt
1.2 向其中放入以下内容并保存
代码语言:javascript
复制
hello,world,hadoop 
hive,sqoop,flume,hello 
kitty,tom,jerry,world 
hadoop
1.3 上传到 HDFS
代码语言:javascript
复制
hdfs dfs ‐mkdir /wordcount/ 
hdfs dfs ‐put wordcount.txt /wordcount/

Step 2. Mapper

在这里插入图片描述
在这里插入图片描述

Step 3. Reducer

在这里插入图片描述
在这里插入图片描述

Step 4. 定义主类, 描述 Job 并提交 Job

代码语言:javascript
复制
    public class JobMain extends Configured implements Tool {
        @Override
        public int run(String[] args) throws Exception {
            Job job = Job.getInstance(super.getConf(), JobMain.class.getSimpleName());
            //打包到集群上面运行时候,必须要添加以下配置,指定程序的main函数 
            job.setJarByClass(JobMain.class);
            //第一步:读取输入文件解析成key,value对 
            job.setInputFormatClass(TextInputFormat.class);
            TextInputFormat.addInputPath(job, new Path("hdfs://192.168.52.250:8020/wordcount"));
            //第二步:设置我们的mapper类 
            job.setMapperClass(WordCountMapper.class);
            //设置我们map阶段完成之后的输出类型 
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(LongWritable.class);
            //第三步,第四步,第五步,第六步,省略 
            // 第七步:设置我们的reduce类 
            job.setReducerClass(WordCountReducer.class);
            //设置我们reduce阶段完成之后的输出类型 
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(LongWritable.class);
            //第八步:设置输出类以及输出路径 
            job.setOutputFormatClass(TextOutputFormat.class);
            TextOutputFormat.setOutputPath(job, new Path("hdfs://192.168.52.250:8020/wordcount_out"));
            boolean b = job.waitForCompletion(true);
            return b ? 0 : 1;
        }

        /*** 程序main函数的入口类 * @param args * @throws Exception */
        public static void main(String[] args) throws Exception {
            Configuration configuration = new Configuration();
            Tool tool = new JobMain();
            int run = ToolRunner.run(configuration, tool, args);
            System.exit(run);
        }
    }
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 3. WordCount
    • Step 1. 数据格式准备
      • Step 2. Mapper
        • Step 3. Reducer
          • Step 4. 定义主类, 描述 Job 并提交 Job
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档