前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop实战第一篇

Hadoop实战第一篇

作者头像
云海谷天
发布2022-08-09 14:00:09
4010
发布2022-08-09 14:00:09
举报
文章被收录于专栏:技术一点点成长

前言:    都说现在是草根为尊的时代,近年来hadoop及spark技术在国内越来越流行。而且渐渐现成为企业的新宠。在DT时代全面来临之前,能提早接触大数据的技术必然能先人一步。本文作为Hadoop系列的第一篇,将HDFS和MapRed两个技术核心用2个实例简单实现一些,希望能供hadoop入门的朋友些许参考。

--HDFS

代码语言:javascript
复制
 1 import java.io.IOException;
 2 
 3 import org.apache.hadoop.conf.Configuration;
 4 import org.apache.hadoop.fs.FileSystem;
 5 import org.apache.hadoop.fs.Path;
 6 
 7 public class  HDFStest {
 8     final static String P_IN="hdfs://hadoop0:9000/data";
 9     final static String P_F1="hdfs://hadoop0:9000/a.txt";
10     
11     
12     public static void main(String[] args) throws IOException {
13         
14         FileSystem fileSystem = FileSystem.get(new Configuration());
15         System.out.println("make diretory:");
16         fileSystem.mkdirs(new Path(P_IN));
17         System.out.println("judgy if exist 'File':");
18         System.out.println(fileSystem.exists(new Path(P_F1)));
19 
20     }
21 
22 }

--MapReduce

实现文本单词出现次数的统计:

代码语言:javascript
复制
 1 import org.apache.hadoop.conf.Configuration;
 2 import org.apache.hadoop.fs.Path;
 3 import org.apache.hadoop.io.LongWritable;
 4 import org.apache.hadoop.io.Text;
 5 import org.apache.hadoop.mapreduce.Job;
 6 import org.apache.hadoop.mapreduce.Mapper;
 7 import org.apache.hadoop.mapreduce.Reducer;
 8 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
 9 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
10 
11 
12 
13 public class WC {
14     
15     static String INPUT="hdfs://hadoop0:9000/hello";
16     static String OUTPUT="hdfs://hadoop0:9000/output";
17     
18     public static void main(String[] args) throws Exception{
19         
20         
21         Job job = new Job(new Configuration(),WC.class.getSimpleName());
22         job.setMapperClass(MyMapper.class);
23         job.setReducerClass(MyReducer.class);
24         job.setJarByClass(WC.class);
25         //输出结果格式
26         job.setMapOutputKeyClass(Text.class);;
27         job.setMapOutputValueClass(LongWritable.class);
28         job.setOutputKeyClass(Text.class);
29         job.setOutputValueClass(LongWritable.class);
30         //路径设置
31         FileInputFormat.setInputPaths(job, INPUT);
32         FileOutputFormat.setOutputPath(job, new Path(OUTPUT));
33         //waitfor
34         job.waitForCompletion(true);
35         
36     }
37     
38     static class MyMapper extends Mapper<LongWritable, Text,Text,LongWritable >{
39         
40         @Override
41         protected void map(LongWritable key, Text value,
42                 Mapper<LongWritable, Text, Text, LongWritable>.Context context)
43                 throws IOException, InterruptedException {
44 
45             String[] words = value.toString().split(" ");
46             for(String word:words){
47                 context.write(new Text(word), new LongWritable(1));
48             }
49         }
50     }
51     static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{
52         
53         @Override
54         protected void reduce(Text arg0, Iterable<LongWritable> arg1,Context context)
55                 throws IOException, InterruptedException {
56 
57             Long sum=0L;
58             for(LongWritable c:arg1){
59                 sum += c.get();
60             }
61             context.write(arg0,new LongWritable(sum));
62         }
63     }
64 }

以上代码相对简单,map读取到一行“Text”之后通过字符串切分函数split()得到各个单词,每个单词出现一次计数为1:

Reduce操作,实际就是一个集合元素累计的操作:

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2015-08-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档