MapReduce学习笔记

Meet相识

发布于 2018-09-12 16:41:29

5090

发布于 2018-09-12 16:41:29

文章被收录于专栏：技术专栏

wordcount: 统计文件中每个单词出现的次数需求：1) 文件内容小：shell2）文件内容很大：TB GB ??? 如何解决大数据量的统计分析==> url TOPN <== wc 的延伸工作中很多场景的开发都是wc的基础上进行改造的借助于分布式计算框架分而治之(input)-> map ->-> combine ->-> reduce ->(output)

核心概念

Spilt：交由MapReduce作业来处理的数据块，是MapReduce中最小的计算单元

HDFS：blocksize 是HDFS中最小的存储单元 128M

默认情况下：他们两是一一对应的，当然我们也可以手工设置他们之间的关系

InputFormat:

将我们的输入数据进行分片（Spilt）：

InputSpilt[] getSpilts(JobConf job,int numSplits) throws IOException

TextInputFormat: 处理文本格式的数据

OutputFormat:

输出

MapReduce1.x的架构

1）JobTracker:JT

作业的管理者

将作业分解成一堆的任务：Task（MapTask和ReduceTask）

将任务分派给TaskTracjer运行

作业的监控、容错处理（task作业挂了，重启task的机制）

在一定的时间间隔内，JT没有收到TT的心跳信息，TT可能是挂了，TT上运行的任务会被指派到其他TT上去执行

2）TaskTracker:TT

任务的执行者干活的

在TT上执行我们的Task（MapTask和ReduceTask和ReduceTask）

会与JT进行交互：执行/启动/停止作业，发送心跳信息给JT

3）MapTask：

自己开发的map任务交由该Task处理

解析每条记录的数据，交给自己的map方法处理

将map的输出结果写到本地磁盘（有些作业只仅有mao没有reduces==》HDFS）

4）ReduceTask

将Map Task输出的数据进行读取

按照数据进行分组chua

使用IDEA+Maven开发mc：

1) 开发

2）编译： mvn clean package -DskipTests

3）上传到服务器 docker cp target/hadoop-train-1.0-SNAPSHOT.jar hadoop000:/home/hadoop/lib

4）运行

hadoop jar /home/hadoop/lib/hadoop-train-1.0-SNAPSHOT.jar com.gwf.hadoop.mapreduce.WordCountApp

hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/output/wc

相同的diam和脚本再次执行，会报错

security.UserGroupInformation:

PriviledgedActionException as:hadoop (auth:SIMPLE) cause:

org.apache.hadoop.mapred.FileAlreadyExistsException:

Output directory hdfs://hadoop000:8020/output/wc already exists

Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException:

Output directory hdfs://hadoop000:8020/output/wc already exists

在MR中，输出文件是不能事先存在的

1）先手工通过shell的方式将输出文件夹先删除

hadoop fs -rm -r /output/wc

Combiner

hadoop jar /home/hadoop/lib/hadoop-train-1.0-SNAPSHOT.jar com.gwf.hadoop.mapreduce.CombinerApp

hdfs://hadoop000:8020/hello.txt hdfs://hadoop000:8020/output/wc

使用场景：

求和、次数 +

平均是 X

Paritioner

hadoop jar /home/hadoop/lib/hadoop-train-1.0-SNAPSHOT.jar com.gwf.hadoop.mapreduce.ParitionerApp

hdfs://hadoop000:8020/paritioner hdfs://hadoop000:8020/output/wc

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018.03.25 ，如有侵权请联系 cloudcommunity@tencent.com 删除

mapreduce

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

MapReduce学习笔记

MapReduce学习笔记

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐