前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop基础教程-第7章 MapReduce进阶(7.2 MapReduce工作机制)

Hadoop基础教程-第7章 MapReduce进阶(7.2 MapReduce工作机制)

作者头像
程裕强
发布2022-05-06 18:47:02
2140
发布2022-05-06 18:47:02
举报
文章被收录于专栏:大数据学习笔记

第7章 MapReduce进阶

原文地址:http://blog.csdn.net/chengyuqiang/article/details/73382034

7.2 MapReduce工作机制

本节将从作业的角度来解读一个作业时如何在MapReduce计算框架下提交、运行等。注意,在Hadoop 2.x中,MapReduce的工作机制已经被YARN的工作机制所替代。 YARN框架下的Mapreduce工作流程如下图所示:

这里写图片描述
这里写图片描述

从图中可以看出YARN运行MapReduce的过程有11个步骤,我们分别来看看:

(1) 客户端向集群提交作业,启动一个job。 (2) Job从资源管理器ResourceManager获取新的作业应用程序ID。 (3) 客户端检查作业的输出情况,计算输入分片,并将作业jar包、配置、分片信息等作业资源复制到HDFS。 (4)Job通过调用资源管理器ResourceManager的 submitApplication() 方法提交作业。 (5) ResourceManager接收到作业后,将作业请求传递给调度器。ResourceManager分配一个container,然后ResourceManager在NodeManager的管理下,在container中启动一个ApplicationMaster进程。 (6)ApplicationMaster对作业进行初始化,并保持对作业的跟踪,判断作业是否完成。 (7)ApplicationMaster根据存储在HDFS中的分片信息确定Map和Reduce的数量,获取计算出的输入分片,为每个分片创建一个map任务。并创建reduce任务。 (8)ApplicationMaster为本次作业的Map和Reduce以轮询的方式向ResourceManager申请container。master为作业向资源管理器请求一个容器来运行任务。 (9)ApplicationMaster获取到container后,与NodeManager进行通信启动container。 (10)container从HDFS中获取作业的jar包、配置和分布式缓存文件等,将任务需要的资源本地化。 (11)container启动Map或Reduce任务。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017-06-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第7章 MapReduce进阶
    • 7.2 MapReduce工作机制
    相关产品与服务
    大数据
    全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档