Hadoop YARN学习之组件功能简述(3)

Hadoop YARN学习之组件功能简述(3)

1. YARN的三大组件功能简述:

  • ResourceManager(RM)是集群的资源的仲裁者,
    • 它有两部分:一个可插拔的调度器和一个ApplicationManager,用于管理集群中的用户作业。
  • NodeManager,位于每个节点上,管理该节点上用户作业和工作流。
  • ApplicationMaster,用户作业生命周期管理者。
    • 是用户应用程序驻留的地方。

2. 三大组件构成了一个可扩展的、灵活的、高效的环境,来运行各种类型的大数据处理作业。

3. 组件功能协作简述

  • ResourceManager动态的分配特定节点来运行应用程序。
  • Container是绑定到特定集群节点的一组资源逻辑组合(如内存、核)
  • 为了执行和跟踪这些资源分配,ResourceManager与运行在每个节点上的NodeManager进程交互。
  • 基于可扩展性的需求,ResourceManager和NodeManager之间通过心跳来通信。
  • NodeManager负责本地可以资源的监控,故障报告以及Container生命周期的管理(如杀死和启动作业)。ResourceManager依赖NodeManager来维护集群的全局视图。

4. YARN调度组件

  • YARN有一个可插拔的调度器组件,根据不同的使用场景和用户需求,管理员可以选择简单的FIFO(先进先出),Capacity或者Fair Share Schedule。
    • FIFO先进先出
    • Capacity,允许多个组安全地共享一个大规模Hadoop集群。
    • Fair,公平调度器是将资源公平分配给应用的方法,使得所用在平均情况下随着时间的到相等的份额。
      • YARN Fair的新特性支持层次化队列。
    • YARN默认为Capacity调度组件

5. 在YARN中,MapReduce不再是工作流中的一部分,因为它只是一种ApplicationMaster控制的应用程序框架,在YARN环境下,其他框架已经可以使用或者正在开发中。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏叁金大数据

HDFS你一定要知道,要考的

前面我们分析存储方案的发展的时候有提到分布式文件存储的出现是为了解决存储的三大问题:可扩展性,高吞吐量,高可靠性

711
来自专栏Spark学习技巧

关于Spark Streaming感知kafka动态分区的问题

本文主要是讲解Spark Streaming与kafka结合的新增分区检测的问题。读本文前关于kafka与Spark Streaming结合问题请参考下面两篇文...

874
来自专栏java架构师

Hadoop总结篇之二--yarn的概况

在弄清楚yarn是什么之前,先来看一下MRv1。 它的由编程模型+数据处理引擎(map/reduceTask)+运行时环境组成(JobTracker/TaskT...

33111
来自专栏美图数据技术团队

Spark on Yarn | Spark,从入门到精通

欢迎阅读美图数据技术团队的「Spark,从入门到精通」系列文章,本系列文章将由浅入深为大家介绍 Spark,从框架入门到底层架构的实现,相信总有一种姿势适合你,...

841
来自专栏YG小书屋

Yarn与Mesos

Yarn是Hadoop2的产物。提到这个问题就不得不说下Hadoop1与Hadoop2的差别。详细的内容可参考博客:https://blog.csdn.net/...

723
来自专栏个人分享

大数据全体系年终总结

  1、文件存储当然是选择Hadoop的分布式文件系统HDFS,当然因为硬件的告诉发展,已经出现了内存分布式系统Tachyon,不论是Hadoop的MapRed...

984
来自专栏Spark学习技巧

Spark Structured Streaming的高效处理-RunOnceTrigger

传统意义上,当人们想到流处理时,诸如”实时”,”24*7”或者”always on”之类的词语就会浮现在脑海中。生产中可能会遇到这种情况,数据仅仅会在固定间隔到...

2338
来自专栏hadoop学习笔记

Hadoop体系结构中的服务解决介绍

翻了一下最近一段时间写的分享,DKHadoop发行版本下载、安装、运行环境部署等相关内容几乎都已经写了一遍了。虽然有的地方可能写的不是很详细,个人理解水平有限还...

1114
来自专栏用户画像

Hadoop的前世今生

HADOOP DISTRIBUTED FILE SYSTEM,简称HDFS,是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高度的...

843
来自专栏搜云库

HBase 深入浅出

HBase 深入浅出 HBase 在大数据生态圈中的位置 提到大数据的存储,大多数人首先联想到的是 Hadoop 和 Hadoop 中的 HDFS 模块。大家熟...

2269

扫码关注云+社区