前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Yarn知识点整理

Yarn知识点整理

作者头像
大数据梦想家
发布2021-01-27 16:00:30
5470
发布2021-01-27 16:00:30
举报

前段时间记录了技术博客Yarn快速入门系列(1-5),详情请见Yarn专栏。最近打算花点时间把Yarn也精炼一番,整理出来,以便于后期的快速复习。

在这里插入图片描述
在这里插入图片描述

1、什么是Yarn

Yarn是通用资源管理系统和调度平台

2、Yarn特点

1、支持多计算框架 2、资源利用率高,运行成本低,数据共享

3、Yarn的意义

降低了企业硬件的成本(多个集群变成一个集群),减少了资源的浪费,运营成本低。

4、Yarn基本组成

ResourceManager:一个集群资源调度的管理者

NodeManager:一个节点资源调度的管理者(集群各个节点资源的工作者)

ApplicationMaster:一个计算任务的管理者

Container:容器(cpu和内存)

5、Yarn提交任务的流程

在这里插入图片描述
在这里插入图片描述

1、client向RM提交应用程序,其中包括启动该应用的ApplicationMaster的必须信息,例如ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。

2、ResourceManager启动一个container用于运行ApplicationMaster

3、启动中的ApplicationMaster向ResourceManager注册自己,启动成功后与RM保持心跳。

4、ApplicationMaster向ResourceManager发送请求,申请相应数目的container。

5、申请成功的container,由ApplicationMaster进行初始化。container的启动信息初始化后,AM与对应的NodeManager通信,要求NM启动container。

6、NM启动启动container。

7、container运行期间,ApplicationMaster对container进行监控。container通过RPC协议向对应的AM汇报自己的进度和状态等信息。

8、应用运行结束后,ApplicationMaster向ResourceManager注销自己,并允许属于它的container被收回。

6、Yarn的调度方式

FIFO Scheduler : 先进先出(先来后到的顺序)

Capacity Scheduler:容量调度

Fair Scheduler:公平调度

1、先进先出:优先提交的,优先执行,后面提交的等待。(火车过隧道)。

2、容量调度:允许创建多个任务对列,每个队列使用所有资源的一部分。多个任务对列可以同时执行。但是一个队列内部还是先进先出。CDH默认的调度器。

3、公平调度:第一个程序在启动时可以占用其他对列的资源(100%占用),当其他对列有任务提交时,占用资源的对列需要将资源还给该任务。还资源的时候,效率比较慢。

7、参数yarn.scheduler.fair.allow-undeclared-pools的作用是?(true/false)

如果提交一个任务没有到任何的队列,是否允许创建一个新的队列,默认为true

8、参数yarn.scheduler.fair.user-as-default-queue的作用是?(true/false)

是否提交到默认队列 ,以用户名为默认队列

9、介绍一下hadoopHA

1、HadoopHA 包括两个部分,NameNodeHA和ResourceManagerHA

2、hadoop HA解决了早期版本中的NameNode单点问题。YarnHA解决了ResourceManager的单点问题

3、NameNodeHA方案中包含两个NameNode,一个是Active状态,一个是StandBy状态。每个NameNode分配在两个完全独立的服务器中。每个Namenode所在的节点需配置一个ZKFC。

4、两个Namenode之间的元数据同步使用JN(JournalNode )传递。

10、ZKFC作用:

监控NameNode所在节点的硬件设备,软件,操作系统,同时维护与ZK的通信。主要用于两个NameNode之间状态切换时的信息传递。

11、NameNode 中 Active状态和StandBy状态的确认:

两个NameNode到ZooKeeper集群注册一个临时的ZNode,哪个先注册成功,哪个就是Active,另外一个就是StandBy。

12、ActiveNameNode宕机之后故障如何转移

当ActiveNN节点故障 ——>

ActiveZKFC通知ZK删除临时ZNode ——>

StandBy状态的ZKFC订阅这个临时ZNode的变换,若ZNode消失,StandBy状态的ZKCF立刻通知StandBy NN ——>

StandBy NN 远程登录ActiveNN,执行Kill -9 ActiveNN ——>

StandBy NN通知StandBy ZKFC去ZK上注册临时ZNode,注册成功切换为active状态。

13、两个NameNode之间的元数据信息如何实现快速同步?

ActiveNameNode实时将FSimage和日志接入JournalNode(高效的存储系统)。StandByNameNode实时获取JournalNode内部的数据,实现两个节点的实时元数据同步。

在这里插入图片描述
在这里插入图片描述

本篇的知识分享就到这里,受益或对大数据技术感兴趣的朋友可以关注一下我哟~

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-03-29 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、什么是Yarn
  • 2、Yarn特点
  • 3、Yarn的意义
  • 4、Yarn基本组成
  • 5、Yarn提交任务的流程
  • 6、Yarn的调度方式
  • 7、参数yarn.scheduler.fair.allow-undeclared-pools的作用是?(true/false)
  • 8、参数yarn.scheduler.fair.user-as-default-queue的作用是?(true/false)
  • 9、介绍一下hadoopHA
  • 10、ZKFC作用:
  • 11、NameNode 中 Active状态和StandBy状态的确认:
  • 12、ActiveNameNode宕机之后故障如何转移
  • 13、两个NameNode之间的元数据信息如何实现快速同步?
相关产品与服务
专用宿主机
专用宿主机(CVM Dedicated Host,CDH)提供用户独享的物理服务器资源,满足您资源独享、资源物理隔离、安全、合规需求。专用宿主机搭载了腾讯云虚拟化系统,购买之后,您可在其上灵活创建、管理多个自定义规格的云服务器实例,自主规划物理资源的使用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档