前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Yarn原理

Yarn原理

原创
作者头像
一身黑Lil
发布2024-05-07 21:23:33
690
发布2024-05-07 21:23:33
举报
文章被收录于专栏:YarnYarn

Yarn中的各个角色

在YARN中,有几个关键的角色,它们共同协作以确保集群的高效运行。以下是YARN中的主要角色及其作用:

  1. ResourceManager (RM)
  • 是YARN的核心组件,负责整个集群的资源管理和调度。
  • 接收来自客户端(如用户提交的作业)的请求。
  • 与NodeManager进行交互以监控集群的资源使用情况和任务执行状态。
  • 负责启动或监控ApplicationMaster。
  • 包含两个主要组件:调度器(Scheduler)和应用程序管理器(Applications Manager, ASM)。
  1. NodeManager (NM)
  • 运行在每个集群节点上,负责监控节点上的资源使用情况(如CPU、内存、磁盘等)。
  • 向ResourceManager报告节点的可用资源。
  • 根据ResourceManager的指令启动和停止容器(Container)。
  1. ApplicationMaster (AM)
  • 是用户提交的每个应用程序实例的框架内的“主”进程。
  • 负责与ResourceManager协商资源,并获取足够的资源来运行应用程序。
  • 与NodeManager协同工作,以分配任务到具体的节点上。
  • 负责任务的调度、监控和容错处理。
  1. Container
  • 是YARN中的资源抽象单元,表示分配给应用程序的计算资源,包括CPU、内存和磁盘等。
  • 由ResourceManager分配,由NodeManager启动和管理。
  1. Client
  • 通常指的是提交作业或任务的客户端,如用户或应用程序。
  • 通过YARN提供的API或命令行工具与ResourceManager进行交互,提交作业或任务。

这些角色在YARN中相互协作,形成一个分布式的、可伸缩的、高效的资源管理系统,用于运行大数据应用程序,如Hadoop MapReduce作业和其他类型的应用程序。

yarn的工作机制

详细流程

① 作业提交

  • 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。
  • 第2步:Client向RM申请一个作业id。
  • 第3步:RM给Client返回该job资源的提交路径和作业id。
  • 第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。
  • 第5步:Client提交完资源后,向RM申请运行MrAppMaster。

② 作业初始化

  • 第6步:当RM收到Client的请求后,将该job添加到容量调度器中。
  • 第7步:某一个空闲的NM领取到该Job。
  • 第8步:该NM创建Container,并产生MRAppmaster。
  • 第9步:下载Client提交的资源到本地。

③ 任务分配

  • 第10步:MrAppMaster向RM申请运行多个MapTask任务资源。
  • 第11步:RM将运行MapTask任务分配给另外两个NodeManager,另两个NodeManager分别领取任务并创建容器。

④ 任务运行

  • 第12步:MR向两个接收到任务的NodeManager发送程序启动脚本,这两个NodeManager分别启动MapTask,MapTask对数据分区排序。
  • 第13步:MrAppMaster等待所有MapTask运行完毕后,向RM申请容器,运行ReduceTask。
  • 第14步:ReduceTask向MapTask获取相应分区的数据。
  • 第15步:程序运行完毕后,MR会向RM申请注销自己。

⑤ 进度和状态更新

  • YARN中的任务将其进度和状态(包括counter)返回给应用管理器, 客户端每秒(通过mapreduce.client.progressmonitor.pollinterval设置)向应用管理器请求进度更新, 展示给用户。

⑥ 作业完成

  • 除了向应用管理器请求作业进度外, 客户端每5秒都会通过调用waitForCompletion()来检查作业是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。作业完成之后, 应用管理器和Container会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Yarn中的各个角色
  • yarn的工作机制
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档