首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ResourceManager剖析

一:概述 1.1 ResourceManager基本职能 ResourceManager需通过两个RPC协议与NodeManager和ApplicationMaster交互,具体如下: ResourceTracker...:NodeManager通过该RPC协议向ResourceManager注册、汇报节点健康状况和Container运行状态,并领取ResourceManager下达的命令,这些命令包括重新初始化、清理Container...等,在该RPC协议中,NodeManager与ResourceManager之间采用了“pull模型”,NodeManager总是周期性地主动向ResourceManager发起请求,并通过心跳应答领取下达给自己得命令...:应用程序的客户端通过该RPC协议向ResourceManager提交应用程序、查询应用程序状态和控制应用程序(比如杀死应用程序和修改应用程序优先级)等 ContainerManagementProtocol...:ApplicationMaster通过该RPC协议要求NodeManager启动、停止Container和获得Containers的状态 概括起来,ResourceManager主要完成以下几个功能

65320
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Yarn ResourceManager 主备切换

    问题描述及原因:当前处于 Active 状态的 ResourceManager 转成 StandBy 状态,原先处于 StandBy 状态的 ResourceManager 转成 Active 状态Yarn...ResourceManager 主备切换 / 持续主备切换可能影响:YARN 服务无响应作业无法提交无法查看当前任务状态处理建议:分析日志查看监控排查切换原因,分场景解决 场景1 新增或变革参数无效...YARN ResourceManager日志搜索关键字 "Error" 或新变更参数,若存在则需要参考社区官网参数配置 场景2 RM多任务并发运行出现频繁主备切换 YARN ResourceManager...场景3 UI响应慢历史任务查询多 参数yarn.resourcemanager.max-completed-applications(RM保存完成任务的最大数目)设置值过大(5000+,EMR默认值150...数据过大,前台显示缓慢/历史任务查询多也会给resourcemanager带来不必要的压力和性能瓶颈。建议值保留平均每天作业数的7倍左右就可以。

    2.2K60

    0831-5.15.1-ResourceManager卡住导致集群job无法提交异常分析

    4)、查看 ResourceManager图表出现 GC ? 问题发生时候 ResourceManager GC time很长,达到9s。 ?...过去7天 ResourceManager 的JVM使用也比较恒定,没有达到ResourceManager JVM配置的4GB峰值。 ?...4、结合前面9月10日也看到ResourceManager的GC time异常增大的现象,于是尝试结合9月10日的ResourceManager 日志提取更多有效信息。...查看9月15日问题发生时间点和9月10日ResourceManager GC time异常增大时间点时候ResourceManager的日志, 发现都有如下异常【4】,此异常说明ResourceManager...默认控制ResourceManager从Zookeeper读取数据次数的参数是yarn.resourcemanager.zk-num-retries,默认控制每次的读取时间参数是yarn.resourcemanager.zk-retry-interval-ms

    1.3K20

    ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析

    环境 Hadoop版本:Apache Hadoop 2.6.3 ZooKeeper版本:ZooKeeper 3.4.10 两个ResourceManager节点:主节点RM01,从节点RM02 背景...最近有一次我们的Hadoop监控平台发出ResourceManager(以下简称RM)崩溃的报警信息,于是我们分析了RM的日志和ZooKeeper服务端(以下简称ZK)的日志,异常日志信息分别如下: RM...日志 RM01的异常日志如下: 2019-03-03 02:33:01,826 INFO org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore...2019-03-03 02:33:02,201 ERROR org.apache.hadoop.yarn.server.resourcemanager.recovery.RMStateStore: Error...,还有如下两个重要属性: yarn.resourcemanager.zk-num-retries:表示RM与ZK的连接丢失后,尝试与ZK建立连接的次数,我们线上默认是1000 yarn.resourcemanager.zk-retry-interval-ms

    3.1K41

    ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析(二)

    以下是整个排查过程和解决方案: 一、问题说明 从8月8日早上8点12收到第一条ResourceManager服务异常报警,截止到8月11日早上8点,每天早上8点到8点12之间频繁出现ResourceManager...以下是SpaceX统计出的ResourceManager状态异常次数数据: ?...(2)启用YARN高可用: 受yarn.resourcemanager.zk-timeout-ms(ZK会话超时时间)和yarn.resourcemanager.zk-num-retries(操作失败后重试次数...)参数控制,计算公式为: 重试时间间隔(yarn.resourcemanager.zk-retry-interval-ms )=yarn.resourcemanager.zk-timeout-ms(ZK...五、参考资料 yarn ResourceManager Active频繁易主问题排查 YARN源码分析(三)-----ResourceManager HA之应用状态存储与恢复 YARN官方issue:

    2.5K20

    ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析(三)

    这个问题又让我们碰到了,发生次数不频繁但是一旦发生就会造成ResourceManager服务崩溃、ZK注册watch过多等问题。...前两次解决和分析该问题的记录如下: ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析 ZooKeeper节点数据量限制引起的Hadoop YARN...ResourceManager崩溃原因分析(二) 环境 Hadoop版本:Apache Hadoop 2.6.3 ZooKeeper版本:ZooKeeper 3.4.10 两个ResourceManager...ResourceManager也不会保存已经分配给每个ApplicationMaster的资源信息和每个NodeManager的资源使用信息,这些均可通过相应的心跳汇报机制重构出来。...因此,ResourceManager的HA实现是非常轻量级的。

    2.2K60

    Hadoop on Yarn 各组件详细原理

    ResourceManager 组件  弄了一个大大的ResourceManager,醒目吧哈哈- -,扯淡到此为止,ResourceManager是Master,仲裁集群所有的可用资源,从而帮助管理运行在...(就是我们在集群配置中加入的web.address) 二、应用程序与ResourceManager的通信   一旦应用程序通过ResourceManager中的面向客户端的服务,它就会穿过ResourceManager...三、节点和ResourceManager 通信   下列是ResourceManager的组件和运行在集群节点上的NodeManager进行通信。   ...1、ResourceManager Tracker Service   NodeManager发送心跳给ResourceManagerResourceManager的该组件负责相应来自所有节点的RPC...整个作业大体总体运行流程: 1、应用程序提交给ResourceManager。 2、ApplicationMaster启动,并向ResourceManager注册。

    82410

    Hadoop如何使用Zookeeper来保障高可用?

    从图中就可以看出 ResourceManager 的地位非常重要,负责集群中所有资源的管理分配,与其他部分进行沟通协作,所以,ResourceManager必须是高可用的。...当active的ResourceManager坏掉后,standby的ResourceManager怎么自动变为active 实现方式 选主 所有 ResourceManager在启动时,都去 zookeeper...,选出一个新的 主ResourceManager。...当前任 主ResourceManager 缓过来之后,问题就产生了,他认为自己还是主,去进行数据修改等操作,这就发生了冲突,有两个 主ResourceManager 在同时工作。...这样,假死后复生的那个 ResourceManager 会发现锁被换掉了,就知道有了新的 主ResourceManager,自动切换为 standby 状态。

    1.4K60
    领券