首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ResourceManager剖析

一:概述 1.1 ResourceManager基本职能 ResourceManager需通过两个RPC协议与NodeManager和ApplicationMaster交互,具体如下: ResourceTracker...:NodeManager通过该RPC协议向ResourceManager注册、汇报节点健康状况和Container运行状态,并领取ResourceManager下达的命令,这些命令包括重新初始化、清理Container...等,在该RPC协议中,NodeManager与ResourceManager之间采用了“pull模型”,NodeManager总是周期性地主动向ResourceManager发起请求,并通过心跳应答领取下达给自己得命令...:应用程序的客户端通过该RPC协议向ResourceManager提交应用程序、查询应用程序状态和控制应用程序(比如杀死应用程序和修改应用程序优先级)等 ContainerManagementProtocol...:ApplicationMaster通过该RPC协议要求NodeManager启动、停止Container和获得Containers的状态 概括起来,ResourceManager主要完成以下几个功能

63020
您找到你想要的搜索结果了吗?
是的
没有找到

Yarn ResourceManager 主备切换

问题描述及原因:当前处于 Active 状态的 ResourceManager 转成 StandBy 状态,原先处于 StandBy 状态的 ResourceManager 转成 Active 状态Yarn...ResourceManager 主备切换 / 持续主备切换可能影响:YARN 服务无响应作业无法提交无法查看当前任务状态处理建议:分析日志查看监控排查切换原因,分场景解决 场景1 新增或变革参数无效...YARN ResourceManager日志搜索关键字 "Error" 或新变更参数,若存在则需要参考社区官网参数配置 场景2 RM多任务并发运行出现频繁主备切换 YARN ResourceManager...场景3 UI响应慢历史任务查询多 参数yarn.resourcemanager.max-completed-applications(RM保存完成任务的最大数目)设置值过大(5000+,EMR默认值150...数据过大,前台显示缓慢/历史任务查询多也会给resourcemanager带来不必要的压力和性能瓶颈。建议值保留平均每天作业数的7倍左右就可以。

2.1K60

0831-5.15.1-ResourceManager卡住导致集群job无法提交异常分析

4)、查看 ResourceManager图表出现 GC ? 问题发生时候 ResourceManager GC time很长,达到9s。 ?...过去7天 ResourceManager 的JVM使用也比较恒定,没有达到ResourceManager JVM配置的4GB峰值。 ?...4、结合前面9月10日也看到ResourceManager的GC time异常增大的现象,于是尝试结合9月10日的ResourceManager 日志提取更多有效信息。...查看9月15日问题发生时间点和9月10日ResourceManager GC time异常增大时间点时候ResourceManager的日志, 发现都有如下异常【4】,此异常说明ResourceManager...默认控制ResourceManager从Zookeeper读取数据次数的参数是yarn.resourcemanager.zk-num-retries,默认控制每次的读取时间参数是yarn.resourcemanager.zk-retry-interval-ms

1.3K20

ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析

环境 Hadoop版本:Apache Hadoop 2.6.3 ZooKeeper版本:ZooKeeper 3.4.10 两个ResourceManager节点:主节点RM01,从节点RM02 背景...最近有一次我们的Hadoop监控平台发出ResourceManager(以下简称RM)崩溃的报警信息,于是我们分析了RM的日志和ZooKeeper服务端(以下简称ZK)的日志,异常日志信息分别如下: RM...日志 RM01的异常日志如下: 2019-03-03 02:33:01,826 INFO org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore...2019-03-03 02:33:02,201 ERROR org.apache.hadoop.yarn.server.resourcemanager.recovery.RMStateStore: Error...,还有如下两个重要属性: yarn.resourcemanager.zk-num-retries:表示RM与ZK的连接丢失后,尝试与ZK建立连接的次数,我们线上默认是1000 yarn.resourcemanager.zk-retry-interval-ms

3K41

ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析(二)

以下是整个排查过程和解决方案: 一、问题说明 从8月8日早上8点12收到第一条ResourceManager服务异常报警,截止到8月11日早上8点,每天早上8点到8点12之间频繁出现ResourceManager...以下是SpaceX统计出的ResourceManager状态异常次数数据: ?...(2)启用YARN高可用: 受yarn.resourcemanager.zk-timeout-ms(ZK会话超时时间)和yarn.resourcemanager.zk-num-retries(操作失败后重试次数...)参数控制,计算公式为: 重试时间间隔(yarn.resourcemanager.zk-retry-interval-ms )=yarn.resourcemanager.zk-timeout-ms(ZK...五、参考资料 yarn ResourceManager Active频繁易主问题排查 YARN源码分析(三)-----ResourceManager HA之应用状态存储与恢复 YARN官方issue:

2.4K20

ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析(三)

这个问题又让我们碰到了,发生次数不频繁但是一旦发生就会造成ResourceManager服务崩溃、ZK注册watch过多等问题。...前两次解决和分析该问题的记录如下: ZooKeeper节点数据量限制引起的Hadoop YARN ResourceManager崩溃原因分析 ZooKeeper节点数据量限制引起的Hadoop YARN...ResourceManager崩溃原因分析(二) 环境 Hadoop版本:Apache Hadoop 2.6.3 ZooKeeper版本:ZooKeeper 3.4.10 两个ResourceManager...ResourceManager也不会保存已经分配给每个ApplicationMaster的资源信息和每个NodeManager的资源使用信息,这些均可通过相应的心跳汇报机制重构出来。...因此,ResourceManager的HA实现是非常轻量级的。

2.1K60

Hadoop on Yarn 各组件详细原理

ResourceManager 组件  弄了一个大大的ResourceManager,醒目吧哈哈- -,扯淡到此为止,ResourceManager是Master,仲裁集群所有的可用资源,从而帮助管理运行在...(就是我们在集群配置中加入的web.address) 二、应用程序与ResourceManager的通信   一旦应用程序通过ResourceManager中的面向客户端的服务,它就会穿过ResourceManager...三、节点和ResourceManager 通信   下列是ResourceManager的组件和运行在集群节点上的NodeManager进行通信。   ...1、ResourceManager Tracker Service   NodeManager发送心跳给ResourceManagerResourceManager的该组件负责相应来自所有节点的RPC...整个作业大体总体运行流程: 1、应用程序提交给ResourceManager。 2、ApplicationMaster启动,并向ResourceManager注册。

80910

Hadoop如何使用Zookeeper来保障高可用?

从图中就可以看出 ResourceManager 的地位非常重要,负责集群中所有资源的管理分配,与其他部分进行沟通协作,所以,ResourceManager必须是高可用的。...当active的ResourceManager坏掉后,standby的ResourceManager怎么自动变为active 实现方式 选主 所有 ResourceManager在启动时,都去 zookeeper...,选出一个新的 主ResourceManager。...当前任 主ResourceManager 缓过来之后,问题就产生了,他认为自己还是主,去进行数据修改等操作,这就发生了冲突,有两个 主ResourceManager 在同时工作。...这样,假死后复生的那个 ResourceManager 会发现锁被换掉了,就知道有了新的 主ResourceManager,自动切换为 standby 状态。

1.4K60

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券