CDH集群安装YARN无法正常启动及解决办法


1 文档编写目的

在安装5.11.2版本的CDH集群时,或者为5.11.2版本的CDH集群扩容时,可能会遇到YARN的NodeManager实例无法启动的问题。本文主要讲述NodeManager无法启动的原因以及如何解决该问题。

测试环境:

操作系统版本为Redhat7.2

CM和CDH版本为5.11.2

文章目录结构:

1. 文档编写目的

2. 问题描述

3. 解决方案

3.1 问题解决

3.2 相关建议

4. 总结

2 问题描述

在使用CDH5.11.2版本时,新增YARN的NodeManager角色,在启动角色实例时,出现如下异常:

查看YARN的异常日志,异常信息如下:

7月 16, 晚上10点58:42.862分 FATAL org.apache.hadoop.yarn.server.nodemanager.NodeManager Error starting NodeManagerorg.apache.hadoop.service.ServiceStateException: org.fusesource.leveldbjni.internal.NativeDB$DBException: IO error: /var/lib/hadoop-yarn/yarn-nm-recovery/yarn-nm-state/LOCK: Permission denied at org.apache.hadoop.service.ServiceStateException.convert(ServiceStateException.java:59) at org.apache.hadoop.service.AbstractService.init(AbstractService.java:172) at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartRecoveryStore(NodeManager.java:181) at org.apache.hadoop.yarn.server.nodemanager.NodeManager.serviceInit(NodeManager.java:245) at org.apache.hadoop.service.AbstractService.init(AbstractService.java:163) at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartNodeManager(NodeManager.java:562) at org.apache.hadoop.yarn.server.nodemanager.NodeManager.main(NodeManager.java:609)Caused by: org.fusesource.leveldbjni.internal.NativeDB$DBException: IO error: /var/lib/hadoop-yarn/yarn-nm-recovery/yarn-nm-state/LOCK: Permission denied at org.fusesource.leveldbjni.internal.NativeDB.checkStatus(NativeDB.java:200) at org.fusesource.leveldbjni.internal.NativeDB.open(NativeDB.java:218) at org.fusesource.leveldbjni.JniDBFactory.open(JniDBFactory.java:168) at org.apache.hadoop.yarn.server.nodemanager.recovery.NMLeveldbStateStoreService.openDatabase(NMLeveldbStateStoreService.java:944) at org.apache.hadoop.yarn.server.nodemanager.recovery.NMLeveldbStateStoreService.initStorage(NMLeveldbStateStoreService.java:931) at org.apache.hadoop.yarn.server.nodemanager.recovery.NMStateStoreService.serviceInit(NMStateStoreService.java:204) at org.apache.hadoop.service.AbstractService.init(AbstractService.java:163) ... 5 more

我在Redhat7.2操作系统上部署5.11.2版本的CDH集群以及为该版本集群扩容节点都遇到过该类问题,问题的解决方法比较简单,写这篇文章主要是想为以后规避此类问题提供一个参考。

3 解决方案

3.1 问题解决步骤

根据YARN的异常日志,可以看到提示的信息为“IO error:/var/lib/hadoop-yarn/yarn-nm-recovery/yarn-nm-state/LOCK: Permission denied”。需要登录NodeManager启动异常的节点排查问题。

1、登录bigdata29节点,查看/var/lib/hadoop-yarn/yarn-nm-recovery/目录,发现该目录为空

2、查看相关目录权限,发现hadoop-yarn目录权限为000,定位到问题

root@bigdata29:/var/lib/hadoop-yarn>ls -lrt /var/lib/ | grep hadoop-yad---------. 3 root root 4096 Jul 16 22:39 hadoop-yarn

3、更改hadoop-yarn目录权限为755

4、重启bigdata29的NodeManager角色实例,能够正常启动

3.2 相关建议

在添加NodeManager之前,在相关节点上手动创建/var/lib/hadoop-yarn目录,可以避免出现该问题。如果节点数量太多,可通过批量执行命令脚本创建目录。

4 总结

在使用CDH5.11.2版本时,新增YARN的NodeManager角色,可能会出现/var/lib/hadoop-yarn/目录权限为000的问题,出现该问题时,需要将目录权限改为755,然后重启NodeManager。要避免该问题可以提前创建/var/lib/hadoop-yarn/

原文发布于微信公众号 - Hadoop实操(gh_c4c535955d0f)

原文发表时间:2018-08-28

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信宝典

Airflow配置和使用

Airflow能做什么 Airflow是一个工作流分配管理系统,通过有向非循环图的方式管理任务流程,设置任务依赖关系和时间调度。 Airflow独立于我们要运行...

5K60
来自专栏Hadoop实操

如何在Redhat7.4安装HDP3.0.1

7月13日,Hortonworks在其官网宣布发布HDP3.0,相关介绍可以参考Fayson昨天的文章《Hortonworks正式发布HDP3.0》,最近又更新...

1.4K50
来自专栏伦少的博客

centos7 ambari2.6.1.5+hdp2.6.4.0 大数据集群安装部署

转载请务必注明原创地址为:http://dongkelun.com/2018/04/25/ambariConf/

1.4K20
来自专栏我和未来有约会

Silverlight 3.0 中的 Local Connection

现在很多的需求中需要一个插件实例和另一个实例进行通讯。在同一个页面中调用Html、js等来通讯,而这个往往有一些限制,需要专门的去设置一些权限。在Silverl...

22570
来自专栏Hadoop实操

如何通过CM API优雅的获取元数据库密码

人啊,上了年纪了,总容易忘记一些事情,比如你一不小心就忘记了CDH集群Hive,Hue和Sentry服务的元数据库密码,对于数据库(MySQL/Oracle/P...

912130
来自专栏开发 & 运维分享

Zookeeper学习——安装与配置

docker的使用我们可以顺便提下。首先docker容器需要在运行一个dockerd的进程作为daemon进程,那我们首先以centos为例安装并启动docke...

19510
来自专栏乐沙弥的世界

配置共享服务器模式

两者完成相同的任务,即处理所有指定的SQL操作。假定从客户端提交一个任意查询(DQL)到数据库服务器不论是专用模式还是共享

30730
来自专栏分布式系统进阶

Kafka源码分析-网络层-3

上面的id即为我们在上篇介绍的非常重要的ConnectionId; (2) connect: 使用nio的SocketChannel连接到给定的地址,并且注册...

11820
来自专栏技术碎碎念

Tomcat NIO

说起Tomcat的NIO,不得不提的就是Connector这个Tomcat组件。Connector是Tomcat的连接器,其主要任务是负责处理收到的请求,并创建...

71260
来自专栏芋道源码1024

分布式作业 Elastic-Job-Lite 源码分析 —— 注册中心监听器

在《Elastic-Job-Lite 源码分析 —— 作业初始化》「3.2.4」注册作业启动信息,我们看到作业初始化时,会开启所有注册中心监听器:

21840

扫码关注云+社区

领取腾讯云代金券