前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >0606-6.1.0-NodeManager丢失文件启动失败异常分析

0606-6.1.0-NodeManager丢失文件启动失败异常分析

作者头像
Fayson
发布2019-05-07 15:10:16
1.8K0
发布2019-05-07 15:10:16
举报
文章被收录于专栏:Hadoop实操

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。

Fayson的github: https://github.com/fayson/cdhproject

提示:代码块部分可以左右滑动查看噢

1

问题重现

  • 测试环境

1.CDH6.1

2.Redhat7.4

3.集群未启用Kerberos

1.集群有一台服务器的NodeManager服务器启动失败,查看日志有如下报错:

代码语言:javascript
复制
Service NodeManager failed in state INITED; cause: org.apache.hadoop.service.ServiceStateException: org.fusesource.leveldbjni.internal.NativeDB$DBException: Corruption: 1 missing files; e.g.: /var/lib/hadoop-yarn/yarn-nm-recovery/yarn-nm-state/000005.sst
org.apache.hadoop.service.ServiceStateException: org.fusesource.leveldbjni.internal.NativeDB$DBException: Corruption: 1 missing files; e.g.: /var/lib/hadoop-yarn/yarn-nm-recovery/yarn-nm-state/000005.sst
    at org.apache.hadoop.service.ServiceStateException.convert(ServiceStateException.java:105)
    at org.apache.hadoop.service.AbstractService.init(AbstractService.java:173)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartRecoveryStore(NodeManager.java:282)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.serviceInit(NodeManager.java:343)
    at org.apache.hadoop.service.AbstractService.init(AbstractService.java:164)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartNodeManager(NodeManager.java:838)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.main(NodeManager.java:911)

2.重启该NodeManager服务多次以后仍旧报相同的错误。

2

问题解决

1.备份该NodeManager节点上的

/var/lib/hadoop-yarn/yarn-nm-recovery/yarn-nm-state目录:

代码语言:javascript
复制
[root@cdh03 hadoop-yarn]# tar cvzf nmstate.tar.gz /var/lib/hadoop-yarn/yarn-nm-recovery/yarn-nm-state/*

2.删除该NodeManager节点上的

/var/lib/hadoop-yarn/yarn-nm-recovery/yarn-nm-state目录:

代码语言:javascript
复制
[root@cdh03 hadoop-yarn]# rm -rf /var/lib/hadoop-yarn/yarn-nm-recovery/yarn-nm-state

3.再次重启该NodeManager服务

启动成功,问题解决!

3

总结

1.NodeManager服务如果因为意外关闭会导致在运行的container都关闭,当NodeManager重启成功后,NodeManager会重新启动container进程,但为了能获取到之前的container的状态,NodeManager会将container的状态保存到本地的文件系统。主要通过以下2个参数来控制:

代码语言:javascript
复制
yarn.nodemanager.recovery.enabled
在CDH中,默认是true即启用NodeManager该特性。

--NodeManager 恢复目录
yarn.nodemanager.recovery.dir --启用恢复时 NodeManager 在其中存储状态的本地文件系统目录。默认情况下已启用恢复。

在CDH中默认:/var/lib/hadoop-yarn/yarn-nm-recovery

2.对于本文提到的异常,即NodeManager用于保存container状态的文件损坏或者丢失,根本原因还有待确认,据说在YARN上有任务运行时,如果NodeManager所在节点的服务器重启,有可能导致该问题。

3.本文是采用删除恢复目录的方式来修复该问题,你也可以通过在CM中禁用恢复功能来解决:

a).通过CM进入YARN服务;

b).选择“配置”,搜索yarn-site

c).在YARN Service Advanced Configuration Snippet (Safety Valve) for yarn-site.xml中添加以下内容:

代码语言:javascript
复制
<property>
<name>yarn.nodemanager.recovery.enabled</name>
<value>false</value>
</property>

d)根据指引分发配置,并重启服务即可。

提示:代码块部分可以左右滑动查看噢

为天地立心,为生民立命,为往圣继绝学,为万世开太平。 温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
专用宿主机
专用宿主机(CVM Dedicated Host,CDH)提供用户独享的物理服务器资源,满足您资源独享、资源物理隔离、安全、合规需求。专用宿主机搭载了腾讯云虚拟化系统,购买之后,您可在其上灵活创建、管理多个自定义规格的云服务器实例,自主规划物理资源的使用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档