开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >0526-6.1-如果你不小心删了一个NameNode1

0526-6.1-如果你不小心删了一个NameNode1

Fayson

发布于 2019-11-28 23:29:23

9320

发布于 2019-11-28 23:29:23

举报

文章被收录于专栏：Hadoop实操 Hadoop实操Hadoop实操

温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。
Fayson的github： https://github.com/fayson/cdhproject
提示：代码块部分可以左右滑动查看噢

1

文档编写目的

在启用了HDFS HA的集群，2个NameNode节点上一般都会部署三个角色：NameNode，JournalNode和Failover Controller。在实际生产中，我们有时会碰到一个情况，你不小心删掉了某个NameNode节点上的所有角色包括NameNode，JournalNode和Failover Controller，或者你不小心通过Cloudera Manager直接从主机管理列表里移除了该NameNode节点，然后你想再把这个节点加回去的时候，发现无论如何HDFS服务都没办法正常使用了。本文Fayson会在一个HDFS HA的CDH集群中模拟这种情况，然后尝试去解决，即先删除一个NameNode，然后如何通过配置将该NameNode重新加回到HDFS服务中。

测试环境

1.CDH6.1

2.Redhat7.4

3.采用root进行操作

2

模拟异常

1.首先Fayson准备一个正常的CDH6.1的集群，并且HDFS已经启用了HA。

2.我们停止ip-172-31-9-113.ap-southeast-1.compute.internal节点上的NameNode，JournalNode和Failover Controller服务。

3.删除这三个角色，注意下表已经少了这三个角色。

4.这是HDFS服务直接报错了。

3 个验证错误。
    Quorum Journal 需要至少三个 JournalNode
    Quorum Journal 需要奇数的 JournalNode
    Nameservice nameservice1 has no SecondaryNameNode or High-Availability partner
1 个验证警告。
    在 NameNode (ip-172-31-6-83) 个非 HA Nameservice nameservice1 上启用自动故障转移不起作用。

3

故障修复方法1

1.我们选择HDFS服务，然后点击“操作”，发现虽然是HDFS HA的集群，操作列表显示却是“启用High Availability”，实际应该是“禁用High Availability”，应该是因为手动删除了一个NameNode后引起的。

2.我们先尝试点击该按钮，尝试重新启用HDFS的HA。

这里我们选择之前的删掉的NameNode和JournalNode节点

ip-172-31-9-113.ap-southeast-1.compute.internal

报错，启用失败，实际其实我们已经选择了三个JournalNode，但仍旧报错需要3个JournalNode，返回，我们继续尝试。

4

故障修复方法2

1.从以下界面把删掉的NameNode，JournalNode和Failover Controller的三个角色再给加回去。

2.点击添加角色实例，并相应的选择之前删掉NameNode，JournalNode和Failover Controller角色所在的主机ip-172-31-9-113.ap-southeast-1.compute.internal

3.点击“继续”

4.点击“完成”

5.直接重启HDFS服务，尝试拉起刚刚新加的三个角色

还是失败。

6.进入ip-172-31-9-113.ap-southeast-1.compute.internal节点所在的NameNode配置页面。

选择“配置”标签页

在“NameNode Nameservice”配置项中输入nameservice1，这里根据你集群启用HA后的实际情况nameservice的名字输入，然后保存。

7.在“Quorum Journal 名称”配置项也输入nameservice1，这里根据你集群启用HA后的实际情况nameservice的名字输入，然后保存。

8.勾选“启用自动故障转移”，然后保存。

9.回到HDFS服务的实例页面，发现之前的错误已经消失了。

10.回到CM主页重新部署客户端，并重启集群所有服务。

重启成功，集群恢复正常。

11.HDFS验证，一切正常。

提示：代码块部分可以左右滑动查看噢
为天地立心，为生民立命，为往圣继绝学，为万世开太平。温馨提示：如果使用电脑查看图片不清晰，可以使用手机打开文章单击文中的图片放大查看高清原图。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2019-01-28，如有侵权请联系 cloudcommunity@tencent.com 删除

专用宿主机

本文分享自 Hadoop实操微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

专用宿主机

评论

登录后参与评论

0 条评论

热度

最新

LV.

相关产品与服务

专用宿主机

专用宿主机（CVM Dedicated Host，CDH）提供用户独享的物理服务器资源，满足您资源独享、资源物理隔离、安全、合规需求。专用宿主机搭载了腾讯云虚拟化系统，购买之后，您可在其上灵活创建、管理多个自定义规格的云服务器实例，自主规划物理资源的使用。

产品介绍产品文档

精选特惠用云无忧