首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

程序员笔记 一次Zookeeper 扩展之殇

背景

基于公司发展硬性需求,生产VM服务器要统一迁移到ZStack 虚拟化服务器。检查自己项目使用的服务器,其中zookeeper集群中招,所以需要进行迁移。

迁移计划

为了使迁移不对业务产生影响,最好是采用->的方式进行。

步骤(过程已在测试环境验证无问题)

1、对新增的三台服务器进行zk环境配置,和老集群配置一样即可,最好使用同一版本(版主使用的是3.4.6);

2、对老节点的zoo.cfg 增加新集群的地址(逐一增加),然后对新增加节点逐一重启。

问题

启动成功,zkServer.sh status 报错,用zkServer.sh status查看,反馈如下异常:

怀疑是因为老节点没有重启的原因;此时去查看原集群节点信息,发现原集群节点状态异常。 经排查定位,原集群的状态一直处于异常状态。

初步定位原因可能是原集群的选举存在异常,导致新节点无法正常纳入,继续排查。

恢复集群初始状态,如果集群节点的状态一直没法正常查看。OK 继续定位...

排查过程

以下方法来自于网络:

可能有以下几个原因:

第一、zoo.cfg文件配置:dataLogDir指定的目录未被创建。

经排查 排除该因素。

第二、myid文件中的整数格式不对,或者与zoo.cfg中的server整数不对应。

定位排查后排除不是该原因。

第三、防火墙未关闭。

使用service iptables stop 关闭防火墙 使用service iptables status确认使用chkconfig iptables off禁用防火墙。

确认防火墙是关闭的。

第四、端口被占用。

第五、zoo.cfg文件中主机名出错。

第六、hosts文件中,本机的主机名有两个对应,只需保留主机名和ip地址的映射。

第七、zkServer.sh里的nc命令有问题。

以下是自己排查的方式

目前现象老集群数据同步正常,也能进行leader选举(从日志获取),但是无法查看节点状态,同异常信息;进行集群扩容,数据不能同步。

解决方法:

1、尝试进行foreground 模式启动,选择一台非主节点进行重启,可以前台查看启动日志。

2、查看shell脚本:分析zkServer.sh。

"Error contacting service. It is probably not running." 这块日志出现以下脚本中。

截取其中一部分脚本内容:我们可以初步定为应该是获取存在异常 如果STAT变量为空,则会显示Error contacting service. It is probably not running.: OK,那就分析下这个到底是什么鬼?

3、尝试用shell的debug模式看下执行过程。

截取片段执行日志如下:果然STAT变量确实为空,导致输出Error contacting service. It is probably not running.并且退出。

4、修改shell脚本:分析zkServer.sh 在脚本总增加输出STAT 内容,这次我们不进行过滤。

最好的方式是copy一个新脚本,以免污染原本的脚本。我是这么做的;然后运行该脚本。

然后查看生成的test.log 文件:果然存在异常内容。

从日志信息来看,提示说2181这个端口号造成的。 不是一个合法的数字。

zkServer.sh里有这么一句:

最终可以基本确认配置文件存在问题:

替换配置文件:重启 问题解决;

存在原因可能是编辑zoo.cfg 编码格式等等引起文件内容解析异常。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190603A09FZE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券