Zookeeper运维问题集锦

  • 实际工作中用到Zookeeper集群的地方很多, 也碰到过各种各样的问题, 在这里作个收集整理, 后续会一直补充;
  • 其中很多问题的原因, 解决方案都是google而来, 这里只是作次搬运工;
  • 其实很多问题都跟配置有关, 只怪自己没好好读文档;
  • 问题列表: 1. 一台 zk 节点重启后始终无法加入到集群中, 无法对外提供服务 2. zk的log和snapshot占用大量空间 3. 某台客户端上有的进程可以连接到zk, 有的无法连接 4. 一台zk服务器无法对外提供服务,报错"Have smaller server identifier, so dropping the connection." 5. zk客户端偶尔无法成功连接到zk server

一台 zk 节点重启后始终无法加入到集群中, 无法对外提供服务
  • 现象: 使用zkCli.sh无法连接成功该zk节点
  • 日志: 首先想到的是将该节点restart, 但问题依旧, 故查看zk的log, 有大量的如下日志
2017-07-18 17:31:12,015 - INFO  [WorkerReceiver Thread:FastLeaderElection@496] - Notification: 1 (n.leader), 77309411648 (n.zxid), 1 (n.round), LOOKING (n.state), 1 (n.sid), LOOKING (my state)
2017-07-18 17:31:12,016 - INFO  [WorkerReceiver Thread:FastLeaderElection@496] - Notification: 3 (n.leader), 73014444480 (n.zxid), 831 (n.round), LEADING (n.state), 3 (n.sid), LOOKING (my state)
2017-07-18 17:31:12,017 - INFO  [WorkerReceiver Thread:FastLeaderElection@496] - Notification: 3 (n.leader), 77309411648 (n.zxid), 832 (n.round), FOLLOWING (n.state), 2 (n.sid), LOOKING (my state)
2017-07-18 17:31:15,219 - INFO  [QuorumPeer:/0.0.0.0:2181:FastLeaderElection@697] - Notification time out: 6400
zk的log和snapshot占用大量空间
  • 现象: zk的datadir下的version-2下有大量的log和snapshot文件, 占用大量的磁盘空间
  • 解决: 在配置文件里打开周期性自动清理的开关 autopurge.purgeInterval=1, 当然也可以通过 autopurge.snapRetainCount来设置需要保留的snapshot文件个数,默认是3;
某台客户端上有的进程可以连接到zk, 有的无法连接
  • 现象: 同一台客户端机器上启动多个相同的进程, 有些进程无法连接到zk集群
  • zk服务端日志:
Too many connections from /x.x.x.x - max is x
  • 解决: zk的配置中maxClientCnxns设置过小, 这个参数用来限制单个IP对zk集群的并发访问;
一台zk服务器无法对外提供服务,报错"Have smaller server identifier, so dropping the connection."
  • 现象:使用zkCli.sh无法连接成功该zk节点;
  • 日志: 大量报错:Have smaller server identifier, so dropping the connection.
  • 解决方案: 保持这台有问题zk的现状, 按myid从小到大依次重启其他的zk机器;
  • 原因: zk是需要集群中所有机器两两建立连接的, 其中配置中的3555端口是用来进行选举时机器直接建立通讯的端口, 大id的server才会去连接小id的server,避免连接浪费.如果是最后重启myid最小的实例,该实例将不能加入到集群中, 因为不能和其他集群建立连接
zk客户端偶尔无法成功连接到zk server
  • 现象: 同一台机器来运行的zk客户端, 偶发无法成功连接到zk server
  • 分析:
    1. 当时提供给业务一份sdk, sdk初始化时需要先连接zk, 初始化结束后断开zk的连接,业务将这份sdk用在了由fpm-php 处理的前端web请求的php代码中, 该业务的QPS在6K-8K左右, 相当于zk在处理大量的短连接请求;
    2. 在zk服务端监控下列命令的输出, overflowed和droped的数值在不断增加,说明 listen的accept queue有不断被打满的情况
[root@m1 ~]# netstat -s |grep -i listen
    53828 times the listen queue of a socket overflowed
    53828 SYNs to LISTEN sockets ignored

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Spring相关

Git ssh 配置及使用

前言:前几天在写博客 手把手教你用Hexo + github 搭建自己博客的时候,经常需要用到一些git操作,截了好多图,于是就想干脆整理成一系列的git 教程...

1002
来自专栏电光石火

MySQL服务无法正常启动的解决方法(1053错误)

今天我重启了服务器,这下杯具了.mysql一直报1053错误:服务没有及时响应启动或控制请求.我用结束进城和重启服务器方法都无法正常启动.重装MySQL服务...

3816
来自专栏LIN_ZONE

Linux各目录及每个目录的详细介绍(转载)

Linux目录和Windows目录有着很大的不同,Linux目录类似一个树,最顶层是其根目录,如下图:

1352
来自专栏云计算教程系列

如何在Debian 8上添加和删除用户

您应该知道如何在新的Linux服务器上执行的最基本任务之一是添加和删除用户。创建新系统时,默认情况下通常只会为您提供root帐户。虽然以root用户身份运行会为...

9703
来自专栏difcareer的技术笔记

Android启动过程分析-从按下电源键到第一个用户进程[转载]正文

对Android最初的启动过程一直没有清晰的认识,看到一篇好文,转载一下: http://blog.jobbole.com/67931/ http://ww...

722
来自专栏IT可乐

Redis详解(二)------ redis的配置文件介绍

  上一篇博客我们介绍了如何安装Redis,在Redis的解压目录下有个很重要的配置文件 redis.conf (/opt/redis-4.0.9目录下),关于...

1570
来自专栏Python小屋

Python+django网页设计入门(5):自定义用户注册与登录功能

今天恰逢1024,是我们码农自己的节日,祝“Python小屋”所有朋友节日快乐!发几个去年整理的段子开心一下:

1952
来自专栏13blog.site

IntelliJ IDEA编译项目报错 "xxx包不存在" 或 "找不到符号"

在维护一个新的项目时出现在的这个情况,项目构建时一直报错"xxx包找不到",但是引用的包和引用的类都是存在的,一开始以为是项目问题,还问了做过的同事,第一次搞好...

1.1K6
来自专栏MoeLove

Composer 使用技巧简述

上述代码执行完成后, 只是下载到了 composer.phar 文件, 可以通过 php composer.phar 在任意位置执行.

1255
来自专栏技术博客

App.config和Web.config配置文件的配置节点的解析

  在http://www.cnblogs.com/aehyok/p/3558661.html这篇博文中,大致对配置文件有了初步的了解,并且在文中有提到过<ap...

2063

扫码关注云+社区

领取腾讯云代金券