Kafka 集群部署环境
kafka 集群所用版本 0.9.0.1
集群部署了实时监控: 通过实时写入数据来监控集群的可用性, 延迟等;
----
集群故障发生
集群的实时监控发出一条写入数据失败的报警...: Kafka运维填坑, 上面也给出了简单修复, 主要原因是 新版kafka 客户端 sdk访问较旧版的kafka, 发送了旧版 kafka broker 不支持的request, 这会导致exception...;
解决过程:
我们之前已经修复过这个问题, 有准备好的相应的jar包;
运维小伙伴开始了愉快的jar包替换和启动broker的工作~~~~~~
集群恢复
kafka broker的优雅shutdown...的时间极不受控, 如果强行kill -9 在start后要作长时间的recovery, 数据多的情况下能让你等到崩溃;
集群重启完, 通过log观察, ArrayIndexOutOfBoundsException...,一直在重复如下log:
Group "xxx" coordinator is xxx.xxx.xxx.xxx:9092 id 3
Broker: Not coordinator for group
第一条日志