前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大年初三,记一次ES集群RED处理过程

大年初三,记一次ES集群RED处理过程

原创
作者头像
南非骆驼说大数据
发布2021-02-18 23:31:26
1.3K1
发布2021-02-18 23:31:26
举报

一、前言|

大年初三,客户反馈,自己的业务集群RED了,一直触发集群状态告警,需要紧急处理....

集群状态为红色
集群状态为红色

二、问题处理过程:

集群状态为红色,表示集群有主分片未正常运行《包括其未初始化成功、未正常开启服务》通过查看日志,我们可以看到如下截图信息:

同时通过,GET _cluster/allocation/explain API 可以看到分片未分派的原因,大概如下:

大致的错误文本如下:

“/data1/containers/1607327622000737832/es/data/nodes/0/indices/N8EaHtdzR1qVM83PhZbKAA/3/_state/state-1.st.tmp: Read-only file system“ 错误的现象就是随着时间的推移,该节点上对应的未正常服务主分片越来越多,集群状态一直为RED.

”"failed shard on node [xXwnFsNLS4SbxAcBlYe0Fw]: failed to create shard, failure FileSystemException[/data1/containers/1587040431000054832/es/data/nodes/0/indices/TxWNAT6cS9WUXIKuzyZmEA/240/_state/state-1.st.tmp: Read-only file system

三、解决办法

1,找到日志报错信息中节点对应的CVM,并重启该节点,一般节点重启后文件系统就可以读写了,错误信息里报哪个节点有问题就是哪个节点,重启该节点。

2,如重启故障节点还不能解决,那就需要找CVM同学更换ES底层CVM机器

3,在更换故障节点前,ES需要先将该故障磁盘先打个快照

4,CVM同学在数据做备份后,对该故障磁盘文件系统做fsck 修复。

修复故障盘
修复故障盘

5,修复完毕,机器重新重启,分片初始化成功,集群GREEN。

6,ES数据盘文件系统只读原因为:

Fstab里面配置了分区挂载后,如果有检测到error,就只读模式挂载,所有后面盘只读也符合预期。

至于前面为什么会出现一个块not found,这个就不太好查了,因为确实坏块数量太小了,就一块。没有其他线索。

正常没有设置自动只读的,一般是不影响的,下次机器重启的时候,开机磁盘自检就可以自动fsck修复这个坏块。

FSTAB设置
FSTAB设置

盘只读的原因, 是业务自己机器fstab里面这样配置的,如果发现盘有错误,就只读模式挂载,于是会造成这样的问题。

因此,对于ES服务设置的自动挂载云盘的脚本中的自动挂载参数“”一般没有特别设置这个error配置,按默认的来,就可避免这个参数。

四、总结

本次比较完整的跟进了这个底层CVM磁盘故障导致ES服务不可用的处理过程,特地记录下来,方便后续学习总结。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、前言|
  • 二、问题处理过程:
  • 三、解决办法
    • 1,找到日志报错信息中节点对应的CVM,并重启该节点,一般节点重启后文件系统就可以读写了,错误信息里报哪个节点有问题就是哪个节点,重启该节点。
    • 四、总结
    相关产品与服务
    Elasticsearch Service
    腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档