前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >记一次腾讯云ES集群缩容降配的全过程

记一次腾讯云ES集群缩容降配的全过程

原创
作者头像
南非骆驼说大数据
修改2022-08-06 19:13:17
3.1K1
修改2022-08-06 19:13:17
举报

一、客户需求:

某外部大客户购买了腾讯云ES集群,因自身资源评估,需要进行集群降配。该集群包含数据节点、专用主节点,都需要进行缩容。

二、缩容前提:

因为集群缩容是有一定安全风险的,因此,在进行集群缩容前,我们需要对用户腾讯云控制台登录主账号<主UIN>进行开白

<包含内外部用户>;

缩容除了要开白以外,还需要一些特定的服务器要求,检查ES服务器状态是否正常。

不能缩容超过一半规格,比如从16核64G降低到8核32G以下的规格是不允许的!!!!

三、缩容原则:

先往集群中添加需要缩容的等额的新的节点,然后再将原始数据搬迁到新的节点上,然后再下掉原先的节点,这样来完成缩容。无论是缩节点配置,还是缩磁盘都遵循该逻辑。

四、缩容过程:

第一步,确定用户集群缩容的完整信息,信息如下:

代码语言:javascript
复制
主UIN:XXXXXXX
地域: 北京四区
资源需求:
主节点     2c8G       //这些是要准备的降级的新资源
数据节点   4c16G
磁盘       SSD 5000G   

第二步: 进一步确定集群降配的资源是否充足,包括CVM、CBS资源的判定。

代码语言:javascript
复制
这个需要平台服务人员根据各链接信息提供精准的判断。

通过判断,我们确定该区域 CVM资源充足,但是CBS磁盘资源不够,于是需要协调cbs侧同学开白放开部分资源限制。

第三步:以上操作完成后,通知用户控制台进行集群变配操作,结果如下,无法选择变配资源:

无法选择变配资源
无法选择变配资源

数据节点不显示售罄了,但是仍然无法降配。

同时,客户对主节点也进行了相应的操作,同样报错

缩容主节点
缩容主节点

问题进展到这里,引导客户 在报错界面按"F12", 选择"network",调取一下报错接口返回的requestID

提取RequestID
提取RequestID

根据对应的requestID,我们看到以下日志信息,“UnsupportOpeation”,

大概是说,不支持该降配操作。难道是之前的主UIN没开白生效成功,再次确认,果然问题出在这里。没开白成功。再次操作后,通知用户再次操作缩容。再次报错,报错如下:

缩容失败
缩容失败

但是这次缩容报错跟之前不一样了,再次让用户调取requestID ,再次分析原因,如下:

分析是该用户的集群磁盘使用率过高,缩容前的安全检查没通过。故而报错。于是通知用户清理集群空间后让用户再次操作。

清理完磁盘后,让用户再次控制台操作缩容,流程正常执行,数据节点缩容成功。

第四步: 缩容主节点,再次报错

继续调取RequestID ,继续进行缩容失败原因分析,如下:

大概的意思是不能一次缩容超过一半的配置。

客户的主节点配置原来是8c16G ,他要降到2C8G,不能一次降超过原有节点的一半配置,因此,需要先降级到4C16G,然后再降级到2C8G。那么这样,主节点也终于缩容成功,流程至此闭环,问题解决。

五、总结

这次缩容的过程比较久,问题出现的比较多。因此,特地花点时间梳理整个过程,希望能帮助到有需要的同学们。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、客户需求:
  • 二、缩容前提:
  • 三、缩容原则:
  • 四、缩容过程:
  • 五、总结
相关产品与服务
Elasticsearch Service
腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档