功能概述
弹性健康度(Elastic Health) 是腾讯云容器服务 TKE 为原生节点池提供的一项关键的主动运维与风险评估能力。
在云原生场景下,节点池的“弹性”是保障业务应对流量洪峰的核心防线。然而,传统的节点池管理往往存在“静默失效”的风险——即节点池在平时看似正常,但在需要扩容时,却因库存不足、IP 耗尽或关联的基础资源(如 SSH 密钥、安全组)缺失,导致扩容失败。弹性健康度通过周期性地对节点池的基础配置、网络资源、机器库存等维度进行全方位扫描,基于有效库存和弹性韧性等核心指标进行评估,提前发现并预警潜在的扩容风险,帮助用户将运维模式从“故障后救火”转变为“事前预防”。
核心概念
资源池(Resource Pool)
资源池是由“可用区(Zone)+ 实例规格(InstanceType)” 组合形成的最小扩容单元。
示例:如果一个节点池配置了
[ap-guangzhou-3, ap-guangzhou-4] 两个可用区,以及 [S5.MEDIUM4, S5.LARGE8] 两种机型,则会生成 2x2=4 个资源池。子网归属:同一个可用区下的多个子网会被汇总计算,共同服务于该可用区下的所有机型。
关键指标
为了评估节点池的弹性能力,我们定义了以下核心指标:
1. 有效库存(Xi):单个资源池在当前时刻能扩容的最大节点数,
Xi = min(库存水位, 子网剩余IP数)2. 理论总容量(X_total):节点池所有资源池有效库存的总和,
X_total = Σ Xi3. 弹性韧性(N):当前有效库存大于 0 的资源池数量,
N = Count(Xi > 0)。该指标反映了扩容选项的丰富程度,选项越多,抗风险能力越强。健康度评估机制
弹性健康度在节点池和资源池两个层级进行评估,状态分为健康(Healthy)、提醒(Warning)、风险(Risk)三个等级。
节点池级别健康度
状态 | 图标 | 判定条件 | 含义与建议 |
健康 | ✅ | X_total ≥ MaxSize 且 N ≥ 3 | 配置合理,总容量充足且扩容选项丰富(≥3个),弹性成功率高。 |
提醒 | ⚠️ | 0 < X_total < MaxSize 或 X_total ≥ MaxSize 且 N < 3 | 容量不足:当前剩余资源无法满足设定的最大节点数。 韧性不足:过度依赖少数资源池(<3个),存在单点库存耗尽风险。建议增加备选机型或可用区。 |
风险 | ❌ | 任意一项绝对影响因素(如安全组、SSH 密钥、磁盘匹配等)检查不通过 或 X_total = 0 | 无法扩容。存在关键配置错误或所有资源池均无库存/IP,需立即修复。 |
注意:
MaxSize 为用户在节点池设置的最大节点数(开启 CA 时),未开启 CA 默认为 50。资源池级别健康度
在健康度详情页中,我们会展示每个资源池的具体状态。
状态 | 判定条件 | 说明 |
健康 | Xi ≥ MaxSize | 单个资源池容量充足,可独立支撑扩容至最大节点数。 |
提醒 | 0 < Xi < MaxSize | 资源池可用,但库存或 IP 较少,可能无法满足大规模扩容。 |
风险 | Xi = 0 | 不可用。原因可能是库存售罄、子网 IP 耗尽、规格未在可用区部署或磁盘类型不匹配。 |
核心检查策略
系统会对节点池执行 6 项绝对影响因素(直接导致失败)和 2 项相对影响因素(影响成功率)的检查:
影响类型 | 检查项 | 说明 | 失败影响 |
绝对因素 (任一失败即 Risk) | 安全组存在性 | 检查绑定的安全组是否在 VPC 中存在。 | 节点池 Risk |
| SSH 密钥存在性 | 检查绑定的 SSH 密钥对是否在 CVM 中存在。 | 节点池 Risk |
| 实例规格部署 | 检查配置的机型是否在指定可用区上线售卖。 | 节点池 Risk |
| 子网存在性 | 检查配置的子网是否在 VPC 中存在。 | 节点池 Risk |
| 系统盘匹配 | 检查机型是否支持配置的系统盘类型。 | 节点池 Risk |
| 数据盘匹配 | 检查机型是否支持配置的数据盘类型。 | 节点池 Risk |
相对因素 (影响 Xi 计算) | 库存丰富度 | 计算云服务器 CVM 真实库存水位。 | 限制资源池 Xi |
| 子网可用 IP | 计算子网剩余可用 IP 数量。 | 限制资源池 Xi |
通过控制台查看弹性健康度
查看弹性健康度状态
1. 登录 容器服务控制台,单击左侧导航栏中的集群。
2. 在集群页面,选择集群 ID,进入集群的基本信息页面。
3. 在节点管理中,选择节点池。
4. 在节点池列表中,原生节点池卡片将展示弹性健康度状态。
查看健康度详情页
健康度详情页通过弹窗展示,包含以下模块:
1. 综合诊断结果:明确告知当前的风险等级。
2. 基础配置检查:展示安全组、SSH 密钥的检查结果。
3. 资源池详情:按“扩容优先级”顺序(先可用区顺序,后机型顺序)展示所有资源池和每个资源池的健康状态、子网 IP 剩余量及异常提示(如“库存不足”)。
4. 优化建议:基于检查结果生成的具体行动指引。
示例:“ap-guangzhou-4 可用区子网 IP 较少(8个),建议更换 IP 资源更充足的子网。”
示例:“有效资源池数量(2)少于健康阈值(3),建议增加备选机型或可用区。”
常见风险问题与操作建议
本章节汇总了弹性健康度检查中常见的风险场景及对应的修复指引,帮助您快速恢复节点池的扩容能力。
1. 绝对阻断类(Health Status: Risk ❌)
此类问题会导致所有新节点创建失败,请务必第一时间修复。
风险描述 | 典型场景 | 修复操作建议 |
安全组缺失 | 节点池绑定的安全组在 VPC 控制台被误删。 | 1. 登录 容器服务控制台,单击左侧导航栏中的集群。 2. 在集群页面,选择集群 ID,进入集群的基本信息页面。 3. 在节点管理中,选择节点池详情右侧的编辑。 4. 重新选择一个有效的安全组并保存。 |
SSH 密钥缺失 | 节点池绑定的 SSH 密钥对在 CVM 控制台被删除。 | 1. 在 CVM 控制台创建新的 SSH 密钥。 2. 编辑节点池配置,更新为新密钥。 |
子网不存在 | 节点池配置的某个子网已被删除。 | 编辑节点池,移除无效子网,添加新的可用子网。 |
实例规格已下架 | 早期配置的旧机型(如 S2)在当前可用区已停止售卖。 | 编辑节点池,移除旧机型,添加当前售卖的主流机型(如 S5, S6, SA3)。 |
系统/数据盘类型不匹配 | 某些老旧机型不支持配置高性能云硬盘(SSD)。 | 调整机型或磁盘类型,确保二者兼容(如 S5 机型搭配 SSD 云硬盘)。 |
2. 资源瓶颈类(Health Status: Warning ⚠️)
此类问题虽然暂时不影响扩容,但存在扩容失败率高或资源即将耗尽的隐患。
风险描述 | 原因分析 | 优化操作建议 |
韧性不足 (N < 3) | 有效的“可用区+机型”组合少于 3 个,过度依赖单一资源池。 | 增加备选方案: 1. 增加配置 1-2 个新的可用区。 2. 在现有可用区下,增加配置同规格的其他代次机型(如 S5, S6 同时配置)。 |
子网 IP 不足 | 某个子网的剩余 IP 数极少(如 < 10个),无法支撑大规模扩容。 | 1. 在该可用区下配置更多的子网。 2. 清理该子网下闲置的 IP 资源。 |
容量不足 (X_total < MaxSize) | 所有资源池的库存总和小于您设置的最大节点数。 | 提高资源池的多样性,添加库存充裕的新可用区或新机型。 |
3. 其他常见问题
为什么控制台显示“健康”,但实际扩容还是失败了?
库存数据是实时动态变化的,健康度检查存在分钟级的周期。如果库存极其紧张,可能出现“检查时有货,扩容时刚好被抢光”的小概率事件。建议配置多个备选机型来规避此风险。
修复配置后,状态多久会更新?
修复后,您可以点击详情页的“重新检测”按钮触发立即扫描;否则,系统通常会在 5-10 分钟内自动更新状态。