由客户云上购买和使用的资源实例与产品产生的监控事件包括:
事件中文名 | 事件英文名 | type | 有无恢复概念 | 事件描述 | 处理方法与建议 |
主机节点 oom | oom | tke:ErrorEvent:oom | 有 | 主机节点由于内存过高而发生 OOM | 检查当前主机节点上触发 OOM 的原因,例如查看监控,syslog,demsg 等 |
集群当前资源数量超过了最大配额 | ApiserverEtcdObjectCountsSerious | tke:ErrorEvent:ApiserverEtcdObjectCountsSerious | 无 | 集群当前资源数量超过了最大配额 | 请检查业务组件是否存在 Bug 异常写入资源数或未及时清理,建议手动升配集群到更高规格,提升控制面组件的稳定性,以及获取更高的集群资源配额值 |
集群当前资源数量超过了推荐值 | ApiserverEtcdObjectCountsWarn | tke:ErrorEvent:ApiserverEtcdObjectCountsWarn | 无 | 集群当前资源数量超过了推荐值 | 请检查业务组件是否存在 Bug 异常写入资源数或未及时清理,建议手动升配集群到更高规格,提升控制面组件的稳定性,以及获取更高的集群资源配额值 |
集群当前 APIServer 负载较高 | ApiserverOverloadWarn | tke:ErrorEvent:ApiserverOverloadWarn | 无 | 集群当前 APIServer 负载较高 | 请检查业务组件是否存在频繁List资源请求导致的高负载,建议优化 List 请求,同时建议手动升配 master 节点到更高配置,提升控制面组件的稳定性 |
集群当前 APIServer 严重过载 | ApiserverOverloadSerious | tke:ErrorEvent:ApiserverOverloadSerious | 无 | 集群当前 APIServer 严重过载 | 请检查业务组件是否存在频繁 List 资源请求导致的高负载,建议优化 List 请求,同时建议手动升配 master 节点到更高配置,提升控制面组件的稳定性 |
集群节点存在高风险单点故障 | NodeHaSerious | tke:ErrorEvent:NodeHaSerious | 无 | 集群节点只有1个,存在高风险单点故障 | 扩容集群节点数,确保集群节点数大于1 |
节点跨可用区容灾存在风险 | NodeHaWarn | tke:ErrorEvent:NodeHaWarn | 无 | Node未均匀分布在各个可用区 | 建议 Node 均匀分布在各个可用区,总可用区数大于1 |
集群 CoreDNS 高可用存在安全隐患 | CorednsHaRisk | tke:ErrorEvent:CorednsHaRisk | 无 | 集群 CoreDNS 高可用存在安全隐患 | 建议将 CoreDNS 改为多副本,并将多个副本调度到不同节点上。 |
集群 CoreDNS 版本存在安全隐患 | CorednsVersionRisk | tke:ErrorEvent:CorednsVersionRisk | 无 | 集群 CoreDNS 版本小于推荐的基线版本, 可能存在一定安全隐患 | 建议将 CoreDNS 进行版本升级 |
集群 CoreDNS 域名解析可能存在问题 | CorednsNslookupWarn | tke:ErrorEvent:CorednsNslookupWarn | 无 | 集群当前域名解析功能可能存在问题 | 建议手动排查 CoreDNS 解析失败原因,或重启 CoreDNS Pod。 |
Pod 状态异常 | PodStatusWarn | tke:ErrorEvent:PodStatusWarn | 无 | Pod 状态异常 | 请检查进程是否启动,若发生OOM,请检查原因或调大容器内存规格。如果容器销毁超过10分钟,请检查节点状态是否正常。 |
当前节点 GPU 状态异常(Pod 启动可能存在异常) | NodeGpuStatusSerious | tke:ErrorEvent:NodeGpuStatusSerious | 无 | 当前节点 GPU 状态异常(Pod 启动可能存在异常) | 需要驱逐节点上的业务 Pod,并重启节点 |
当前节点 GPU 状态异常(节点 Pod 已经被驱逐) | NodeGpuStatusWarn | tke:ErrorEvent:NodeGpuStatusWarn | 无 | 当前节点 GPU 状态异常(节点 Pod 已经被驱逐) | 重启节点 |
节点 OOM | Node OOM | tke:ErrorEvent:SystemOom | 无 | 节点 OOM | - |
节点网络不可达 | Node network is unreachable | tke:ErrorEvent:NodeNetworkUnavailable | 无 | 节点网络不可达 | - |
节点磁盘空间已耗尽 | Node disk space is exhausted | tke:ErrorEvent:NodeOutOfDisk | 无 | 节点磁盘空间已耗尽 | - |
节点磁盘空间将要耗尽 | Node disk space is about to run out | tke:ErrorEvent:NodeHasDiskPressure | 无 | 节点磁盘空间将要耗尽 | - |
节点内存将要耗尽 | Node memory is about to run out | tke:ErrorEvent:NodeHasInsufficientMemory | 无 | 节点内存将要耗尽 | - |
节点 Inode 不足 | Insufficient node inode | tke:ErrorEvent:NodeInodePressure | 无 | 节点 Inode 不足 | - |
节点异常 | Node exception | tke:ErrorEvent:NodeNotReady | 无 | 节点异常 | - |
集群规格自动升配成功 | AutoUpgradeClusterLevelSucceed | tke:ErrorEvent:AutoUpgradeClusterLevelSucceed | 无 | 集群规格自动升配成功 | - |