容器服务

最近更新时间:2024-12-06 12:19:53

我的收藏
由客户云上购买和使用的资源实例与产品产生的监控事件包括:
事件中文名
事件英文名
type
有无恢复概念
事件描述
处理方法与建议
主机节点 oom
oom
tke:ErrorEvent:oom
主机节点由于内存过高而发生 OOM
检查当前主机节点上触发 OOM 的原因,例如查看监控,syslog,demsg 等
集群当前资源数量超过了最大配额
ApiserverEtcdObjectCountsSerious
tke:ErrorEvent:ApiserverEtcdObjectCountsSerious
集群当前资源数量超过了最大配额
请检查业务组件是否存在 Bug 异常写入资源数或未及时清理,建议手动升配集群到更高规格,提升控制面组件的稳定性,以及获取更高的集群资源配额值
集群当前资源数量超过了推荐值
ApiserverEtcdObjectCountsWarn
tke:ErrorEvent:ApiserverEtcdObjectCountsWarn
集群当前资源数量超过了推荐值
请检查业务组件是否存在 Bug 异常写入资源数或未及时清理,建议手动升配集群到更高规格,提升控制面组件的稳定性,以及获取更高的集群资源配额值
集群当前 APIServer 负载较高
ApiserverOverloadWarn
tke:ErrorEvent:ApiserverOverloadWarn
集群当前 APIServer 负载较高
请检查业务组件是否存在频繁List资源请求导致的高负载,建议优化 List 请求,同时建议手动升配 master 节点到更高配置,提升控制面组件的稳定性
集群当前 APIServer 严重过载
ApiserverOverloadSerious
tke:ErrorEvent:ApiserverOverloadSerious
集群当前 APIServer 严重过载
请检查业务组件是否存在频繁 List 资源请求导致的高负载,建议优化 List 请求,同时建议手动升配 master 节点到更高配置,提升控制面组件的稳定性
集群节点存在高风险单点故障
NodeHaSerious
tke:ErrorEvent:NodeHaSerious
集群节点只有1个,存在高风险单点故障
扩容集群节点数,确保集群节点数大于1
节点跨可用区容灾存在风险
NodeHaWarn
tke:ErrorEvent:NodeHaWarn
Node未均匀分布在各个可用区
建议 Node 均匀分布在各个可用区,总可用区数大于1
集群 CoreDNS 高可用存在安全隐患
CorednsHaRisk
tke:ErrorEvent:CorednsHaRisk
集群 CoreDNS 高可用存在安全隐患
建议将 CoreDNS 改为多副本,并将多个副本调度到不同节点上。
集群 CoreDNS 版本存在安全隐患
CorednsVersionRisk
tke:ErrorEvent:CorednsVersionRisk
集群 CoreDNS 版本小于推荐的基线版本, 可能存在一定安全隐患
建议将 CoreDNS 进行版本升级
集群 CoreDNS 域名解析可能存在问题
CorednsNslookupWarn
tke:ErrorEvent:CorednsNslookupWarn
集群当前域名解析功能可能存在问题
建议手动排查 CoreDNS 解析失败原因,或重启 CoreDNS Pod。
Pod 状态异常
PodStatusWarn
tke:ErrorEvent:PodStatusWarn
Pod 状态异常
请检查进程是否启动,若发生OOM,请检查原因或调大容器内存规格。如果容器销毁超过10分钟,请检查节点状态是否正常。
当前节点 GPU 状态异常(Pod 启动可能存在异常)
NodeGpuStatusSerious
tke:ErrorEvent:NodeGpuStatusSerious
当前节点 GPU 状态异常(Pod 启动可能存在异常)
需要驱逐节点上的业务 Pod,并重启节点
当前节点 GPU 状态异常(节点 Pod 已经被驱逐)
NodeGpuStatusWarn
tke:ErrorEvent:NodeGpuStatusWarn
当前节点 GPU 状态异常(节点 Pod 已经被驱逐)
重启节点
节点 OOM
Node OOM
tke:ErrorEvent:SystemOom
节点 OOM
-
节点网络不可达
Node network is unreachable
tke:ErrorEvent:NodeNetworkUnavailable
节点网络不可达
-
节点磁盘空间已耗尽
Node disk space is exhausted
tke:ErrorEvent:NodeOutOfDisk
节点磁盘空间已耗尽
-
节点磁盘空间将要耗尽
Node disk space is about to run out
tke:ErrorEvent:NodeHasDiskPressure
节点磁盘空间将要耗尽
-
节点内存将要耗尽
Node memory is about to run out
tke:ErrorEvent:NodeHasInsufficientMemory
节点内存将要耗尽
-
节点 Inode 不足
Insufficient node inode
tke:ErrorEvent:NodeInodePressure
节点 Inode 不足
-
节点异常
Node exception
tke:ErrorEvent:NodeNotReady
节点异常
-
集群规格自动升配成功
AutoUpgradeClusterLevelSucceed
tke:ErrorEvent:AutoUpgradeClusterLevelSucceed
集群规格自动升配成功
-