使用场景
通过配置监控,能够获取集群的实时状态信息;通过配置告警,能够及时发现问题并触发告警,减少故障排查时间并及时处理故障。您可以确保 Kubernetes 集群的高效、稳定运行,同时降低运维成本,提升业务价值。
TKE 集群支持以下三类告警方式:
基础监控指标告警:基于集群及基础资源的监控指标进行告警。
日志告警:基于日志采集与分析进行告警,包括自定义日志、事件日志、审计日志等。
默认事件与审计告警:内置常见异常场景的默认告警规则,支持一键开启,属于日志告警的特殊形式。该功能结合腾讯云容器服务大规模多场景运维经验,覆盖集群和容器运行过程中常见的异常场景,能够及时发出预警,帮助用户快速发现并定位问题,维护集群和业务的稳定运行。具有以下特点:
预设性:默认告警规则是预先设定好的,用户无需手动创建,方便快捷。
通用性:默认告警规则通常适用于大多数场景,可以满足大部分用户的可观测需求。
灵活性:用户可以根据自己的实际需求,自定义告警规则。
易于管理:默认告警规则可以帮助用户快速搭建起一套基本的监控体系,降低管理成本。
前提条件
基础监控指标告警:集群相关基础资源的指标告警,此类告警的数据链路同步自云监控基础资源监控。更多信息,请参见 基础资源监控。
操作指引
基础监控指标告警配置
1. 登录 容器服务控制台,选择左侧导航栏中的运维中心 > 告警设置。
2. 在新建告警策略页面,策略类型选择容器服务(2.0),选择所需设置的指标维度。

3. 设置触发条件,可增加多个指标,请参见 监控及告警指标列表。

4. 配置告警通知。

5. 单击完成,可在告警策略中查看。

日志告警配置
1. 登录 容器服务控制台,选择左侧导航栏中的集群。
2. 在集群管理页面,单击目标集群 ID,进入集群详情页。
3. 选择左侧导航中的日志,配置日志采集规则并投递到 CLS,详情参见 采集容器日志到 CLS、事件日志、审计日志。
4. 登录 日志服务控制台,选择左侧导航栏中的监控告警 > 告警策略。
5. 单击新建,即可新建日志告警策略,详情参见 配置告警策略。

默认事件与审计告警一键开启
操作步骤
1. 登录 容器服务控制台,选择左侧导航栏中的集群。
2. 在集群管理页面,单击目标集群 ID,进入集群详情页。
3. 选择左侧导航中的告警,按需选择事件告警、审计告警,单击一键开启。

4. 前往开启事件日志、审计日志。
5. 基于默认告警模板做告警策略选择。

6. 关联通知渠道组,通知渠道推荐邮件、短信、微信、电话。详情参见 管理通知渠道组。
7. 单击确定,即可一键开启默认事件告警策略、审计告警策略。
8. 可在告警策略中查看创建的告警策略。

9. 可在告警历史中查看告警历史,单击查看详情。

默认告警模板
节点资源事件告警策略集
模板名称 | 模板说明 | 模板类型 | 事件名称 |
节点磁盘容量不合法 | 节点磁盘容量不合法 | 事件类 | InvalidDiskCapacity |
清理磁盘空间失败 | 清理磁盘空间失败 | 事件类 | FreeDiskSpaceFailed |
节点磁盘不足 | 节点磁盘不足 | 事件类 | NodeHasDiskPressure |
节点磁盘多次不足 | 节点磁盘不足 | 事件类 | NodeHasDiskPressure |
节点状态事件告警策略集
模板名称 | 模板说明 | 模板类型 | 事件名称 |
节点内存不足强杀进程 | 节点是否存在 OOM 事件 | 事件类 | SystemOOM |
节点状态异常 | 节点状态异常 | 事件类 | NodeNotReady |
集群网络事件告警策略集
模板名称 | 模板说明 | 模板类型 | 事件名称 |
设置辅助网卡网络失败 | 设置辅助网卡网络失败,可能影响节点数据面网络通信 | 事件类 | FailedSetupENINetwork |
新建节点全局路由失败 | 新建节点全局路由失败 | 事件类 | FailedToCreateRoute |
节点网络内核参数设置失败 | 节点网络内核参数设置失败,可能影响数据面网络通信 | 事件类 | FailedSetupKernel |
固定IP模式下尝试添加共享网卡失败 | 固定 IP 模式下尝试添加共享网卡失败 | 事件类 | FailedAllocENI |
ip_forward 参数被修改 | ip_forward 参数被修改,可能影响数据面网络通信 | 事件类 | IPForwardChanged |
弹性网卡 IP 分配失败 | 尝试分配弹性网卡 IP 失败 | 事件类 | FailedAddRouteIPs |
节点 PodCIDR 分配失败 | ipamd 同步 node 并尝试分配 podCIDR 失败 | 事件类 | SyncNodeFailed |
同步指定子网失败 | 同步指定子网失败 | 事件类 | FailedSyncNominatedSubnets |
同步辅助网卡安全组配置失败 | 同步辅助网卡安全组配置失败 | 事件类 | FailedSyncSecurityGroups |
rp_filter 参数被修改 | rp_filter 参数被修改,可能影响数据面网络通信 | 事件类 | RpFilterChanged |
全局路由冲突 | 全局路由冲突,可能影响节点数据面网络通信 | 事件类 | GlobalRoutesConflict |
非固定 IP 模式下尝试添加共享网卡失败 | 非固定 IP 模式下尝试添加共享网卡失败 | 事件类 | FailedAttachRENI |
Service 事件告警策略集
模板名称 | 模板说明 | 模板类型 | 事件名称 |
CLB 监听器配额达到上限 | CLB 监听器配额达到上限 | 事件类 | EnsureServiceFailed |
CLB 后端 RS 配额达到上限 | CLB 后端 RS 配额达到上限 | 事件类 | EnsureServiceFailed |
监听器使用证书已过期 | 监听器使用证书已过期 | 事件类 | EnsureServiceFailed |
后端 RS 单点风险 | 后端 RS 单点风险 | 事件类 | EnsureServiceWarning |
Ingress 事件告警策略集
模板名称 | 模板说明 | 模板类型 | 事件名称 |
CLB 监听器配额达到上限 | CLB 监听器配额达到上限 | 事件类 | EnsureServiceFailed |
CLB 后端 RS 配额达到上限 | CLB 后端 RS 配额达到上限 | 事件类 | EnsureServiceFailed |
监听器使用证书已过期 | 监听器使用证书已过期 | 事件类 | EnsureServiceFailed |
后端 RS 单点风险 | 后端 RS 单点风险 | 事件类 | EnsureServiceWarning |