告警管理

最近更新时间:2025-07-15 15:26:32

我的收藏

使用场景

通过配置监控,能够获取集群的实时状态信息;通过配置告警,能够及时发现问题并触发告警,减少故障排查时间并及时处理故障。您可以确保 Kubernetes 集群的高效、稳定运行,同时降低运维成本,提升业务价值。
TKE 集群支持以下三类告警方式:
基础监控指标告警:基于集群及基础资源的监控指标进行告警。
日志告警:基于日志采集与分析进行告警,包括自定义日志、事件日志、审计日志等。
默认事件与审计告警:内置常见异常场景的默认告警规则,支持一键开启,属于日志告警的特殊形式。该功能结合腾讯云容器服务大规模多场景运维经验,覆盖集群和容器运行过程中常见的异常场景,能够及时发出预警,帮助用户快速发现并定位问题,维护集群和业务的稳定运行。具有以下特点:
预设性:默认告警规则是预先设定好的,用户无需手动创建,方便快捷。
通用性:默认告警规则通常适用于大多数场景,可以满足大部分用户的可观测需求。
灵活性:用户可以根据自己的实际需求,自定义告警规则。
易于管理:默认告警规则可以帮助用户快速搭建起一套基本的监控体系,降低管理成本。

前提条件

基础监控指标告警:集群相关基础资源的指标告警,此类告警的数据链路同步自云监控基础资源监控。更多信息,请参见 基础资源监控
日志告警、默认事件与审计告警:集群异常事件告警、异常审计告警。需同时开启日志服务功能,请参见 日志采集事件日志审计日志

操作指引

基础监控指标告警配置

1. 登录 容器服务控制台,选择左侧导航栏中的运维中心 > 告警设置
2. 新建告警策略页面,策略类型选择容器服务(2.0),选择所需设置的指标维度。

3. 设置触发条件,可增加多个指标,请参见 监控及告警指标列表

4. 配置告警通知。

5. 单击完成,可在告警策略中查看。


日志告警配置

1. 登录 容器服务控制台,选择左侧导航栏中的集群
2. 集群管理页面,单击目标集群 ID,进入集群详情页。
3. 选择左侧导航中的日志,配置日志采集规则并投递到 CLS,详情参见 采集容器日志到 CLS事件日志审计日志
4. 登录 日志服务控制台,选择左侧导航栏中的监控告警 > 告警策略
5. 单击新建,即可新建日志告警策略,详情参见 配置告警策略


默认事件与审计告警一键开启

操作步骤

1. 登录 容器服务控制台,选择左侧导航栏中的集群
2. 集群管理页面,单击目标集群 ID,进入集群详情页。
3. 选择左侧导航中的告警,按需选择事件告警、审计告警,单击一键开启。

4. 前往开启事件日志、审计日志。
5. 基于默认告警模板做告警策略选择。

6. 关联通知渠道组,通知渠道推荐邮件、短信、微信、电话。详情参见 管理通知渠道组
7. 单击确定,即可一键开启默认事件告警策略、审计告警策略。
8. 可在告警策略中查看创建的告警策略。

9. 可在告警历史中查看告警历史,单击查看详情


默认告警模板