操作指南

云产品指标

配置告警策略

最近更新时间:2020-09-01 17:12:57

本文主要介绍如何创建、删除告警策略和设置默认告警策略。

应用场景

您可以针对云监控支持的云产品资源设置性能消耗类指标的阈值告警,也可以针对云产品实例或平台底层基础设施的服务状态设置事件告警,在发生异常时及时通知您采取措施。告警策略包括名称、策略类型和告警触发条件、告警对象、告警渠道五个必要组成部分。您可以根据以下指引进行告警策略的创建。

操作步骤

创建告警策略

  1. 登录 云监控控制台
  2. 单击【告警配置】>【告警策略】,进入告警策略配置页面。
  3. 单击【新增】,配置告警策略,配置说明如下。
    配置类型 配置项 说明
    基础配置 策略名称 自定义策略名称
    备注 自定义策略备注
    策略类型 选择您需要监控的云产品策略类型
    所属项目 所属项目有以下两个作用:
    • 管理告警策略。设置所属项目后,您可以在告警策略列表快速筛选该项目下的告警策略。
    • 管理实例。根据需求选择项目,在告警对象中可快速选择该项目下的实例。您可以根据您的业务类型把云产品分配到各个项目。如需创建项目,请参见 项目管理 创建项目后,可在各云产品控制台中为各云产品资源分配项目,部分云产品不支持分配项目。(例如,云数据库 MySQL 可参考 为实例指定项目 指引把实例分配到对应的项目),若您没有项目权限,请参考 访问管理 授予权限。
    告警对象
    • 选中全部对象,则该告警策略绑定当前账号拥有权限的全部实例。
    • 选中选择部分对象,则该告警策略绑定用户选中的实例。
    • 选中选择实例组,则该告警策略绑定用户选中的实例分组。
    告警触发条件 配置触发条件
    (指标告警)
    • 告警触发条件:指标、比较关系、阈值、统计周期和持续周期组成的一个有语义的条件。
      例如,指标为 CPU 利用率 、比较关系为> 、阈值为80% 、统计周期为5分钟 、持续周期为2个周期。
      表示:每5分钟收集一次 CPU 利用率数据,若某台云服务器的 CPU 利用率连续三次大于80%则触发告警。
    • 告警频率:您可以为您的每一条告警规则设置重复通知策略。即当告警产生时,您可以定义告警以特定的频率重复通知。
      可选:不重复、5分钟、10分钟、周期指数递增...等重复频率。
      • 周期指数递增的含义是当该告警第1次、第2次、第4次、第8次...第2的 N 次方次被触发时,向您发送告警信息。意义是告警信息发送时长间隔将越来越长,一定程度上避免重复告警对您的骚扰。
      • 重复告警默认逻辑:告警产生后的24小时内,将按您设定的重复通知频率重复给您发送告警信息。告警产生满24小时,将默认切换为1天通知1次的策略进行重复通知。
    配置触发条件
    (事件告警)
    在云产品资源或底层基础设施服务发生异常时,可以创建时间告警及时通知您采取措施。详情请查看 事件中心
    触发条件模板 开启触发条件模板,并在下拉列表选择已配置的模板,具体配置请参阅 配置触发条件模板 。若新建的模板没有显示,则单击右侧的【刷新】,即可刷新触发告警模板选择列表
    告警渠道 接收对象 根据您的需求配置接收组或接收人。若您没有绑定接收对象权限,请参考 访问管理 授予权限。
    有效时间段 您可以自定义告警通知有效时间,默认为全天有效(即 00:00:00 - 23:59:59)。
    接收渠道 支持邮件、短信、微信接收渠道。
    • 在配置邮件、短信接收渠道前请在 访问管理 控制台确认您的邮箱、短信是否验证,若未验证则无法接收到告警通知。每个告警类型、每用户、每月为1000条免费短信配额,超量后将无法收到短信告警,可参考 短信渠道 指引购买短信。
    • 选择微信告警渠道,需进行微信渠道验证请参考 微信渠道
    接口回调 - 通过回调接口,您的系统可以直接收到腾讯云的告警通知,详情请参考 回调接口
  4. 配置完以上信息后单击【保存】,即成功创建告警策略。
    说明:

    云服务器告警需要云服务器实例 安装监控控件 上报监控指标数据后才能正常发送告警。在云产品监控页面可以查看未安装监控 agent 的云服务器,并下载 IP 列表。

删除告警策略

说明:

告警策略列表中【已启用/实例数】字段展示该告警策略已经 关联的告警对象 个数。若已应用数值非0,则不可删除该策略,解除所有告警对象与该策略关联后,才可删除该策略。

情况一:告警策略未绑定实例。

在告警策略列表中,直接单击【删除】即可。

情况二: 告警策略已绑定实例。

  1. 在告警策略列表中,单击您需要删除的告警策略名,进入告警策略管理页。
  2. 在告警对象中单击【全部解除】,在弹框中确认解除。(如有多地域需重复执行该步骤,直到所有地域所有实例解除完)。
  3. 所有实例解除成功后,返回告警策略列表页,单击【删除】即可。

默认告警策略

目前默认策略仅支持云服务器-基础监控、云数据库 MongoDB、云数据库-Mysql-主机监控、云数据库 Redis、云数据库-CynosDB-MySQL、云数据库-CynosDB-PostgreSQL、消息服务CKafka-实例、Elasticsearch服务 。

  • 当您首次成功购买默认策略支持的云产品,云监控会为您自动创建默认告警策略。如需了解默认策略支持的指标/事件或告警规则,请参见 云产品默认策略说明
  • 您也可以手动创建告警策略,设为默认告警策略。设置成功后新购买的实例会自动关联默认策略,无需您手动添加。
说明:

每种策略类型每个项目仅有一个默认策略。

设置为默认的告警策略不可删除。

云产品默认策略说明如下:

产品名称 告警类型 指标/事件名称 告警规则
云服务器 指标告警 CPU 利用率 统计周期为1分钟;阈值为>95%;持续周期为5个周期
内存利用率 统计周期为1分钟;阈值为>95%;持续周期为5个周期
磁盘利用率 统计周期为1分钟;阈值为>95%;持续周期为5个周期
外网带宽利用率 统计周期为1分钟;阈值为>95%;持续周期为5个周期
事件告警 磁盘只读 -
云数据库
Mysql-主机监控
指标告警 磁盘利用率 统计周期为1分钟;阈值为>80%;持续周期为5个周期
CPU 利用率 统计周期为1分钟;阈值为>80%;持续周期为5个周期
事件告警 内存OOM -
云数据库
MongoDB
指标告警 磁盘使用率 统计周期为1分钟;阈值为>80%;持续周期为5个周期
连接使用率 统计周期为1分钟;阈值为>80%;持续周期为5个周期
云数据库
Redis-CKV 版本/社区版
指标告警 容量使用率 统计周期为1分钟;阈值为>80%;持续周期为5个周期
云数据库
CynosDB-MySQL
事件告警 内存 OOM -
实例只读(硬盘超限)
云数据库
CynosDB-PostgreSQL
事件告警 内存不足 -
内存OOM
消息服务
CKafka-实例
指标告警 磁盘使用百分比 统计周期为1分钟;阈值为>85%;持续周期为5个周期
Elasticsearch 服务 指标告警 平均磁盘使用率 统计周期为1分钟;阈值为>80%;持续周期为5个周期
平均 CPU 使用率 统计周期为1分钟;阈值为>90%;持续周期为5个周期
平均 JVM 内存使用率 统计周期为1分钟;阈值为>85%;持续周期为5个周期
集群健康状态 统计周期为1分钟;阈值为>=1;持续周期为5个周期
目录