操作指南

API 文档

云产品监控指标

使用动态阈值

最近更新时间:2022-05-20 10:05:28

本文主要介绍动态阈值的使用方法和使用场景。

创建动态阈值告警

  1. 登录 云监控控制台-告警策略
  2. 进入告警策略管理页,单击新建
  3. 在配置告警规则模块中,选择“手动配置”。阈值类型选择为“动态"。所有项目配置完后,单击保存即可。

灵敏度
动态阈值的敏感度是从用户对指标检测的业务需求出发,对指标偏离合理区间的相对程度。选项包括:

  • 高:指标偏离合理区间的容忍程度较低,用户接收告警量较多。
  • 中:默认设置,指标偏离合理区间的容忍程度中等,用户接收告警量中等。
  • 低:指标偏离合理区间的容忍程度较高,用户接收告警量较少。

条件设置
动态阈值的告警规则可以使用相同的告警规则,基于指标行为的上限和下限创建定制的阈值。 选项包括:

  • 大于或小于:即指标小于动态阈值下边界或大于动态阈值上边界时检测为异常,例如在一定范围内波动的指标。
  • 大于:即指标大于动态阈值上边界时检测为异常,例如 CPU 使用率一般只关注大于动态阈值上边界。
  • 小于:即指标小于动态阈值下边界时检测为异常,例如业务成功数或成功率一般只关注小于动态阈值下边界。

图表元素解析:

  • 曲线 :用户上报的原始指标的聚合展示。
    灰色阴影区域 :动态阈值计算出的合理范围,当指标在此区域内表示正常,超出区域外表示为异常。
  • 蓝色曲线:动态阈值检测为正常的时间段。
  • 红线曲线 :动态阈值检测为异常的时间段。

动态阈值使用场景

以下为您介绍动态阈值常见使用场景:

场景1:指标呈现周期性波动

当指标呈现周期性波动时,设置较高的静态阈值,则无法检测出图中明显异常点;设置较低的静态阈值时,则大量的时间段会被错误检测为异常。该场景适合使用动态阈值检测,既能保证检测的准确性,也能避免重复告警对用户的骚扰。

场景2:指标呈现趋势性增长或下降

当指标呈现合理的增长或下降趋势时,如果使用静态阈值,将会在持续下降的时间内被检测是异常;如果使用动态阈值,合理范围会随着趋势自适应调整,当且仅当指标变化幅度明显过大时会被检测为异常。

场景3:指标呈现突增或突降趋势

当指标呈现突然增长或下降的变化时,如果使用静态阈值,则难以设置合理的恒定阈值,且当指标超出设定的阈值才被检测为异常;如果使用动态阈值,则可自动捕捉不同程度的突增或突降变化,对于指标变化幅度明显过大时会被检测为异常。

设置不同的灵敏度进而自动捕捉不同程度的变化幅度,进而触发告警。

建议使用动态阈值的指标:

场景 指标 特点
饱和度 成功率、失败率、丢包率、流量命中率、出流使用率、查询拒绝率、带宽使用率 指标范围确定,通常位于0 - 100%之间。值具有特殊的场景意义,用户往往只关注阈值。例如磁盘使用率往往超过95%,用户才会真正的关心。该场景适合静态阈值或静态阈值结合动态阈值。
网络流量 网络入带宽、网络出带宽、网络入包量、网络出包量 指标通常随着时间变化而变化,指标范围不确定,一般指标波动幅度较大。该场景适合动态阈值。
延时 延时次数、延时距离、延时时长 指标波动幅度通常较小,指标范围不确定。该场景适合动态阈值。
其它 慢查询数、云数据库的线程数、redis 连接数、tcp 连接数、QPS 硬盘、IO 等待时间、临时表数量、全表扫描数、kafka 未消费信息数 该场景适合动态阈值。
目录