文档捉虫大赛:人工智能与机器学习专题> HOT
说明:
动态阈值告警功能已全新升级!支持用户根据云产品实例的历史指标进行学习拟合,对异常指标自动进行检测告警。新版本动态告警基于历史数据,从时间序列中分解指标变化趋势、变化周期,指标突发项等维度来进行机器训练。新版动态阈值在实际预测工作中会根据指标特征以及资源消耗两个方面考虑来选择适合的算法。使得告警更加精准,更加智能,同时拥有更低的维护成本。

动态阈值告警的定义

告警管理中的动态阈值告警功能,依托于腾讯云时间序列智能异常检测方案(Intelligent Anomaly Detection,IAD),采用业内领先的机器学习技术并结合业务特性来学习指标数据的历史变化规律,在不需要用户设定阈值的情况下,为您智能地检测指标异常并发送告警。
动态阈值支持各种监控和运维场景(包括业务时间序列数据,基础监控时间序列数据等)的时间序列异常检测,让您远离设置各种检测阈值的烦恼。
在监控类型上,动态阈值同时包括云产品监控和自定义监控两种类型。
常见云产品监控指标:例如 CPU、内存、网络带宽、入流量、出流量等指标。
常见自定义监控指标:例如延时、用户量、访问量等指标。

与静态阈值相比,动态阈值存在的优势

传统的静态阈值通过人为设定恒定阈值,在达到触发条件后发送告警。静态阈值仅适用于在一定范围内波动的监控指标,例如 CPU 利用率、内存利用率、磁盘利用率等指标,但对于网络流量、延时等波动较大或者不具有明显上下边界的指标,检测效果不佳。
动态阈值的优势主要体现在以下几个方面:
人力成本低:缓解静态阈值设定上对于开发或运维人员专家经验的强依赖,降低静态阈值配置成本。
维护成本低:根据指标数据的历史变化规律,自适应调整动态阈值上下边界,无需开发或运维人员定期手动维护阈值,降低维护成本。
告警更精准:内嵌多种检测模型,适用于多种形态的指标检测,通过对指标的趋势性、周期性等特征的捕获和学习,提供更加精准的告警。

使用限制

告警策略:允许用户配置的告警策略数量上限为20,每个策略下创建的告警对象数量上限为20。
时间粒度:目前动态阈值仅适用于1分钟粒度的指标检测,对于不同时间粒度的指标检测将逐步开放。
生效时间:为保证动态阈值检测效果,指标上报的数据量不得少于三天的数据量,否则不会触发告警。

动态阈值的使用

请参见文档 使用动态阈值