腾讯云可观测平台 - 5大告警能力升级,提升告警运维效率!

新功能
已发布
发布于 2023-05-18

一、告警大盘

痛点:

功能优化前只能通过杂乱的告警历史记录手动筛选、查看和分析告警问题,无法快速了解当前告警的关键问题,也无法快速得到历史告警的分析结果。

解决方案1:

增加近7天告警模块,支持对近7天内仍未恢复的告警统计。帮助用户不同维度查看和分析告警问题。

解决方案2:

增加近30天告警模块,支持对近30天内告警情况分析。

支持展示全类型告警总数、各类型告警数量(包括云产品监控、云拨测、应用性能监控、前端性能监控),展示近30天内产生告警数量在告警时间维度上的分布、告警状态分布(包括:已恢复、未回复、已失效、数据不足)、各维度 TOP 告警。帮助用户不同维度查看和分析告警问题。

二、告警详情

痛点:

用户收到告警通知后没有快速查看故障详情的入口,需要手动去搜索查看告警相关的问题以及当前的状态和进展。

解决方案:

新增告警详情功能,让您在收到告警通知后能够迅速查看故障详情信息。该功能包括实例的详细信息、异常指标的变化情况、故障发生的时间区域以及告警触发条件等。您还可以通过筛选指定时间来查看指标变化趋势,进一步分析告警的具体触发时间。

三、同比告警

痛点:

很多用户的业务场景存在周期性的规律变化,例如日间的流量大于夜间的流量,此时配置静态阈值会导致夜间或日间产生很多无用的告警,对用户来说会造成告警骚扰。

解决方案:

在环比告警能力外,此次新增同比告警,支持用户进行日同比和周同比告警配置。使用同比告警可以通过对比不同周期同一时刻的变化。

同比告警可以减少由于业务随机波动或其他因素引起不必要的告警,提高告警的可信度。

同比告警还可以排除季节性和周期性因素的影响,您可以根据指标变化更加准确地配置告警。

四、复合告警

痛点:

之前的告警模块只有 AND 或者 OR 运算符来组合告警条件,用户无法对告警条件进行灵活组合,导致需要配置大量的告警策略并收到很多零散的告警通知。

解决方案:

新增使用复合告警功能,用户可以同时使用 AND 和 OR 逻辑,将告警条件组合成告警表达式。复合告警适用于更灵活的组合应用场景,实现告警条件嵌套和层级判断,形成一个更全面、更准确的告警。

五、动态告警

痛点:

对于部分用户来说,静态阈值需要配置大量的告警策略,并且静态阈值在一些周期性变化的场景下并不适用,可能会导致无意义的告警,对用户来说会带来骚扰。

解决方案:

优化原有动态阈值告警功能。使得告警更加精准,更加智能,同时拥有更低的维护成本。

新版本动态告警功能在旧版动态告警功能的基础上进行了模型优化,支持根据用户云产品实例的历史指标进行学习拟合,对异常指标自动进行检测告警。

新版本动态告警基于历史数据,从时间序列中分解指标变化趋势,变化周期,指标突发项等维度来进行机器训练。新版动态阈值在实际预测工作中会根据指标特征以及资源消耗两个方面考虑来选择适合的算法。