前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >prometheus 告警机制 - 我的告警为什么重发

prometheus 告警机制 - 我的告警为什么重发

作者头像
逝兮诚
发布2022-05-11 09:48:16
1.5K0
发布2022-05-11 09:48:16
举报
文章被收录于专栏:代码人生代码人生

为什么告警总在重复发,有时不重复发,怎么避免

告警会在两种情况下重发

  1. 告警 group 列表中告警有变更(增加或者减少)
  2. 告警持续到 repeat_interval 配置的重发时间。

告警 group 列表理解:在 alertManager 中,同 group 的告警,在 group_interval 的时间段内触发,会聚合到一个列表,如图一。当 prometheus 下次扫描告警规则时,发现告警列表中的告警(新增/恢复),才会触发告警。

比如一个 group 的告警 A, B,C 在 30s 触发,聚合到一个告警列表发送。在下次扫描规则时,A,B,C 持续异常,且没有别的告警,不会发送告警列表;如果存在新告警D,告警列表会加入 D,此时告警列表存在 A, B, C, D,才会发送告警(原列表中告警恢复也会发送)。

如果告警 A,B,C 一直异常,也没有新增告警,直到 repeat_interval 的间隔时间,也会发送。

解决办法

  1. group 将易变的告警和容易持续异常的告警分到不同的组,发送时组内就不会存在一直是异常的告警。
  2. 快速把告警修好。
代码语言:javascript
复制
group_wait: 10s # 分组等待的时间
group_interval: 30s # 上下两组发送告警的间隔时间。比如有同组的告警A和告警B,如果A触发告警,会等待30s,如果B在等待时间内也出发告警,会合并在一起发送,如果告警A 触发两次,告警A 发送后,30s 之后在发告警A第二次触发
repeat_interval: 12h # 重发间隔

图1

在这里插入图片描述
在这里插入图片描述
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2022-03-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 为什么告警总在重复发,有时不重复发,怎么避免
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档