专栏首页SRE运维实践promethues邮件告警

promethues邮件告警

序言

监控告警有很多种方式,有邮件,有短信,有电话,方式各种各样。。。接口总比方法多。

在prometheus的监控系统中,自带就有告警系统,就是alertmanager组件,除了可以在prometheus中配置,也可以在grafna中进行配置邮件的相关信息。

告警。。。一个系统一天发出2个故障,就已经够了,按照处理时间来算,on call超过2个故障就已经超出了on call人员的处理时间。。。邮件告警可以认为是可以延迟处理的工单,告警应该出现的原因不同,如果一个告警出现的次数超过3次,那么要么就是屏蔽这个告警,要么就应该找到本质原因,然后进行优化。

邮件告警配置

在进行邮件告警的主要配置在alertmanager容器中:

配置文件内容如下:

运行alertmanager容器:

测试发送邮件(需要设置告警规则):

查看收到的邮件:

在程序恢复之后,alertmanager中的告警自动恢复,但是不会发送邮件恢复通知。

在使用163邮箱的时候,如果查看容器docker logs -f alertmanager,550 user permission is denied,那么表示权限不足,需要在邮箱中开启访问权限。

在使用镜像的时候,如果出现报错连接5001端口,表示配置文件的路径不对,没有覆盖默认的配置文件,默认的是slack的5001端口。

风言风语

在告警的时候,我们能做什么。。。让告警系统闭嘴是最好的咯。

告警规则的设计,尽量简单,但是又能反映出是什么组件有问题,及相应的处理方法。。。在故障发生的时候,并不能抗住多少压力,脑子一片空白,所以还是有应急预案是最好的。

除了告警规则的设置,另外能做的就是在告警发出的时候,能做什么?如果能每次找到根本原因,从代码的层面进行修复,那么是最好的,如果不能,那就只能调用其他的系统来进行修复了。。。例如收到一个告警,一个VM宕机,那么可以找到配置中心,根据相同的配置在一个空闲的machine上拉起一个VM,能快速的恢复业务,而物理机宕机则可以慢慢的进行处理。

区分紧急警报和工单很重要,界限在哪里,而很多情况下并不是很明确,这个需要研发部门和业务部门共同商量得出,哪些事关键的核心服务,一旦出现问题,那么必须人工介入进行处理,否则就会拖累SLA。

babysitting。。。不会带孩子,一哭就慌了。。。

本文分享自微信公众号 - SRE运维实践(gh_319dd73ec076),作者:NAN

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-10-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 聊聊监控系统

    作为运维者,第一个接触的基本上是监控平台,各种各样的监控,看各种各样的指标,好像没有监控就觉得不正常,那么为什么需要监控呢?

    SRE运维实践
  • 聊聊分布式的可扩展性

    团队,总会有人离开,总会有人加入。。。总会有一个leader,当服务器的数量增加的时候,业务增加的时候,总会进行相关的扩容或者缩容,那么这个团队的扩展性如何?...

    SRE运维实践
  • 闲聊容器的标签

    容器的每个部分都可以打标签,也就是我们经常谈到的label,例如容器container有标签,镜像image有标签,网络network有标签,存储卷volum...

    SRE运维实践
  • 基于SkyWalking的分布式跟踪系统 - 异常告警

    通过前面2篇文章我们搭建了SW的基础环境,监控了微服务,能了解所有服务的运行情况。但是当出现服务响应慢,接口耗时严重时我们需要立即定位到问题,这就需要我们今天的...

    JAVA日知录
  • 干货 | 携程新一代呼叫中心话务监控平台

    作者简介 通信技术中心,主要负责携程呼叫中心日常运维,包括配置管理和监控平台开发,目前主要在呼叫中心运维自动化方向探索和演进。 一、携程呼叫中心话务概况 携程...

    携程技术
  • 多图 | 如何告别那些没卵用的线上告警!

    没有多少系统的告警是设计得当的。良好的告警设计是一项非常困难的工作。如何知道你收到的告警是糟糕的?多少次你收到了告警之后,立即就关掉了的?是不是成天被这些然而并...

    芋道源码
  • 腾讯海量监控体系经验分享

    提及腾讯的海量监控的挑战,将近 20 套监控系统,指标有将近 300 多个,监控的实例超过 900 万。

    腾讯大讲堂
  • 告别那些没卵用的告警

    没有多少系统的告警是设计得当的。良好的告警设计是一项非常困难的工作。如何知道你收到的告警是糟糕的?多少次你收到了告警之后,立即就关掉了的?是不是成天被这些然而并...

    zhisheng
  • 告别那些没卵用的告警

    没有多少系统的告警是设计得当的。良好的告警设计是一项非常困难的工作。如何知道你收到的告警是糟糕的?多少次你收到了告警之后,立即就关掉了的?是不是成天被这些然而并...

    zhisheng
  • Grafana异常告警配置很简单(1)

    Grafana Alerting支持多种告警渠道,但是作为一款海外的软件其本身支持的告警渠道很多都是适合国内使用的。例如 Pushover、Telegram、L...

    CainGao

扫码关注云+社区

领取腾讯云代金券