今天我们就来聊聊 基于Prometheus和Grafana的监控平台的异常告警功能,这也是Prometheus系列的最后一篇。
新版本的Grafana已经提供了告警配置,直接在dashboard监控panel中设置告警即可,但是我用过后发现其实并不灵活,不支持变量,而且好多下载的图表无法使用告警,所以我们不选择使用Grafana告警,而使用Alertmanager。
相比于Grafana的图形化界面,Alertmanager需要依靠配置文件实现,配置稍显繁琐,但是胜在功能强大灵活。接下来我们就一步一步实现告警通知。
Alertmanager告警主要使用以下两种:
这次主要使用邮件的方式进行告警。
tar -zxvf alertmanager-0.19.0.linux-amd64.tar.gz
./amtool check-config alertmanager.yml
校验文件是否正确。
校验正确后使用命令启动alertmanager。nohup ./alertmanager &
。(第一次启动可以不使用nohup静默启动,方便后面查看日志)
上面的配置中我们只定义了一个路由,那就意味着所有由Prometheus产生的告警在发送到Alertmanager之后都会通过名为email
的receiver接收。实际上,对于不同级别的告警,会有不同的处理方式,因此在route中,我们还可以定义更多的子Route。具体配置规则大家可以去百度进一步了解。
service_down.yml
,当服务器下线时发送邮件。
groups:
- name: ServiceStatus
rules:
- alert: ServiceStatusAlert
expr: up == 0
for: 2m
labels:
team: node
annotations:
summary: "Instance {{ $labels.instance }} has bean down"
description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 2 minutes."
value: "{{ $value }}"
配置详解
alert:告警规则的名称。
expr:基于PromQL表达式告警触发条件,用于计算是否有时间序列满足该条件。
for:评估等待时间,可选参数。用于表示只有当触发条件持续一段时间后才发送告警。在等待期间新产生告警的状态为PENDING,等待期后为FIRING。
labels:自定义标签,允许用户指定要附加到告警上的一组附加标签。
annotations:用于指定一组附加信息,比如用于描述告警详细信息的文字等,annotations的内容在告警产生时会一同作为参数发送到Alertmanager。
配置完成后重启Prometheus,访问Prometheus查看告警配置。Alertmanager的告警内容支持使用模板配置,可以使用好看的模板进行渲染,感兴趣的可以试试!
node exporter的一些指标计算语句