00:01
大家好。在上一节视频中,我们讲到了graph,嗯,其他的一些native panel,比如嗯,Taste panel alert list pan,以及basketballboard list。这些也都属于gra native盘。这一节。我们来看一下的邮件告警设置。的,嗯,告警规则它是附加在一个一个的gra盘上面。Graph仅支持大部分数据源的告警,如graphite、普罗米修斯、in TV search my等,但不支持对扎数据源的告警。上一节我们也上一节,视频中我们也看到了。啊,但是呢,扎本身就是一个强大的监控告警系统。另外的告警规则仅支持在。
01:03
Graph panel上面配件。并且不支持这个。啊,就是说这个仪表啊,这个代带变量。嗯。例如啊,其他的像table panda state panda GA baggage这些都不支持告警规设置告警规则。因此,我们可以知道的核心还是在数据可视化。告警功能也仅仅是。做一个锦上添花的一个功能。好,我们来看一下邮件,邮件告警功能的设置。第一步的话,我们要修改的配置是配置SMTP啊,就是这几项我们来看一下。
02:17
我们来看一下。啊,就是说我们先enable。就启用SMTP,我这里是配置的是一个163的邮箱,然后这是邮箱,然后就password password的话我们是要用on。啊,跳过认证,然后邮箱的来源,然后name。然后这个。邮箱的O是在这里设置。
03:00
我们登录163的网页版,然后在设置这里。设置。POP3SMTP这里,然后我们要开启,在这个地方开启,然后它就会给你一个。嗯,需要短信,需要短信验证,然后会给给到我们一个奥N。然后这个on只会展示一次,需要我们记住。嗯,这里我已经设置好了,所以。我就不在,嗯,验证了修改。啊,这。然后。第二步。修改以后我们要重启,我们要重启。我们这里也说明了。如果不用,如果用password来设置的话,它可能会报五零日志里面,日志的话就是在的日志里面就是。
04:08
就是,嗯。他在里面日志里面可能会报550。看一下,我看一下有没有。之前刚开始设置的时候,也会有550的这种。然后第二步的话,我们就要配置告警通道。然后我们来看一下。通道老铁。Not notification China在这里配一个,比如说我们这里设一个通道名字,嗯,Or not,佩服你。然后这里选择邮件告警,你看它支持的告警类型有很多外部户口钉钉啊,这些都支持啊,我们这里显示有件,然后default默认send on all a lot这个选项是什么意思呢?就是。
05:15
那所有的假如说。啊,所有的图形啊,啊,告警功能默认就选择使用这个告警通道。啊,我们我们先勾选这个,一会看一下。然后这里是告警是否发送图片。啊,补货图片。啊,我在六点六点六点插版本的时候,它的这个邮件的告警图片截图是准确的,但是在6.7.3好像截图不准确,我们一会来看一下,然后这个disable。嗯,就是恢复告警邮件是否发送,是否发送恢复告警的邮件信息。啊,默认是。Disable禁用的。是否禁用?
06:01
我们禁用它不发送。然后,嗯。这个是就是说是否重,就是说重复发送,比如说多少分钟以后,如果告警还没恢复的话,我们再重复发送,比如说我们是十分钟再发一次。然后这里我们设一下邮箱地址。我们。就拿刚才这个。因为现在反垃圾邮件很厉害,如果我们用其他邮箱的话,最好是把自己的这个邮,把这个发邮件的这个也设一下,然后。啊,它这里提示了。啊,可以设置多个邮箱地址以分号。做分隔符好,我们先说,我们就这里演示就说一个,然后我们C5一下。然后我们再test一下,看能不能发送邮件。新的test。
07:02
啊,这里是test啊。我们看一下。这里已经发送成功了。是吧,啊正常的话应该是发一个邮件的话,他确实这里能捕获到这个图,但实际我们在演示的时候,可能他这个图可能捕获不到,我们一会看一下看一下。然后。我们来再来看一下。接下来我们就要在图上面。在图上面去设置。啊,在一个图形上面设置就告警,就哪些图要告警。比如说。这些的话,它都是不支持的,没有告警的这个。我刚没有告警功能,我们先拿这个复制一下。我把它改成图形。
08:03
这里我用的是普罗米修斯的数据源,就因为扎斯它是不支持的。我们来看一下跟按照文档的话,刚才这里已经都做了设置。嗯。开启后表示发送回复邮件。PC镜子。默认关闭。这里有点拗口。开启后还需设置辖的发送间隔。持续多长时间发生一次邮件?也分号隔开。嗯,刚才这里都已经演示过了。然后设置告警规则。然后我们先把先把它改成图形。改成图形。这个是。这个是CPU使用率,然后我们把负载也加一个。
09:02
我们把负载加一个。然后我们也把它改成图形。然后我们在。再加一个。内存吧。妹子也是一个。都要都要改成图形。嗯,才会有。才能设置这个。高点,好,我们以第一个图,我们先来看一下。你看这里有一个a lot的这个铃铛的这个图标是吧,然后我们现在来创建一个告警,比较CPU使用率a lot,然后这里是这个告警这个规则,这个规则的一个间隔,检查间隔。然后这里是。For是表示这个持续多长时间,认为它达到告警条件了,比如说我这里射成一分钟,就比如说哦,我检测到。
10:08
嗯,达到告警条件了,然后他要持续一分钟。然后如果这一分钟内告警恢复了,那就不告就就仍然不告警,如果一分钟还没有恢复,然后它就从配状态到发送告警通知,然后这个是条件,条件的话,这里有一些聚合函数,然后我们通常是选择last吧,最近吧,最近,然后query的话,这里这个A是表示这个。表示查询了这个这个A,如果我们这里是还有BCDEF的话,你就用BCD,用其他的好,我们这里是A,然后比如说。也是一分钟,比如说是从现在。现在到一分钟前这一段时间,如果打CPU使用率如果达到80%啊80,你看这里有一个。
11:01
这个是可以拖动的啊,你看它这跟着变化的,我们现在说的是。80啊,CQ达到80的时候,然后就告警。这底下还可以加更多的条件。然后这个是如果没有数据,或者说出现错误的时候,我们该怎么,它该怎么处理,就是如果没有数据或者是空值的话,我们就显示no data,如果是说。啊,执行出错或者超时的话,那我们可以是告警,或者说keep last state啊,那我们选择保持上一次的状态。然后这个你看。刚才说到了,嗯,那个。刚才说到这个设置,就说send on all all a lot,就这个功能啊。其实在这里它默认就选中了这个。比如说。我现在把这个功能。等一下我们回到这个。地方,我们来演,再来看一下。
12:01
行,我们把这个功能关掉。我们我们来刷新一下,我们先来。我们来看一下。你看到没有send to的话,它默认就没有选择,没有选择那个告警通道。没有选择这个A。啊,如果我这里开启的话,它默认所有的你只要。你只要设置告警规则,那它就会默认。去使用该通道。看到没有?然后这里是一些信息,一些提示信息,描述信息吧。嗯,比如说我。我随便写一写。写这些描述吧。然后。这个就相当于我是完成了,其实因为现在负载CPU的使用率很低,这里是看不到那个,只是在这里有个新型的图标,然后我们顺便把系统的负载也设一下。
13:09
一会再来看一下,我们这里设成两分钟吧。其实两分钟。然后这里也是想must,然后。啊,一分钟持续,假如说一分钟负载。因为A是。A面板这里是。负载一是吧,一五十五啊三个负载,然后我们这里设成五吧,然后我们再添加一个。啊,如果。这里选择B,就是五分钟,五分钟的负载,然后我们这里仍然选择,我们这里选择两分钟吧。啊,就是说一现在到一分钟前,这是现在到两分钟前。两分钟前。假如说是三。然后我们再加一个。
14:01
持续,比如说这是C。啊,就是五分钟吧,五分钟,现在到五分钟前它的负载是三,比如说我们这里是六吧,待会我压测一下。这里是五吧。356。然后这里。仍然按上面的设置。住宅高点随便设一个,这里不设一个。通,嗯,Message这里可以不设置,嗯,然后在下面有tag,就是选中一些tag,添加一些tag来啊,不打上。这是负载,然后我们再加一个内存,把内存的这个设了就。嗯,内存的话这个地方。嗯,这个这个。这里要调整一下啊,然后。设置一下。50%,然后然后这个地方还有要设置一下的,就是说CPU的百百分比啊,它的它的最大的就是最大,它的这个是100。
15:05
啊,然后我们这里也是设成零到100啊。你看到没有,先让他这里图标最大是100。我们加一个保留,保留一味金。也会小苏吧?就这样。内存使用率。内存使用,然后我们来也快速创建一个。内存两分钟吧。然后也是,然后一分钟超过60%。No。嗯,好。这是第一点,内存可能可能达不到。我们收50%啊。然后保存一下。然后我们再来添加一个。告警。就是a lot list。我们上一堂课也。上一节视频也讲到过的。
16:00
你来看一下。选择a not list。这是之前的。嗯。我设计好,那肯定是。No current state。这里就按缺审吧。确诊设置好,我们来。我们来压测一下。时间要长一点。然后要狠一点,我们来看一看。这里要要刷新清楚,我们一会儿看一下。
17:01
就是说每一个。Panel上面就每一个图形上面,我们都要设置一个规则。这个地方刚才讲过了。告警条件。然后我们再看一下。啊,现在是处于配定状态,就刚才那个for那个地方。就是这个条件。他首先是满足条件以后,他还要等待一分钟,就在这一分钟,如果他是他都是处于判定状态的,一分钟过后,如果告警还存在的话,它就它就发生告警。内存。内存还没压上呢。复杂的话。或者的话没那么快。
18:07
内存内存。现负责八点几。一分钟是八点几,五分钟是两点几。所以这个搞。负载的高级应该没那么快。嗯。他这里已经发送了,应该我们来看一下。啊,已经邮件已经过来了,他已经发送。我们看一下。Make name刚才忘记改了这个地方。嗯,这个就是我刚才。加的那个message那个描述啊,然后当前的告警的时候,CPU已经是100%,这个这个地方的名字可以改一下。
19:09
嗯,因为。这个是徒弟的名字。就是比如说就是CPU01,你就用CPU01好了。这里也可以给他一个当前显示当前值。然后这个也是一样,这个我刚才这里我已经说了。啊,同年设。也可以让他显示一下当天值。显示。当前质。然后内存也是内存的话,我们这里也是成是一个统一啊。或者是1PP没人。这个是。
20:05
嗯,负载的话还没有达到条件,15分钟的话,他才二点几没有达到条件,我们把把这个。稍微也调整一下。那么看一下快速发个邮件。压测负载太高了,保存都保存不了了。嗯。好像。出问题。谢谢。嗯,系统负载现在是处于配定了,他一会儿应该也要也要发邮件。我们来看一下。
21:17
嗯,另外就是说大家在。设置这个。的时候啊,他是需要。短信验证的,就是说要绑。嗯,绑定手机。才能才能接收。嗯。准推定。好,这里是两分钟。应该快了。
22:08
CPU。主要是压测的可能。对,这个有影响,因为这是虚拟机嘛,影响到物理机了,也影响到古这台主机了。所以告警可能会有延迟,他他目前还是处于配定状态。内存这里都已经降下来了,内存可能不会现在收到了负载的告警是吧。内存的话我就不不看了,内存它这里掉下来。内存的话,你要要要他告警的话,这里除非设低一点,设到40。啊,如果想要看效果的话,这里改到你。
23:00
保存一下,他可能会。因为现在是62%。60。嗯。好,这里这里有个要设置一下,我们这里要它默认是按。我们这里的话。应该是按0.0.5这样来。这个在。57。59%。
24:01
我们把这里调整一下。然后这里改成。100%。然后明天。因为因为这里计算出来的话,它是一个零点几,然后要乘以100,我这里采用的话,刚才采用的是。啊,0.0到1.0。所以他没有,我现在调整这个方式,他应该就告警。刚才恢复的。啊,系统负载看到没有系统负载的话,它它其实它这个图,它这个图捕捉这个图它是不准确的,我在6.6.6.2的时候,他的图是准确的,现在是用的是6.7.3。啊,不知道是。啊,分辨率还是什么原因,没有没有捕捉到正确的图,就是说没有捕捉到这个。
25:03
这个图。这就是嗯的一个邮件告警的功能。啊,下一节我们。看一下啊,第三方插件的第三方插件AG。Image it这个这个插件可以展示网络拓扑的。这就讲到这里。
我来说两句