00:01
那么接下来呢,咱们在这里啊,给大家呢,列出几个常用的啊,这个案例的配置啊,那比如说我们这个任务失败的监控,对吧,这个是比较常见的对吧?比如说我现在我运行了一个Li的的应用,对吧?那我现在呢,想去监控一下对吧,如果已经挂掉的话,那马上对它做一个监控,对吧,这是比较常见的,包括网络延时或者任务重启的监控,对吧,重启次数的监控对吧?这些其实是比较常见的需求,对吧?那么咱们以其中某一个为例啊,比如说任务失败监控为例子,那么怎么去实现咱们这个任务失败这个监控是吧?这个指标呢,对吧?那么这个指标你要想去统计这种室外监控的话,它其实主要依赖于fli,有一个指标叫什么叫fli job manager job up time对吧,那么咱们这个指标它的作用干什么,对吧,说我现在啊,这个如果照我它存活的时候,那么会按照我们原来在我们这里这个配置,这配置是什么,是不是我们。
01:02
上报它的一个频率啊对,大家想一想,在我们的flink配置文件中,我们其实呢,配置一个这样的属性,那么这个属性呢,它表示的是我们现在呢,要把当前我们这个弗Li它的一个运行情况,那么像谁呢?像普罗米修斯啊,像getway,然后呢去做推送,对吧?那么咱们现在呢,在这里他推送的时候呢,会通过咱当前这个指标来记录一下时间。啊,记住时间,那么如果说我现在的任务失败的话,那你说我当前这个指标的值呢,就不变了,导致我现在这里边我就我如果说比如说我现在同学们,我30秒钟推送一次对吧,零然后呢30,然后呢60 90等在这里我现在推送了,等结果到90秒的时候呢,我挂掉了,等到如果挂掉的话,那么这个时候呢,它始终就不变了,九十九十对吧,这个东西它这个指标数值呢就不变了,我只始终我只能采集到,就你在这个时间点上给我推送数据,对,然后边呢就没有了啊后边就没有了,对吧?那么咱们基于这个特点,那么怎么样来去实现我们的任务失败的监控呢?那么这里咱们呢,再带着家简单的去配置一下,对吧,那么具体怎么配,那么咱们呢,来到我把这格放在里边吧,对吧,那我再去创建一个我们这个。
02:21
我再去创建一个我们现在它的一个仪表盘啊,那么这个呢,咱们就来啊,比如说当前呢,它的panel,这个是任务失败它的一个监控啊,这个是任务失败的一个监控,对吧?那么具体在咱们这个失败的时候,对吧?那么他要配置什么东西对吧?那我说我现在呢,要通过一个咱们的指标,这个指标叫什么呢?来来看这里有一个叫做flink job manager job up time这个指标进行监控,那么关键是怎么样去,呃,知道我现在任务失败的呢,对吧?那么大家想一下啊,那么如果说你现在到90的时候失败了,那么下次再过30秒,那么你拿到的这个东西其实还是在90的时候他提交的,对吧?那么你现在这里他俩去减这个差的话,是不是其实时间差是零啊,对吧,那其实我现在完全可以利用我们这个特性,那么怎么做呢?对吧,利用我当前上报的一个对吧,这个时间我现在啊,这个指标采集上去上报时间。
03:21
那给人90,如果一旦你挂掉的话,那么咱们现在呢,上次对吧,那么你的时间那也是就30秒之前,你就是90的时候,这个时间点给我拿到的上报的数据,你过30秒时之后呢,你还是在90的时间点给我找去拿的数据,所以说同学们,咱们现在在这里呢,那我用当前的时间点,然后呢,减去你的30秒之前的上报时间点,我看一看,对,那么他俩是不是一样,如果一样的话,那么说明什么?说明咱们这两次拿到的上报的时间呢,其实一样的,那说明你现在的这个服务挂掉了,等于只有挂掉的话,他才会拿到他上次和上次一样的一个上报时间点,对吧?哎,那么咱们现在呢,我又这我又这这样做的方式啊,那可以把咱们现在呢,对吧,这个需求给完成对吧,那同学们,那你看我在这里。
04:12
我去做一个咱们的一个处理对吧,然后接下来去查询一下对吧,那你可以看到啊,咱们现在呢,那每秒对吧,他的一个我们的个情况对吧,什么时候上报,什么时候上报,什么时候上报对吧,这样的一个情况对吧?哎,那么咱们现在呢,那这里我为了就展示方便同学们,那其实呢,我可以再做一个对吧除100对吧这样的操作,对那这种其你可以不除啊同学们对吧,那么咱们这里呢,我如果说要是看的这个方面的话,那你可以做相除,但相除的话,这块其实效果不是特别好,对吧,其实你可以这块呢不除,把这个除值无所谓,其实就是让他看的效果呢,感感觉更直观一点,对吧,那么咱们这里边同学们拿到这个数值之后,对吧,那我说如果说它是零的话,那说明啊,咱们现在这个东西已经挂掉了,那挂掉之后呢,那你可以去做一个告警,这个告警怎么配置呢?先给大家提一下对吧,就是我现在通过这种方式,我可以监控到咱们任务失败了,对吧?那么咱们现在呢,要去配置我们的告警,对吧?那么这个告警那么怎么去做咱。
05:12
配置对吧,怎么样去做咱们这个配置对吧?同学们,那我可以在这里对吧,有一个呃,有一个叫alert,然后呢,你去创建一个我们这个报警对吧,那么具体这个操作呢,在后边我们呢会详细说对吧?我们会把这个当前这个警报呢,都交给谁,交给我们这个瑞向云去做对吧?那么这里呢,大家主要看的就是我们现在呢,对吧,这个条件对吧,在咱们现在呢,在这里,那么如果说它在查询的时候,那么如果说是零的话,那么这个时候呢,那么咱们呢,就要去创建一个我们这个告警了,做要出来告警了,对吧,那么具体的告警,那么这里怎么做呢?同学们对吧?那你可以点进去对吧,那么咱们这里先看一下啊同学们,对,一会儿具体我到时候发送一些什么短信呢?这个咱们取求瑞象云对吧,那么你可以点对吧,那你看我现在任务失败的一个告警对吧,那么什么时候去做这个事儿,那么具体条件什么样的呢?对吧,那么咱们得去配一下对吧,那我们说如果说我当前时间他上报。
06:12
当前的上报时间和咱们上上一次啊,30秒之前他上报的一个更新时间点是一样的话,那么这个时候说明它啊,就我们这个啊,这个出现问题了,那么咱们想立即告警,因为你想你诚序都挂了,是不是立即告警啊,那么立即告警怎么来指定呢?那么这里是吧,咱们现在呢,那就不要去什么五分钟了,那直接就零对吧,瞄对就表示立即告警,对,就原来还有给他一个缓冲时间对吧?那么条件啥呢?条件是注意看同学们这里最后一次对吧,咱们执行我的表达式的值对吧?那么从哪查呢?从咱们的条件A同学还记不记得在官里边咱们是不是写了一个这样的A的一个查询呢?对吧?那么如果当前这个A的查询,它的值是我们这个零的时候对吧,那我现在呢,最近变五秒钟了,呃,别变五分钟了,比如说咱现在呢,就最近对吧。
07:05
咱们呢,这五秒对吧,那比如说最近五秒吧,它的值,然后呢,咱们现在在这里,在我们哪呢,对吧,是。这这里不是说说是不是大于,然后呢小于,然后接下来,那么咱们这里边是个日日范围对吧?那比如说是负一对吧,然后呢,到一之间,那就零呗,那如果查询是这个之间的话,那么这个时候呢,咱们给它去做一个我们这样的一个告警啊,做一个告警好的朋友们,这个呢,是我们的告警的一个条件啊,这个是我们告警条件对吧?那么咱们现在呢,把这个东西呢,那给他拿到之后,对吧,那这块呢,其实还有一个正在告警啊,保持一个这个状态,这个其实呢可以不用去管它,对吧?那咱们现在呢,把它去应用一下好了,那么这块呢,其实就设置报警了,但具体的报警怎么报那怎么报警,我现在只是设置了,当满足这个条件之后,我要报警,那报警的时候是发短信呢,还是打电话呢,还是怎么做,那么这块呢,咱还没做对吧,我先把这个这个仪表盘呢给保存起来,这个是任务失败的监控,对任务失败监控对吧。
08:13
好了,同学们,那把这个保存一下,那么除了这种室外监控呢,那么常见的需求呢,还有什么网络延迟对吧?那像网络延迟呢,同学们其实也可以通过我们当前的这个up time这个指标对吧,来去完成对吧?那么这个完成什么呢?那比如说同学们,那么正常情况下,咱们刚才呢,其实是用我们这个后边时间减去呢,它前面时间现在呢,这个应该是前面时间减去我们这后边时间,那么正常情况下对吧?那我这个值呢,那应该是负30呢,对吧?但如果说我延迟的话,那么它会导致呢,这个值肯定比负30呢要小,咱们其实可以通过这种方式呢去做判断,说老师这个方式是不是写法说固定的呀,对吧?同学们这个东西呢,不固定啊,这个东西不固定对吧,然后接下来还有什么咱们的重启次数对吧,那么这个重启次数呢,它可以有专门的number restar对吧,来去对吧,来完成对吧,那这块呢,其实大家也可以配一下对吧,关于我的重启次数的。
09:13
这个我不带大家配了,对吧,我们就做一个任务失败的监控好了,把这个我停一下啊。
我来说两句