00:00
好,同学们,刚才呢,我们做的这个操作呢,跟我们在一发SDB中呢,做的定时任务非常的像啊,它也是每隔一段时间呢去做一个操作啊,那么你会发现呢,我们到目前为止呢,还没有去做一个告警的配置啊,就是这个东西可用性啊,它低于多少的时候呢,应该去做一个告警呢啊,那么这个配置目前还没有,所以点击左侧的告警,我们去做这一方面的操作。好,可以看到呢,现在是一个报警的独立的页面啊呃,然后我们可以看到右面呢,有一张有一张图给大家解释了啊,这里面各个概念,它是怎么样进行合作的啊,我们可以看到这里面呢,有一个性能数据,也就是我们刚才啊这个可用性的一个数据。然后呢,它会有一个报警规则,把这一个数据的检查呢,分为严,呃,警告,严重和正常,诶这是不是有点像我们刚才在那个in Fla DB里面配的check呢?啊,是不是一个check任务呢?啊,那么其实呢是一回事啊,然后呢,通过这个事件触发哎,传给我们的报警策略,报警策略呢来对他进行一个判断,你比如说这个警告呢,应不应该发给我们的啊,应不应该打电话啊,严重呢,是打电话呢,还是发邮件呢?啊那么通过这些东西呢,来进行一个判断,所以报警行为呢,其实有点像我们之前在in DB里面做的终端。
01:17
好,那么现在呢,我们去做一个,首先去配这个报警规则。点击左侧报警规则。好,点击这个加号,我们直接添加一个新的规则,可以看到这里面有一个,诶,首先要选一个名称。我们就叫可用率不足。啊,然后类型呢,是API监控啊。好,呃,这个何时可用规则呢?就是这个选择无不可用时间,就是这个规则啊,全天都是适用的,选择报警对象或者点下一步。好,可以看到我们这里面呢,让你选择一个要查的这个数据,此处呢,我们直接选择in DB这个健康状况,就是我们刚才创建的这个监控任务。
02:04
点击这个箭头,哎,给它放到乙选里面来,再点下一步。好,可以看到这里面呢,呃,让你去配置什么时候呢,算是严重条件。在这里面呢,因为我们15分钟才发一次请求,我们可以选择过去15分钟。呃,满足什么条件?啊,去进行一个报警啊,那么这里呢,我们选择数值门线就是阈值啊,那就是然后呢,在这个底下有下拉菜单,选择可用性。啊,你会看到这里面有一个百分号。啊,说明我们的单位呢,也在跟着改变啊,那么过去15分钟的可用性呢,其实啊,这个地方呢,我们可以直接选择最大值。啊,最大值小于。100%啊,只要过去15分钟呢,发生一次不可用呢,我们就直接报警,好点击下一步。然后呢,这里面还需要配一个警告条件啊,这里呢,呃,如果是想不出来,这个对于可用性来说呢,警告条件是什么啊,因为我们说有一次不可用呢,就归为严重。
03:07
啊,那么好像已经把这个警告条件的这个空间的给挤压没了啊,那么我们这里呢,就直接点击这个按钮,从严重条件复制相同条件,好,那么它是一模一样的。啊,没有下一步了,所以说这个下一步呢是灰,所以呢就直接点击保存。好,可以看到我这里呢,有一个啊名称呢叫可用率不足啊,这个报警规则呢,已经创建好了啊,点击上面的这个报警按钮,回到首页,好啊,我们直接给大家说呢,这个哎给大家标一下。报警规则呢,有点像我们的检查任务。啊,对比这个in DB来说啊,那么报警策略呢,有点像这个入。报警行为呢,有点像终端,那么我们现在呢,把这个检查任务配完了,是应该先弄这个策略呢,还是先弄终端呢?答案呢是应该先弄终端,这样的话呢,我们去创建策略的时候呢,才知道啊,这个检查任务和谁去对接。
04:10
所以呢,现在我们去创建一个报警行为。抱怨行为,点击这个加号。可以看到呢,这个报警行为有两种,一个是选择邮件或者是web hook。啊,那么如果你选择v po呢,这里需要传入一个URL啊,那么我们怎么样去找这个URL呢?答案就是回到我们的告警平台啊,现在我们属于检查平台。啊,可以看到这里面呢,有一个告警平台,选择告警平台,好,现在呢,我们选择集成。哎,在这里面呢,找。之前我们创建的这个叫rest API,现在呢,我们找一个叫web hook的。哎,看到了这个,看到没有瑞向云的这个logo。啊,点击一个加号。呃,那么可以看到呢?这里面其实就是一个web haook,可以看到这里在报警系统中添加报警行为,行为为web hook。
05:04
哎,此处呢,我们直接。点击这个保存并获取应用K。啊,应用名称需要获取写一下。好,点击这个按钮。呃,接下来呢,我们就可以按照这里面的,你可以看到他给了一个URL啊,我们可以直接复制去配置我们的报警行为了。现在呢,到这个报警行为的页面上,我们再去创建一个报警行为。这里呢,选择we po。名称就叫。我的测试URL呢,直接粘过来。啊,那么这个参数呢,你可以直接全选,它这里呢,会给你说啊,你这个应用的名称是谁报的警啊,哪个数据呢,没有满足这个条件啊,都会进行一个标记。
06:02
此处呢,我们可以先进一个测试。你可以看到连接成功啊,但是呢,这里并不会真正的给我们打电话啊,点击这个测试呢,只是去测一下它连接是否成功。点击保存好,可以看到呢,我这个报警行为呢,已经躺着一条了,现在呢,需要返回到我们的智能报警平台。啊,找到报警平台啊。呃,这里呢,还有一个问题没有处理,选择配置。我们之前呢,给大家说过有一个东西叫做分派策略,我们当时呢,关联的应用是in Fla TB,现在呢,我们可以看到集成里面呢。啊,又添加了一个新的应用,是这个web hawk,我们需要让这个web hawook也有一个分派策略,让他呢把这个啊里面的告警呢,通知到我们的用户。那此处呢,我们去修改一下。啊,直接点击右边这个笔的这个操作啊,是编辑好。可以看到呢,我们之前的分派策略呢,就是呃,In Fla DB对接啊这个名字的,呃应用呢,收到的我们的一个通知的请求呢,全部转发给real邓紫棋这个用户啊,现在呢,我们有两个应用,两个方式啊,一个是在底下再添加一个新的应用,另外呢,就是我们可以在这个下拉菜单里面。
07:20
直接选择所有应用啊,也就是不管是什么应用,直接全部呢,塞给这个用户,点击它好点击保存。这样呢,我们web haook这个收到的通知呢,也会转发给我们的real邓紫棋用户。呃,接下来呢,我们再回到这个报警平台啊,这个这个监控平台。呃,看到这个报警点击报警,现在呢,我们还差一步,报警规则有了,然后报警规则呢,把这个呃可用性的数据呢,分为三类啊,分为三个信号,然后呢通过,然后最后呢,我们还有一个通知的终端,现在呢,就是缺一个报警策略,所以说点击报警策略。然后呢,在这里创建一个策略,好,这里首先呢,是把名字改一下啊,改成这个in Fla DB策略啊,那么可以看到这里面呢,有一句话说什么样的报警事件触发报警行为啊,那么有报警开始的时候呢,触发包括这个报警的级别,有严重还有警告什么的,这里呢,我们只选择严重。
08:23
啊,然后呢,还有就是是你比如说从这个啊可能性从100%变成了80%,那么这个呢,就属于报警开始触发报警持续呢,就是连着一段时间,你这个可用性呢,都不到100%,都是80%,那么这个呢,就属于持续报警啊报警升级呢是指这个。比如呢,我规定80%呢,是呃,80%~90%。是这个是是警告啊,那么现在呢,我们可能这个可能性呢,是85%。
09:03
那么在下一个时间段呢,突然呢,这个可能性降到了70%啊,我又规定了0%~80%呢,属于啊严重,那么这时候呢,我们的报警状态呢,就从警告升级为了严重啊,因为我们现在警告和严重呢,配的都是一样的规则,所以我们这里呢,不存在降级和升级,把这个报警升级呢,也给它关掉。报警结束呢,就是说呃,我们现在呢,假如说可能性呢,从80%回到了100%回到了正常状态啊,那么这个时候呢,就是报警结束。呃,打勾的话呢,就说明是在这个情况下呢,会给我们的这个用户去发信息或者是打电话,此处呢把它给勾掉,我们只有在这个报警开始和报警持续的时候呢,会去触发这个行为。啊,点击下一步。好,可以看到这里呢,有一个触发行为设置,也就是你刚才这个策略啊,要选择哪个终端去发送信息,我们添加一下。哎,可以看到有一个名字叫我的测试的类型叫po的,你选诶点击选择。
10:04
好,他现在呢,就加进来了,我们直接点击保存。呃,那么这一个呢,我们的整个通知策略呢,也配好了。呃,现在呢,如果我在这个in Fla DB里面,在终端里面把这个in DB给给它掐断,外部呢不能正常访问,那么这个时候每隔过上15分钟之后呢,应该会有一个报警信息过来啊,那么此处呢就不给大家演示了,实际上呢,这就是我们整个啊一个业务可用性检查的配置,好同学们啊,这个视频课里面呢,我给大家截了一段啊,现在呢是运行了一段时间啊,可以给大家看一下,这个失败了一次,什么效果可以看到呢?现在这个可行性呢是75%。然后我点击这个查看。啊也可以看到呢,这里面啊成功了一次,然后错误率呢是50%啊所以说呢,其实这一段时间啊,注意啊,05:49分到06:19这个这个时间里面呢,其实发送了两次请求。
11:01
啊,然后我们再往下看,就是有各种指标啊,包括这个监测周期,我们可以看到一,最近一小时的这个可能状态呢,是75%,最近12小时的可状态是75%。啊,那么这就是他的一个工作逻辑,接下来呢,我们再去看一下告警有没有生效啊,点击左侧的告警。然后呢,这里我们可以看一下这个报警记录,哎,现在呢,你看的是空的,是因为这边筛选的呢,这个类型是ping监控,我们下个菜单,然后选择API监控。可以看到呢,这里面就有一个刚才的这个,呃,报警的情况。报警的这个状态,包括这个报警发生的时间啊,名称什么的,这都都有了一点详情,包括这个,呃,报警的规则呢,叫做可用率不足,然后这个事件状态呢,没有受理啊,你可以看到啊,过去15分钟啊,满足以下条件,也就是我们的可用性的最大值小于100%,那么过去15分钟的可用率是多少呢?哎,答案是0%。好,关于电话的效果呢,我就不给大家演示了啊,最后呢,回到我的PPT。
12:05
呃,现在呢,其实我们整个呃配置就已经全部结束,回到PPT呢,我们可以看到我们现在呢,已经把从瑞向云呢去监控inlux DB的这么一条链路给打通了,哎所以说现在呢,它其实是一个环形链路,我们的瑞向云呢,可以知道inx DB有没有活着,Inlux DB呢,也可以把我们的一氧化碳的哎数据呢,直接发给我们的瑞向云来负责报警,这个安全性呢,相比我们之前已经有了大大的提升。
我来说两句