00:01
那接下来啊,咱们就以一个真实的场景来看一看,怎么样去使用Z贝来完成我们一个指标的一个监控,那我们这里呢,以监控HDFS集群为例,然后给大家演示啊,那么怎么样呢,使用W来做一个监控,那么既然要监控HDF集群,那所以说呢,我们首先呢,应该去把HD集群呢给启动起来,那来到我们叉线L中啊,那这里把咱们这个窗口清一下,然后呢,我去启动DFS啊把HDFS呢给启起来,那么正常情况启动完HDS之后呢,同学们,那么咱们现在呢,那应该在我三台服务器上啊,每台服务器上都有我date node这样的进程啊,那还是那句话,同学们如果说呢,在你机器上没有我们现在DFS是,那你可以去选择其他的指标进行监控,或者说对吧,那你去关注我们前边还都。
01:02
的课程,然后把HDMS对吧,这个集群环境呢给搭建起来,那咱们启动完毕之后呢,那你可以看到,那么在我们的102上有date note 103上有date notde 104上呢也有date node这个进程是吧?那么咱们现在呢,那要使用我们Z来对它呢来做一个监控,那么在使用Z对我们HDIY进程进行监控之前呢,咱们得先去了解几个术语。啊,就是说我现在常见的概念是什么,那么主要呢,有这么四个术语,第一个叫主机,第二个呢叫监控项,第三个叫触发器,第四个呢叫动作,对吧?那么咱们现在呢,那一个个来看啊,那首先第一个主机,什么是主机呢?所谓主机呢,就是一台你想监控的网络设备啊,用IP或者域名来表示啊,这是它的一个概念,同学们,那你想,那我现在呢,要想去监控HDMS,那HDMS它是不是分布在三个不同的节点上呀,对吧?那么102103 104,那其实呢,就是我们要监控的主机,这是第一个,那么第二个监控项,那么这个监控项呢,它表示的是你要想接收主机的特定数据,也就说你要监控什么样的指标,对吧?那么咱们是不是要在我这三个节点上去监控我们date notde呀,对吧,那么咱们当前这个date note进程,其实呢,就是我们现在它的一。
02:30
一个监控项啊,其实就是我们现在一个监控项,然后第三个概念呢,叫trigger触发器,这个触发器是什么呢?这个触发器是用于定于问题的一个阈值和评估监控项接触到的数据的一个表达式,对吧?什么意思?同学们,那么咱们现在呢,那对我们三个节点它的一个data note进程呢,来进行监控,那么正常情况下,每一个节点都应该存在一个date note进程,但是一旦我们现在呢,所监控的主机它的一个data not进程没有了,因为它的进程小于一个了,那么这个时候说明呢,咱们是出问题了对吧?所以说呢,咱们可以通过一个这样的一个判断条件啊,通过判断条件对吧,来去触发我们现在呢,它的一个动作,对,比如说我要发邮件对吧,那么这个动作是什么呢?这个动作就是诶,当我现在啊,监控的我们的指标发生异常了,对吧,或者不满足你制定的一个这个条件了。
03:30
那么这个时候呢,他要做出什么样的反应,对吧,那一般情况下咱们就可以做一个啊发邮件的操作,对吧,所以说同学们,那么结合着我们现在呢,这个实际的一个情况,现在这四个啊,这四个我们这个术语,那对应着我们实际案例呢,那应该这样的对吧?像哈豆102103104,那其实呢,它就是我们要监控的目标主机,那么其中呢,我们现在在我们这个目标主机上有一个data node进程。
04:00
啊data node进程,那这个呢,就是我们监控项,这个触发器是什么呢?这个触发器就是当我们现在呢,呃,有个条件,那么在目标主机上它所监控的date node进程如果小于一的话,正常应该有一个进程的,那如果说小于一说明咱们现在进程挂掉了,对吧?那么它呢,诶会触发什么什么样的操作,哎,当满足这个条件之后,他触发这个操作对吧?那么触发什么样的操作呢?这个动作是什么呢?那我们要做一个发邮件这样的一个操作啊,如果说一旦我现在的进筑挂掉了,那么这个时候呢,我要去发一个邮件啊,那么这个时候呢,我要发邮件好了,同学们,那这个呢,是在我们真正去啊这个做Z它的一个指标监控之前是吧?那我们先给他介绍的这么几个术语是吧,把这个要理解一下,好把这停一停啊。
我来说两句