00:00
好,各位同学,那接下来呢,我们进入到这个数据仓库的下一个环节啊,就是这个,呃,集群监控啊,那首先先跟大家说一下这个集群监控它的意义是什么,我们为什么要去做这个集群监控啊,其实大家应该能感受出来,就是我们整个数据仓库呢,它是运行在一个大数据集群上面的,对吧?啊,这个集群呢,它会有若干台节点,对不对,那中小型公司呢,可能是几十台,那大点的公司呢,上千台上万台都是有可能的,对不对,那每一个每一个节点上面是不是还会去部署很多的进程啊,对吧?啊,有这么多节点,然后每个节点上面都有这么多的进程啊,大家想一想,就这些进程在运行的过程当中,是不是有可能会出现各种各样的问题啊,对吧?啊,那只要有一个进程出问题了,是不是都有可能会影响到我们这个数据仓库的运行啊,对吧?啊,当然啊,我们大多数的这个应用呢,它都有什么,都有什么配置。都有这个ha的配置对吧?都有高可用的配置,你比如说咱们举例子啊,Hi do hfs那个name notde是不是有高可用对不对,那这个比如说h master是不是也有高可用啊,是这样的啊,那就是当然考虑这个高可用的这个事儿呢,呃,大家可能会觉得,诶诶,那我这个挂一个或者是挂两个,这个也也也没啥事儿啊,对吧,也不影响我使用啊,啊但是呢,你要从长期来看,它是不是就有问题了呀,对,什么意思?举个例子,比如说我现在确实是有两个name notde,哎,那现在我挂一个,挂一个之后确实不会立即对我们集群造成什么影响啊,但是如果说它挂着的这个你不去修复它啊,那那是不是时间一久了,另一个可能也会出问题,那都挂了是不是就用不了了,对吧,那所以说我们这个集群监控呢,还是有意义的啊,就是如果说他挂了,挂了之后呢,他得干啥啊,咱们咱们监控着他对吧,那监控他之后他得干啥,是不是还是得给我们干啥呀,是不是发通知啊对吧,是这个道理对吧?啊,他监测到他挂掉之后,给我们发通知,然后我们呢再回。
01:55
去给它进行修复啊,那这样一来呢,就能够保证我们这个数据仓库能够更加稳定的运行了,是这样的啊,那这就是这个集群监控的意义,OK,那接下来呢,我们来看一下咱们这这个集群监控是用什么去做的啊啊在这儿呢,我们使用的是ZS这个监控工具啊,就是ZS呢,可能呃,做过运维的同学对这个工具啊,它是非常非常熟悉的啊是这样的啊好,那现在呢,我们来看一下这个Z这个它到底是一个什么样的工具来往下翻。
02:24
咱看一下啊,那这个Z比克斯呢,呃,这儿有一个概述对吧?呃,这段话其实就给我们来阐阐明了这个Z比克是什么东西啊,那现在呢,我们一起来看一下啊,这段话里边呢,一共有这样的三句啊,咱们分开看,先看第一句来我们看啊,他说Z呢是一款能够监控各种网络参数以及服务器健康性和完整性的软件啊对吧?那从这里边呢,我们能够突出一个关键点啊,就是啥是不是能够监控嘛,对吧?那监控的是啥?监控的是哎我们服务器的各种网络参数以及服务器健康性完整性,那所谓服务器的监控性完整性呢,那就比如说啥呀啊比如说我这个,呃,硬件资源是否充足,哎等等等等啊就这样的,那在比如说呢,哎,我这个集训当中的进程是否是正常的,哎,等等等等啊,就是这些,那这里边突出一个关键作用就是监控啊,咱们先记一下,然后进来我们看下一句,下一句是什么呢?下一句是S呢,它使用灵活的通知机制啊,允许用户为几乎任。
03:25
可事件配置基于有件的告警,那这句话咱们读完之后呢,这里边咱们也提一个关键作用,就是谁是不是告警啊,对吧?啊,它能够使用灵活的通缉机制,那这里边还有一个关键词就是灵活啊,一会儿咱们在使用Z米的时候呢,你就能够发现啊,它确实使用起来非常非常的灵活,就是说你可以按照你自己的想法去做任意的配置啊,当然这个灵活它是有代价的,你说灵活的代价是啥呀?就是麻烦,配置起来就比较麻烦,对吧,他他因为他要想让更灵活,那是不是就很多事情得由我们用户自己决定啊,对吧,你自己决定是不是就得去自己去做配置啊,对吧?所以说我们的配置就比较多了,相对来说就比较麻烦用起来啊OK,那下一个呃,再看最后一句,最后一句呢,呃呃,张叔还有一句说什么可以快速反馈服务器的问题,这个不用多说吧,啊出问题之后就给咱们通知,是不是就能够快速反馈啊,对吧,就这个意思啊,然后看下边。
04:19
哎,基于已存储的数据,Z呢,提供了出色的报告和数据可视化功能,那这里边还有一个关键作用就啥呀,是不是就是数据的可视化呀,对吧,是这样的,那这儿有一个基于已存储的数据,这个已存储数据其实就是什么数据。其实啥数据其实就是监控的数据啊,就是监控的数据,也就是z mix呢,他会去收集,哎,我们监控到的这个各各个数据,那收呃收到这个数据,那个它会怎么样,会存储进来,存到哪儿,会存到数据库里边啊,那完了之后呢,他还会把这个数据读取出来,完事呢,通过一个外部页面给我们进行可视化展示啊,是这样的啊,那所以说通过这个的话呢,我们能够呃看出来Z皮呢,它一共有几个功能,三个主要的作用,第一个呢就是监控,那第二一个呢就是告警,那第三个呢,是不是就是数据的可视化呀,对吧?诶咱把这三个功能给它记住就行了啊,那接下来我们往下看,下面呢有一个Z的基础架构,那这个我们简单看一下啊来,我把这个PPT简开一起看一下。
05:22
来打开好,那这个呢,就是Z斯的一个基础的架构图啊,那从这个图里边呢,我们能够看到它一共有这样的四个角色对吧?那分别是啥啊,什么zm agent啊,Z server database就是数据库对吧?那还有一个呢,是zm web,那那这几个角色他们的作用分别是什么呢?我们逐个看一下,先看第一个啊,先看zs agent啊z agent是干什么用的呢?我们来看一下啊,Z agent首先它是部署在监控的目标上的啊,这个什么叫做监控的目,咱们监控的目标应该是谁呀?是不是就是我们这个集群当中的每台服务器啊,对吧?啊,那而且你要注意啊,你看我这是不是画了多个A侦呢?那也就意味着什么呀,我是不是需要在每台服务器上面都去部署一个A台呀?啊,这个大家要理解一下啊,然后我们再往下走啊,那这个z agent呢,他们干什么,它会主动的去监测本地的资源和应用啊,那当然这个资源包括什么资源啊,这就是我的硬件资源呗,比如内存呀,哎,或者是这个CPU的使用情况啊等等等啊资源,那还有还有应用,应用其实就是我们这个服务器上面运行的这些程序,对吧,他会去监测这些信息,OK,那这就是A的作用。
06:36
好,那接下来我们再看下一个这个z server啊z server,那z server呢,它的作用是什么呢?来看一下z server作用呢,是收集监控数据啊,然后呢,去计算是否满足触发器条件啊,如果满足触发器条件,它就会向用户发送通知啊,是这样的啊,那你说他收集监控数据从哪收集啊,是不是肯定是从每一个A里边去收集啊,是这样的啊,那Z这server去收集这个A的监控数据的时候呢,实际上是有两种方式的啊,一种呢是主动,那还有一个呢是诶被动方式啊,主动方式和被动方式有什么区别呢?这个主动和被动是针对于谁来说的呢?是针对于这个agent来说的啊,是这样的啊,那如果说我们现在是主动方式,那什么叫主动?
07:29
是不是就是A任他主动把自己收集到的这个监控信息发送到这个,So啊对吧,啊是这样的,这是主动那被动的。那被动是不是就是哎,这个agent等待server去索要这个监控数据啊,啊,是这么一回事啊,OK,那也是这个主被动是针对于z agent来说的啊,这会咱们理解一下啊啊,那完了之后不管他是主动还是被动啊,那z server他肯定会拿到所需要的监控数据的,对吧?这是拿到之后他会去计算是否满足触发器条件,这个触发器条件是啥意思?
08:04
其实说白了就是一个阈值啊,比如我举个例子啊,假如说我这儿呢,有一个监控,我监控的是什么呢?监控的比如是内存的使用率啊,那在这儿呢,我会往在这我我会在这个三品so这边呢,我去定义一个阈值,比如说80%啊,如果CPU,呃,如果这个内存的使用率超过2%之80了,那相当于啥?是不就满足了这个所谓的触发器条件了呀,对吧?那满足条件之后我需要干啥呀?是不是需要触发相应的操作呀,对吧?那咱这儿的一个操作就是啥?是不是就是要用户发送通知啊,是这样的啊OK,那这就是ZSO,它的一个主要作用,收集监控数据,然后呢,计算是否满足触发条件,满足的话就向用户发送通知,或者采取其他的措施啊,好,那接下来我们再往下走,看下一个组件,下一个组件是不是database,这个database不用多说,就是干啥的,是不是存储数据的啊,当然这个咱们文档当中,这只只写了它的一部分功能啊,存储所有配置信息啊,那其实除了存储配置信息,它还会存储其他的信息啊,那我们现在先来看一下这个所谓的配置信息指的是什这个配。
09:04
这信息指的是什么呀?哎,其实给给大家说一下,你想一想啊,那我们这个Z密是干什么,是做监控的对不对?那我现在是不是有多台节点,没错吧,那每台节点上面是不是都有很多的指标需要去监控,那你需要监控哪些节点,那每台节点上边监控什么指标,那你说这些是不是都得我们用户自己去决定对吧?都得自己去做配置,那你配置完之后,这些信息存哪儿呢?就存在数据库当中啊,这就所谓的配置信息啊,那除此之外呢,这个数据库里边啊,还会保存一部分数据啊,还会保存什么呢?还会保存zs agent收集到的什么信息啊,监控信息也就是监控数据,也就是每个指标的值,OK,那这些值呢,也会存储在这个数据库当中啊,OK,这就是数据库的作用,那最后我们再来看一下这个杂web的作用啊。杂web啊,这个不用多说,这肯定是一个web应用,对不对,肯定是一个web应用,那它的作用是啥呢?诶两个我们来看一下,第一个呢,是为我们提供一个操作界面啊,那刚才我们提到了,我们说使用Z的时候呢,咱们需要自己去配置很多的东西,对不对啊,比如说你要监控哪个节点,每个节点上面你要监控哪些指标,这些我们都得自己自己去配置,对不对,那我在哪儿配呀?我是写配置文件吗?诶不,不用,不用写配置文件,它给我们提供了一个,诶外部页面是一个可视化的操作界面啊,是这样的,那谁提供的呢?是不是就是Z这外B啊,就是这样的啊,然后继续往下走,然后这儿是不是还有一个作用就是监控,呃,这个展示监控信息啊,对吧?那前面提到了说Z这个字呢?啊,一共三个作用,分别是监控告警,还有数据可视化对不对?那数据可视化是不是得有一个外部页面对吧?那这个外部页面谁提供的还是z we提供的啊,OK,那这就是Z的基础架构啊,相对来说呢,不是那么的复杂啊,在这儿呢,我们也是以了解为主就可以啊啊,那这个基础架。
10:54
课讲完之后呢,那接下来我们就准备去部署一下这个萨克斯啊。
我来说两句