00:00
大家好,欢迎大家继续收看上硅谷的Linux云计算课程,我是沈超老师,我是汪洋老师,那我们上节课了解了一下监控的重要性,其实这东西我们说啊,它是日常工作中最常见的一个就是监控,另外一个就是备份,这是运维工程师每天都要干的事,对,两板砖嘛,对,然后呢,那既然强强强调了这个重要性,那我们看看我们现在主流的常见的监控平台有哪些,嗯。好,那大概呢,我们会见到这么三张不同的logo啊,当然不止这三个啊,对,还有我们说的就是现金啊,比较常见啊,这个东西就是我们说啊你啊,我们讲课不可能把所有的这个能实现它的这个软件都讲一遍,我们挑的肯定是常用的,对吧?对,我们主要可能在课程中是这个zicx和这个na NAS,那么开启这个东西呢,可能相对来说这个出现的时间就早了一点,这个性能上面可能比这两个呢要差一点,所以呢,我们简单知道一下就行了,嗯,那当然了,CA和NAS是在原来环境中可能是比较主流的啊,这是我们原先的软件,然后呢,它俩的功能呢,有一部分的,呃,怎么说呢,相互补充,对于ZS来说呢,它可能是一个较轻的这个个监控服务器,对它把它两个功能都已经补全的差不多,所以咱们一般公司现在都是Z,对,所以我们是以Z为主,前两种为辅,对我们不会就是说这东西肯定就是讲。
01:30
个剩下的其实都差不多,你们公司万一真用的不是这个,那你干嘛到俄罗斯学一下呗,对吧?对,就没有那么理论性东西,差不差不多了东西,对,嗯,那我分别来看看,那我们先看第一个cat,嗯,这个东西其实超哥当年我们当年做,在十几年前做游戏的时候,我们用的监控就是它开启,那个时候其实还有一个更古老的监控工具叫MRTG,那个是我们这些监控工具的鼻祖,但是那哥们可真不太好用,他的监控包括报警啊,各方面,包括绘图的那个精细程度都很差,在当时的时候开启就是相对比较先进的东西了,我们当年主要用的是这个东西,嗯。
02:15
那开呢,我们大家也能看得出来,是他的一个logo,我们有时候也对,我们有时候也叫它的,哎仙掌平台,那它呢,主要的点就在哪里呢?它的主要侧重点就在流量与性能监控为主,也就意味着其实它从诞生以来就考虑的是我应该怎么去把这个流量和性能,哎的当前状态的指标展示给你看,对,而不是是否达到你的标准,哎,我只是我只是给你看啊,他现在怎么怎么怎样了,是否超标等你来判断,他不会帮你判断,对,那也就意味着它的侧重点是基于图像展示的,它是一个绘图工具,对,然后呢,呃,他还是相对来说比较完整的,他能看流量,能看你的CPU、内存硬盘的这个占有率,但是呢,他会帮你绘制一张表格出来,这个表格是实时的,就是呃,不不能说是瞬间就完成,它是有一个延迟的,我们当年的时候,我们的服务器性能比较差,我们主要的性能还是要留给这个。
03:15
让他跑游戏吧,不能说都用来跑监控了,所以我们那时候是基基本上是每隔十分钟左右刷新一次,就这个这个统计一下我的流量啊,这些的占有率,它是有延迟的啊对,好,那对于开点来说呢,它可能分为这么几部分,第一部分是展示平台,诶叫BS结构,也就是着他会完都出不了,你是拿这浏览去访问去看到,好那收集数据是我们监控服务器最为重要的一点,我数据都收集不到,你怎么去监控啊,对,那它采用的是一个我们的标准方案,叫SNMP的解决方案,SNNMP剪击网络管理协议啊对,那基本上到今天的网络设备没有说不支持SP的,不存在,这是监控的最主流的协议就应该是这个,对类似于我们当前的TCP协议啊,对,监控一般都是用这个,当然我们后面那两个家伙,他有了更好的解决方法,但是他也支持SIP啊对好那。
04:15
当然监控第一个部分收集数据完了以后,是不是就要去告诉大家怎么去给大家呈现对应的报表啊,或者是状态,那在这里呢,他使用的软件叫r d two这么一个工具,那这工具其实也比较有意思吧,那当年这个哥们把这个软件给研发出来的时候,它是一个基于我们命令行可以绘理图的这么一款工具,效率还是比较高的,用C写的,但是你写的这个玩意我靠RD是吧,对了个天,好好好牛逼,看了半天了算是吧,可以,那我下次注意,那r two这款软件呢,是基于C去写的,所以效率还是比较高的,那并且我们可以基于我们的通过代码的方式去绘制出来你想要得到的图片,但是我们知道它越好用,或者是它的效率越快,比如C语言对吧,那可能操作起来就会越复杂,开始就是。
05:15
配置起来还是很难的,那RD two呢也有这个缺点,那所以r two开发的员工,开发的这个人呢,他就加入了开团队,作为开底层的保障平台,也就是绘制工具,它是交给RD two去实现的,SP收集数据,这两个最核心的关键点需要大家注意一下,开还有个缺陷,他的这个报警做的不好,他当时的时候只支持这种邮件报警,然后呢,现在不知道了,因为好多年已经不再用它了,我们不太确定啊,就当年的时候就是邮件,所以导致我们当时它又有延迟,我们说了十分钟刷新一次,而且它刷新吧,比如说这台服务器震荡了,你看到的是一个像素点丢失了,你肉眼分辨不出来,你可能要等再等它两三个刷新,这个周期过去你才能看到哦,这块可能断开了,一般等发现了这个出现问题了,可能一般都是半个小时周期以上,这个在我们的这个27乘24小时监控的游戏,其实来说这个时间太的吧,太长了,我们接受不了。
06:15
但是当时没有比开机更好的工具了,我们当时就采用了什么自己写的小脚本,干嘛循环的去P我们所有的服务器P如果发现P不通,就开始调用一个声音,然然后呢,报警这个东西就是误报率非常高,为啥为啥ping吗?你想什么原因,比如说卡一下某某一下,暂时不突一下啊对,丢了个包,然后呢,他就他就报警了,所以有时候弄的这个鸡犬不定了,就这还没干嘛呢,就开始报警,还没干嘛就开始报警,后来也把这个工具关了,就就是了,就这样了,对,毕竟超哥当年他们当运维时代,还是那时候比较古老的时候啊,工具也不是太完整啊那。大家都知道,刚才我们也说了,开里它是以我们的当前的性能展示为主,那就像刚刚才超哥提到的,那对吧,报警功能不是太好,那怎么办呢?后来过了几年出了另一个软件叫S呢,它是以服务以及性能监测为主,什么概念呢?它会有这么几个指标,叫OK,正常状态。
07:18
Warning警告级别,Critical严重警告,嗯,Unknown未知,什么叫未置,就是主机已经不在了,我找不到他了,Ing在连接数据状态,这几个状态我们在后面会想一想,先简单听一下,也就意味着我可以为服务或者是我现在的资源去定义这么几个状态,当达到某种状态的时候,我就会去报警,主动报警,对他就不用等刷新中心,对,所以说的一点就是他是以报警,这叫监控状态为主啊,不是像我们刚才的开体作为就是流量个展示,就是绘个表为主,绘个表格,对,那但是我们现在大家现在想一想。那我们是不是应该在公司这两个都需要,嗯,对,一个是我要知道报警,第二个是我比如把这个解决以后,我要知道他为什么报警,这个也很重要,对吧,不能让我把它解决,而且我的那种流量绘图其实是有帮助的,我能判断出来我什么时候是高峰,什么时候是这个低谷,我有没有超过我的这个流量限限制,这些东西也是比有必要的东西啊对,所以这两款软件其实在我们原来的话都会去利用,还互互补的,对,当然超过当年做的时候是那S还没有不存在,所以只有开机啊,那只能用自己去补脚本的方式,对,只能自己来写好,那展示平台呢,它依然使用的是BS结构,当然它没有那么多的图表去给你展示,给你看,只有这么几个标红的框框,只要是红色那就不行了,好,它看起来没有开启漂亮,对,那收集数据呢,它使用的是CS结构啊,也就是说自己写的脚本,也就意味着我们需要去通过自己定义脚本的方式,当然官方也定义了不少脚本,脚本可以拿来直接用。对,那我们。
08:57
我们通过CS的方式去收集数据,那这种的好处就是比第一种比第一种的开,他的响应的这个,这个比较及时,对一出问题他主动找你报警,而开启是那个,他是收集数据,那个服务器不知道你报不报警,到了他也不知道,就汇出表格来再说啊,那这是第一个优点,那第二优点呢,可能他灵活性更高,那对于开域来说呢,它官方给你集成哪些功能,其实现在可以通过插件管理器去扩展,但是一般来说还是没有我们自己去写脚本的方式,他帮你批量化的收集,这种可能灵活性更高一点,对,那最后呢,又出了一个东西叫n top n top有什么作用呢?可以把这两者一个是NAS,一个是开体,把它结合在一张图标里去看,那这样的话,这就是我们原来的时代去收集数据的这么一种方案,嗯,那当然随着我们时代的更替,对吧?那可能我们的需求日益被提上来,那有一家公司问到了。
09:57
就觉就是NAS,它是我们后来后起之秀里面做的比较成功的这么一款软件,当然它也是一个开源基帕奇,对啊,基于阿帕奇V3协议的,那Z这款软件呢,还是比较功能比较全面的,既了我们的报警诶,做的还比较优秀,包括什么国外的一些邮箱啊,国内一些邮箱都能做得到,包括我们的什么可以通过自定义的脚本报警啊都可以,包括可以调一些接口,甚至可以实现微信啊,对,都是可以的,像微信啊钉钉啊,这个我们后面也会去演示,嗯,好,那当然他可以去绘制比较详细的一些图表,比如当前CPU的使用率的波线图,这个你们你们可以暂时就可以打开这个ZS官网,它上面就有这个,它的这个展示就是监控的这个,这个工控的表示,哎,很漂亮啊,然后我在上面也截过图,哎,感觉还是不错吧,对于ziess来说呢,它对我们国内可能就是。
10:57
比两关软件好一点,原因是什么呢?前两关软件基本上没有中文翻译,那对于ZB来说,它官方支持中文哦,支持中文这个对我们来讲还是很重要的,好,那对于Z来说呢,它的展示平台呢,依然会分为BS,收集数据非常重要,对吧?那它依然是基于CS的,那也就是说它的展示依然是浏览器的绘图图表,对收集数据可以靠你自己,他的这个脚本来,他的ID端,嗯,对这个比较重要,当然如果他的ID端数据的数据你不满意的话,我们可以自定义脚本的方式去传递给大家,简单说明一下吧,比如这里是我的zies监控服务器,这是我的客户端被监控端,嗯,那我会安装一个zbies agent在我的被监控端上,那它会呢,向zav去提交ZB就知道,诶我有这么一个小弟了,那我会去收集数据,那ZB端呢,他已经给我们提供了一些能够收集到的数据的。
11:57
方案,你比如CPU啊,内存啊,它自己去运行,得到数据后会返回给我们,这没问题,但还是那句话,官方不可能把什么都考虑到,举个例子啊,比如我现在想收集NS当年的并发量,那不好意思,ZBN顶端里是没有这个功能的,那我可以怎么办呢?先在本地写一个小脚本,这个脚本的主要功能就是获取到N当前的并发量,然后我把这个脚本向A端去注册,那这样的话Z就实现了这么一个功能了,所以非常灵活,嗯,也就是说他还是可以通过通过脚本的方式来实现这种数据收集了,对,那这种脚本的方式相当于是一个被管理者,嗯,对吧?好,那收集数据的方案呢,我们已经说过了,CS,当然当然,SMP你说行吗?肯定支持,对吧?这是我们MP对监控的这个最基本的这样一个协议,没有说任何一款监控软件说不支持SP的,基本上不存在,我说是基本。
12:57
啊,不是的,嗯,好,那当然刚才我们也说了,Z有一些什么所谓的图片展示功能,那你说诶凯里是通过我们的rt two绘图的,那ZB是通过谁绘图啊,通过的是pip标准的GD库绘图的,这就对,所以它的兼容性可能会更高一点,对,那虽然效率可能不如开,那这个是它的一个测重性的选择吧,数据库的话,可能这些年调用的多一点,大家可能更熟悉一点,还是包括它的兼容性方案,没错,每张图片都有自己独立的UR,是非常好的这么一点,嗯,好,那这个呢是我们zics zics一定是重点啊,这就是我们后期学习,主要是亚比克斯克这个拉克斯这样两个啊对,那最后呢,我们可以看到这么一张图啊,这个我觉得你们一般的监控中心不会有这么庞大和这个看起来高大上,一般情况下可能没有这种大的这种这叫什么,这叫这叫什么平台,这种监控平台是吧?对,一般也就是这样几个。
13:57
小电脑看看得了,那一般可能就是比如啊,墙上挂了一个小电视啊,你不还有这个,我没有,我们原来我们原来就是中国科技,中国科学机术馆嘛,墙上挂一个小电视,然后呢,它是连接了一台机器,就是个人机,然后呢,访问的这个页面它自刷新,然后底下放了一个小窗口,小窗口跟超哥之前呢所说的ping其实异曲同工嘛,Ping是本对P是检测网络连通的最技术也是最有效的方案,那这里有个小脚本,是循环循环在P我们机械,然后这个呢,是我们当年的比较重要的一些资源的显示,就这么一个状态,当然这里还有一个小红灯,当这里的Z啊或监控或者其他监控服务器出现报警信息的时候,这个小红灯就开始转圈了啊,当然这个东西就是每个公司都不一样,对吧,到时候但是他不论用哪一个,他一定会有监控,如果连监控都不搭建的这种公司,我觉得小公司不。
14:57
我觉得这就几乎没有什么前途证明他的这个数据几乎就没有什么没有什么没有存活的这个必要了,都觉得也就是也可以理解为他没有认识到这个数据的重要性啊,对这种我就说啊,这个东西真的就感觉就是会非常的low啊,所以每个公司都会有,大家不用担心,这个是我们日常工作最常见的事儿啊。
15:17
好各位,这一章节呢,我们强调了一下这个这个监控的重要性,其次呢,我们这个展示了一下,讲解了一下我们常见的这种三个监控平台的优缺点,这就是我们这节课的内容,我们下节课再见,再见。
我来说两句