00:00
大家好,欢迎大家继续收看上硅谷的0NU4云计算课程,我是沈超老师,我薛王阳老师,那这节课呢,我们来看看监控哈,各位监控这个东西其实我们说啊,在Windows上,其实我们也能看到我们的这个任务管理器,其实就是一个最基本的这样一个监控工具,对吧?那我们一直问我们的学员说这个用任务管理器干嘛呀?我们大多数学员都告诉我杀死进程,我说不对,任务管理器最主要的工作其实是监控你的CPU、内存的占有率,看看有哪些进程占的这些资源,最不重要的才是把它杀掉,因为什么所有的这种服务进程都有正确的关闭方法,只有当正确关闭方法不起作用的时候,可能才考虑干嘛强制把他给干掉,对吧?我们应该让他安全的平繁的离开,对,而不是说就把它给干掉,就杀死掉,对吧,所以我们说啊,各位监控呢,是我们这个运维工程是一个最主要的日常工作之一吧。
01:00
说之一你们,咱们说理论状态,我们应该保证的是你的服务器没死机,但是呢,它的这个CPU这个和内存占比已经超标了,快死机了,我的运维工程师就介入把故障排除,让他没死,这是最理想的,我们也就是我们的提前预知的啊,但这个事儿在实际工作中是几乎不太可能了,那我们能做到的其实就是基本上能做到什么,只要他出了问题,比如说他真荡了,死机了,我马上就能发现,然后马上能解决问题,把这个这个故障控制在短时间之内,这个就已经不错了,但是这个时候我说我们不可能靠什么跟手工这么来做,对吧,那我们可能就要考虑到通过专业的监控集群来完成这样的工作啊。那我们这章呢,主要看这样两个事儿,第一就是强调一下这东西有多重要,第二呢,就是看看我们常用的一些监控平台啊好了,先说说重要性,好,我们今天第一个重要性。
02:05
那重要性,或者是说为什么我们需要监控服务器,就像超刚才说的,我们必须要了解当前的服务器的状态,嗯,当你的服务器数量过多,那你可能不便于去寻找,比如我现在有个公司门户网站,哎,那突然有一天他宕机了,结果我还不知道,哎,等半个月以后,公司同学有点太夸张了,举个例子吧,等半个月以后公司同事告诉我,诶,咱们公司网站怎么访的,那可想而知,这半个月到底我们公司经历了什么,对吧?那如果是一般的公司还好,如果你们公司是做一些所谓的,呃,贷款啊,像这种业务,我估计别人是不是怕你跑路了,一般的公司你也不行,对对对,也不行,只是这个特别严重啊,啊,那很多呢,可能没有做一个太多的这么一个,呃,研究吧,那国外有一个专门的美国人统计过这个事,统计过美国呼叫中心,当他每小时宕机的时候,他损失的资金大概在24000美金左右。就是说一个。
03:05
小时,他统计全美国这个损失,因为宕机这个原因造成的损失,每小时在24000美金,就是说我们现在在这讲个课,聊聊天,这个钱就在哗哗的溜,哎,对,就这意思,美国呼叫中心的损失,那这个还是比较多的,对吧?啊,可能是很多企业都接受不了,当然这还只是美国那边的,如果是淘宝,咱们这个,对,或者是我们腾讯,你说如果要当你一个小时,那可不是两万四了,对吧,对对好,它是平均下来的,对对对好,那这是我们知道服务器肯定不能宕机,但是服务器宕不宕机不是咱们说了算,他看他的心情,对,那可能有一一方面呢,呃,当然跟我们的技术也有关,对吧,但另一方面很多一方面可能还是跟运气有关,万一如果哪块磁盘水,不不不不不不,哎呀,技术更多好好,那也就意味着我们应该提前预知这种东西,比如到CPU90%的时候,应该给我发个邮件。
04:05
告诉我CPU快不行了,那我认为是不是要干预一下,对,这时候他出了问题,你要知道不能说真的说是一个月以后才发现对这句话了,菜那很多人同学可能会说,诶那不挺简单嘛,我写个小脚本,没事去收集下,说看服务器在不在拼一下,那这只是最基本的数据手段,那内存怎么办?嗯,你说内存也容易啊对,比如像我们现在看到的这么几个,就是top命令的结果,对,那我们可以看到CPU的这个空闲率,包括过去一分钟五分钟,哎,在这这个是过去一分钟五分钟的这个占比,这个这个这个资源消耗的占比,然后我们的这个CPU的空闲啊,CPU的空闲百分比,内存的这个空闲的这个比,包括slap都能看到,对吧,那Windows其实也有类似的东西啊,当然这东西我们就说,如果我们收集的信息相对少,比如说只看内存和CPU,然后我们的服务器数量也比较少,我只有一台服务器。那我们。
05:05
可以通过人为手工是不是来干这事,对吧?但是如果我们要是看的东西,哎,比如哎这块呢,更多对看的要更多的话,比如说这里我们就能看到啊这张图上一看一脸懵逼,包括我看我也觉得一脸懵逼,是好像一堆的完全不知道是什么对吧?当然我们想告诉大家,就是我要收集的数据太多,比如什么我们的磁盘啊,比如我们的端口信息网,CPU信息,内存信息,这当然它只是简单的一些比较粗的一些概念,里边还有更细,比如我想我想看一下,诶,当年我们应用的web容器是,嗯,那我想看当年的并发量压力,那你怎么办?对对,那如果说你说这些事都能通过手工小本解决,能确实么?但是我就说第一你的脚本效率怎么样,第二呢,这东西很麻烦,第三呢,这是一台电脑啊,对吧,当我们出现这种环境。
06:05
总你又应该怎么解决啊,当然我说实话,我们一般的机房没有这么漂亮啊,但是就说啊,如果就像我说超哥,当年我们做游戏的时候,我们的服务器当年是3000多台,将近4000台服务器,那这个时候如果靠你们自己手工来写脚本,或者是通过这种,比如说我们自己一台服务器,一台服务器登上去看好了,要了定了运维工程师都不用活了,都可以跳楼了,我就告诉你啊,真的对那消耗的资源,包括每天的任务量太烦躁,对所以我们说监控这个东西,对任何的这个服务器来讲,其实啊,一些小公司他们没做监控,那主要原因其实还是什么,他们上面跑的数据干嘛不值钱,诶真的当掉了,或者这个没有访问到,可能损失小,是不是也就算了,但是绝大多数公司可能都是不能容忍的,所以监控都是什么,这是必备的这样一个工具,甚至我们说我们很多学员,哎,你刚毕业的时候,尤其是运维工程师,有可能都是要。
07:05
先从监控干嘛,首先从这个活干起来,你先发现问题,然后呢,你解决不了没关系,找有经验的工程师来解决,你来慢慢学,慢慢慢慢你是不是就逐渐能够掌握更多的技术,对吧?所以只要是什么这个服务器上的数据比较重要,一般都是需要啊做监控的啊,这时候是需要七乘247乘24小时不间断的。好,那这节课呢,我们主要强调的其实就是监控的重要性,告诉你这玩意儿不是说可有可无了,而是必备要存在的,而且呢,呃,我们可能不能通过手工脚本,或者说没有必要通过手工脚本,我们这种开源的工具软件是非常多的,而且我们是有的选择,而且它非常成熟的,对吧?对,我们可以挑一个用就行了,好,那这节课呢,就是这样,我们下节课再见,再见。
我来说两句