00:00
我们现在呢,去创建一下这个所谓的这个item监控像,呃,那这个监控项在哪去配置啊,呃,当然我这里边其实都有截图,说大家去照这个截图呢,其实也能完全去能能够完全做出来啊,那这边咱们呃,你现在就看看视频吧,后期咱自己做的时候呢,要忘了之后可以去看这个截图啊好,那现在我们再回到这个它的首页,在我的首页啊,那怎么去配置监控项呢?监控项我们必须得配置在什么里边。必须得配置在主机里边,就是说你比如说102这个主机,你需要配什么监控项,103你要配什么监控项,对吧,你需要在这个主机里边去配好,那现在咱们去配,点击配置,然后点击主机找到,比如我们现在102上面去配啊,那我找到102这个主机。然后呢,咱们是不是点来到这个位置了呀,来到这个位置之后呢,你会发现啊,咱这里边有一些东西,比如说什么应用级,比如什么监控项,比如触发器对不对,那这边咱们是不是要干什么,是不是要配的是监控项啊,那这时候呢,我们就点击这个监控项点。
01:00
点完这个监控项之后呢,仍然这边出现了一个这个过滤器,那过滤器咱可以关掉不要它。那下边显示的就是空的对不对,没有任何的监控项,那没有我们自己去创建,怎么点点这个位置啊,右上角有一个创建监控项,点击好,那接下来呢,咱们去看看这个所谓的监控性应该怎么去这个配置应该怎么去配置啊来,那我们现在我们要监控的是什么东西,咱们刚才不是说我们定义了一个功能吗?我们的功能是去监控每一台节点上边的这个datanode进程。监控每一台节点上面的data note进程对不对,那这个怎么去,怎么去这个实现一样的功能呢?来我们来看看怎么做啊,首先这边呢,我先起一个名字,这名字我就起一个,这个就叫海杜吧,叫叫data notde吧,Data no data notde,那我监控的是不是一个这样的一个data node这样一个监控项啊对不对,那接下来下边呢,咱们这有一个所谓的一个键值,一个K。那这边这是什么东西呢?我们来点开这儿有一个选择哈,我们点。
02:04
那点完之后呢,这边呢,会出来一大堆的这个这个东西。这一大堆的东西都是什么呢?这一堆东西啊,就是咱们ZS能够获取到的一些这个指标,能够获取到一些指标啊,那比如说什么来咱们逐一的看一看啊,这里边很多,比如说这个什么,这个agent节点的主机名对不对,那agent节点是否能够P通agent的这个version。对不对,那这个A站的节点它那个什么呀,操作系统能够打开的最大的文件数量对不对,那操作系统能够呃进行的最大的这个进程数等等这些东西,其实它都是能够这个获取到的,包括下边还有一些,呃,比如这是跟网络相关的一些这个指标,下边跟什么,跟这个CPU相关的指标还有什么呀,这个进程的这个个数,诶那个每个进程使用的内存对不对啊,那下边呢,有CPU的负载呃,CPU的使用率哎等等等各种各样的,这其实都是咱们这个呃,运维这边需要去监控的一些指标啊,那这些东西呢,咱们不一个一个去讲了,因为这个没有太大的必要啊,那这边呃,每一个这个所谓的每一个K啊,这写的是建值啊,就是K。
03:17
所以每一个K呢,实际上是一个函数。实际上一个函数啊,就是有一些呢,你看这种。比如这个位置带有这个方块方括号的,这都是什么,都是都需要给他传参,都需要传参啊,那包括这样的,其实都是要传参的,这样的都要传参,那这样的呢,是不需要传参的,就直接把这个点过去,那他就能获取到相应的值了,是这样的一个东西啊呃,然后呢。呃,咱们接下来呢,去那个,呃,看一看咱们这边应该用哪一个K啊,应该用哪个K,呃,我们呢,就是去监控某一个进程的时候呢,我们这诶只能用这个K啊,我给大家看一下。哎,咱们可以用这个,嗯。这儿呢,有一个进程数。进程的个数。进程个数,那我们可以使用这个函数呢?让他去干什么,让他去诶监控咱们每台节点上边datanode进程的个数。
04:09
诶,咱只能让它这样间接的去这个监控这个data not的进程,那正常情况下,咱们每台节点上面是不是应该是有一个这样的data进程啊。对不对,那怎么样,它它就不正常了呀,是不是这个进程的个数如果说小于一了,小于一是不是就变成零了,变成零说明这个进程就挂掉了,那这时候它就不正常了。是不是啊,咱们这样可以间接的去监控到咱们这个data note它的这个健康情况,诶如果挂掉了之后呢,那我这边能够立马收到相应的通知,相应通知啊是这样的东西,好,那这边咱们就通过这个函数呢,去监监测一下,呃,然后呢,我一会儿会给大家一个链接,一个给一个链接啊,就是有一个一个一个一个页面有一个帖子啊,那个帖子当中呢,诶把咱们这个里边所有这个杂,所有能监控的项呢,它里边的每个函数,诶它的意义,包括里边我传参的时候应该怎么去传,诶都有详细的介绍,都是中文的介绍,那一会我把这个东西给大家发一下,以后大家用到的话呢,可以在那个上面去查一查。
05:07
那这边呢,我们就直接用一下咱们这个监控进程个数的这个函数啊,来找一下这个pro,这个proc这个咱们点它。好,那接下来咱们就来到了这个页面,那这块前面刚才给大家说了,就是在这啊出有这种方括号的,我们需要干什么,我们需要去传参,传参啊,那首先第一个有一个name。那这个name是什么啊,给大家说一下这个name呢?呃,它的这个意思就是说指的是咱们这个进程的这个名称。进程的名称啊,这是这个name,那后边呢,呃。有一个这个user,那这个user呢是什么?是这个用户的意思,是用户的意思啊,也就是说你启动这个进程是哪个用户启动的,这个大家得注意,那后边呢这呢还有一个state state指的是什么?指的是咱们这个进程的这个状态,进程状态啊,进程状态这是这个,那后边呢,有这个诶command line,这个command line是什么意思?Cmd command,也就是说它指的是咱们启动这个进程的时候的那个命令是什么?
06:09
启动这个进程的命令是什么?是这样的啊,那这就是咱们这边的几个参数,那这边这个进程的名字呢,我们通常情况下,呃,不太好去获取,为什么呢?因为我们是一个Java进程,是不是我什么data node,我name node,我包括什么卡不卡,诶这些东西我都是一个Java进程,都是一个Java进程,所以说呃,那这边呢,你要是去写这个名字的话,其实都是Java,这个其实是不太好去匹配到的,这是匹配不到的,所以这边呢,咱们通常这个诶不用name去匹配这个进程,咱们用什么呢?诶内不用咱去给它去掉就行,空着就行。那user呢?User我们通常也不用写。也不允写,那这个状态呢,状态呢,我们通常其实也不写。也不用管为什么啊,因为我们这要检测的是什么,我们要检测的不是这个进程的状态是什么,那因为这个进程状态有什么运行,有这个有有什么s sleep状态,有什么僵尸状态,对不对,有这样的一些状态,那这个状态其实我们哎不关心,我们只要保证什么,我们只要想知道什么,我这个进程有就行,只要他在就行,对不对啊,只要在就行,那所以说咱这儿呢,通常也是诶不去指明某一个具体状态,我们写一个哦,就是说诶匹配所有状态,只要在就可以,只要在就可以,那我们去精确的匹配一个进程是通过谁去匹配的呢?我们通常啊,是通过这个可慢的烂去匹配的。
07:29
通过它去匹配的啊,那这边咱怎么去匹配,大家来看一下啊。来,那这边我X靠GPS一下,大家看一下,我这是不是已经把这个呃,HDFS提起来了呀,对不对,那这个所谓的可慢的烂是什么,我执行一下top命令,大家来看一下啊。那执行top命令之后呢,你看这个位置,咱们这是不是有一个这个所谓的一个可望的呀,在这有一个所谓的一个可望的啊,那在这里边呢,呃,就是说它其实在这呢,就是说呃,我给大家看一下,咱们这有个Java,这有个Java其实这里边诶在这其实看不太出来啊,我们去那什么吧,我们用去查吧。
08:04
然后杠EF我们gra一下啊,Gra DA no gra在这看在这看啊,那这里边呢,咱们出来的这个进程这个信息呢,有这样的好多,是不是这么多呀,有这么多,但其实是两行啊,下边这行是我们那个GR命令,这个咱不看,咱们看它这是我们data node那个进程的那个情况,对不对,那所谓的那个可慢的烂指的是什么呢?指的是最后一列。就从这儿到这个位置。这个其实指的是咱们那个command LA,就是启动data notde这个进程的这个命令,其实这个啊,其实你看是不是就是一个Java进程啊,加va,然后后边的指定一些东西,那在这里边我们匹配谁匹配datanode,只要这个里边有data node呢,我就认定呢,它就是一个datanode进程,诶咱这么去匹配它啊,这么去匹配,那OK,那你要想匹配name notde呢,你就可以通过这个方式呢,去匹配name notde是这样啊,那也就是说咱们这儿呢,只需要在这个所谓的command command的烂这里边呢,我们写个什么东西啊,写一个data notde就行,Data node写一个data notde就可以了,好,那这样一来我们它就能够获取到什么了呢?它就能够获取到data node进程的个数了。
09:14
它就能获取到这个个数了,啊好了,那这个完了之后呢,接下来咱们这个所谓的键值就配完了,那主机接口呢,就是102这个不用管,那再往下下边你看这个位置这儿呢,有一个更新间隔,更新间隔什么更新间隔就是你监控的这个数值的,诶这个更新间隔默认是30秒,默认30秒,也就是说咱们so这边呢,30秒才能收到一次更新,30秒才能收到一次更新,那这边我们为了让这个呃能够快速的响应的,我们给它调小一点,我们可以调成这个,比如说调成五秒钟,调成五秒。那这样一来,诶,我这这边so这边呢,如果说咱们的agent监测到对称的挂了,那so这边能够立马收到的这个响铃,当然你这个时间呢,也可以调到更低一些,更低一些啊,那这个就是咱们这边的一些基础的配置,然后完事之后呢,再往下看啊,看看还有什么东西啊。
10:05
当然呢,有一些什么历史数据的保留时长,那那这边有什么90天的这个什么趋势存储时间,这个365天一年,哎等等等这些东西,咱们就用这个默认值就可以了,好那现在呢,我们往下走啊,其他就不用再配置了啊,那这时候我们点击这个添加。点添加好,那这时候呢,我们就已经有了这样的一个监控项了,咱们就有一个这样的监控项了啊,大家已经看到了,而且状态是什么,是已启用状态是已启用,大家要注意啊,就是只要咱们这儿呢,出现了这个已启用的这个状态是绿的是正常的,那这时候呢,我们其实这个102的agent。就已经在开始向我们的呃,这个server去报告咱们这个监控项了。其实也就是咱们现在已经拿到,已经能够拿到海杜102上边data node进程的个数了,已经能拿到了啊,那怎么去看呢?来来看这个这块啊,如果是英文状态这块这个东西呢,叫做monitor,就是监控那点监测点点完之后呢,这里边有一个最新的数据,最新数据,那如果说是英文的就是last date,那这时候呢,你点一下这个最新数据点。
11:12
点完之后呢,你就来到了一个这样的界面啊,来到这个界面之后呢,啥也没有对不对啊,因为什么?因为我们这边还没有进行过滤,你需要去过滤一下,首先他说这个主机群组,那这时候呢,我们是什么群,是什么组,是不是咱自己建了一个海杜甫组啊点它,然后主机呢,咱们监控的是海杜甫102吧,海杜甫102,那你点一下这个海杜102,呃,完事之后呢,点击应用。那这时候你看一下啊,这边咱是不是就已经拿到了一个这个海度102上边的这个data note的这个进程的个数啊,最新数据,你看是不是一啊。咱们已经监测到了,已经监测到了,那这时候如果说我把咱们这个data note给他停掉,那这时候它应该变成零是不是才对啊,那我们试一下啊stop,然后DFS能给停一下。听完之后我们去看看这个,呃,有没有变成零。
12:07
嗯,我稍等一下啊。嗯。那这边它其实已经那个开始停了啊,开始停了这个有点慢啊好,那GPS一下啊,那首先102是不是没有data note了,那这边呢,我们去刷新一下这个刷新一下这个页面啊来刷新,然后呢,点击这个监测里边有一个最新数据点。那这时候它其实已经就变成零了,也就是它是能够实时的监测到咱们这个变化的啊,当然咱们这只是举了一个小例子,它其实也能监测到一些别的一些其他的信息,什么内存,什么CPU都能检测到,是这样的啊好,那这个就是咱们所谓的一个这样的一个这个监控项,咱们就配完了,当然这里边呢,你要监控很多很多这个进程,包括很多的指标,你需要这个在这呢,一个一个监控项,一个监控项的去加,需要自己去配置,是这样的啊,然后后边大家看这个位置,其实它这呢有一个东西叫做图形。一个图形,也就是说你的监控项呢,我其实啊,它是能够自动的给你出一个图的,能够自动出一个图啊呃,但这边这个图呢,可能不是,呃,不是很明显啊,不是不是很明显,这边呢,其实大家看大家看这个位置是不是变变绿了呀,对吧,其实这样一个东西,但是这个图呢,因为咱们这只是监控的一个个数,只是监控的一个个数啊,可能不是很明显,你看这是怎么怎么变怎么的一个变化状况啊,来看我们因为监控的是什么,监控的是那个data note进程的个数,所以刚开始的时候是不是一啊,也是在在这段时间之内,它是一。
13:30
那我们刚才是不是给他关闭了一下啊,其实我们在关data node进程的时候呢,哎,我们这边可能这个,呃,系统里边呢,可能会出现很多这个相关的进程,就是关这个进程的时候,你比如说我要万一是一个Q呢,对不对,我这不还就是说在关的那一刻,诶非但没有变成零,是不是还还可能会多一些呀,对吧,有很多这个,因为我们匹配的就是datano的一个关键字,对不对,但是等它真正关了之后呢,它就变成什么呢?它这个位置是不是就变成零了呀。诶,这就是他的一个变化过程,它是能够自动的出这个图的啊,你看其实它是移动一直不动的滚动刷新的,是这样的啊,那这个图呢,我们其实可以把它放到哪呢?我可以放到咱们这个主页的这个所谓的这个仪表盘上面。
14:14
仪表盘这个地方呢,是可以去编辑的,你可以把你的所有的监控项都可以放到这个图里边,这个东西其实跟我们那个呃,Super set呢其实很像,就是支持我们自定义仪表盘,把你的监控像那些图呢放在这个位置。是这样的,所以还是非常不错的,非常不错的啊,那这个后续呢,一会大家可以去自己尝试一下,好,那这个监控项我们到现在为止就算是配完了啊,然后点击一下录制。
我来说两句