00:00
啊,那主机创建完毕之后呢,我们接下来该创建啥了呀,是不是该创建所谓的监控项了,对不对,因为主机有了,你到底要监控什么东西啊,那咱们得告诉他了,那这个怎么配置呢?啊,首先我们还是先从首页开始找啊,首页去哪找监控项啊。哎,你得先找到你要在哪个主机上面配置监控项吧,对吧,咱们点配置,点配置之后呢,点主机,然后幺,比如说我现在先在102上配啊,这是不是就有一个监控项,就这个位置对吧?那咱们就点监控项,完了之后呢,这是一个过滤器啊,理论上这儿呢,会有很多很多的监控项,但咱们这儿是不是一个都没有的呀,对吧?那所以这一块呢,把过滤器关掉就行,然后呢,点击上边的这个创建监控项点。啊,那这里边呢,我们需要起一个呃名字啊,需要起一个名字,咱们这个名字叫什么名呢?啊随便我兼顾的是不是data note进程啊,咱们刚才说了,那我就起data notde datata nod啊没错吧,啊就起就叫datanode啊叫datanode,那完之后下边我们这个监控项到底怎么去配置呢?你怎么去监控datanode进程呢?咱们这儿呢,有一个这诶。
01:05
同比又抽风了啊,咱们这有一个这个东西键值啊,其实这个英文呢,应该是K啊,就是这个zs agent k啊K,每一个K或者是每一个键值,我所对应的是一个什么呢?就是一个监控项啊,有一个监控项咱们需要从它里边去选择啊,来我们点击右后边这个选择,来那这边就列出来了,你能监控的所有的指标啊,有这么多。啊,有这么多啊,然后咱们一个也简单看一下啊,比如说第一个agent.house name,这是不是获取的是客户端的主机名啊,这个很简单啊,这个agent的ping,那这个是什么呀?啊,这个相当于是客后端的可达性检查啊,就是看你能不能ping通对吧?啊那下边什么什么agent的version kernel.maxfis这是什么呀?操作系统啊,这个允许打开的最大的文件数量啊,那这个是什么呀?是操作系统允许的这个最大的进程的个数,就是最多能同时运行多少个程序等等等等,这都是我们所监控的指标,那下边还会有什么呀?比如说这一大堆东西都是跟是不是网络相关的呀,对不对?跟网络相关的一些参数,那下边还有其他的,比如说呃,一些硬件的参数,比如说什么的内存啊,CPU啊,对不对,什么CPU数量,CPU负载啊,下边的CPU的这么使用率啊等等等等,哎,各种各样的东西它都有啊都有。
02:28
啊是这样的,那这里边儿你可以观察一下这个东西到底怎么用啊。假如说我现在想获取的是这个A阵的版本,你就点就行了,那这个它返回来就是A阵的版本,那你看有一些东西呢,可能跟他还不太一样,你看这几层,比如以他为例。那它里边是不是还会有一些一个方括号里边各种兼括号啊,对吧,这相当于是啥。相当于就是你要给这个,你把这个可以当成一个函数,给这个函数传的啥呀,参数,这就是参数,也就是说有些K值呢,我们需要传参,有些不需要传,哎,那我要传参的话,我到底怎么传呢。
03:04
你像这个,你假如说你要想知道每个参数代表什么含义,你这你你这能看出来吗?哎,看不出来,看出来怎么办呀。去官网查呗,对吧,你就直接找就行啊,比如说在这边呢,咱们可以搜一下,你就搜这个z abbx z agent,然后叫K啊,它那个官方的这个名称叫做K来,你就直接回车啊,那这里边呢,当然这个百度出来的并不是它这个官网啊,这个是他官网对吧?啊,不是官网也行,不是官网正好有中文对吧,咱们可以点这个啊,你点开啊,那这其实就是它那个,呃,所有K值的一个属性列表啊,你看第比如说第一个A真的点house name是是就什么主机名啊,他他是会告诉你啊对吧,那什么ping是啥都有,那下边呢,你像这种。这是不是监控一个什么,监控一个日志文件对吧?啊,那这里边每一个参数代表的什么含义,以及您传的是啥东西,是不是是不是都有相应的说明啊,对吧,你就诶可以参考这些东西啊,参考这些东西啊,那这边咱们不就不一个一个大家去看了,将来以后如果能用到的话呢?啊,记得知道怎么找就行啊,你就怎么找就行啊那接下来呢,咱们来看一看啊,我们这要实现的功能应该怎么去实现,咱们要干啥,咱是不是要监控我们这个每台集群当中,每个节点当中的呃啥呀,那个data进程对吧。
04:19
啊,咱们得监控这个进程它是不是有,它有它的话那就OK,没有的话没有的话那是说明挂掉了,对吧,挂掉就得给我发通知,诶那怎么去监控这个进程,它有没有存在呢。怎么监控啊?咱们这里边呢,可以用这个参数啊,咱们可以借助这个参数去做一下,这里边我们找一下诶这个参数。Pro oc.number啊进程的个数,那你会发现是不是他也后边也需要传各种各样的参数啊,对不对,也要传参啊,那这边它相当于实现了一个什么样的功能啊,它会根据你传的这些参数去过滤你这个系统当中运行的所有的进程。
05:01
啊,会过滤所有的进程,然后呢,把它过滤出来的结果去记个数,然后给你返回,哎,那咱们假如说我能够通过这几个参数把咱们的data note进程给它过滤出来,那是不是就能够实现这个效果了呀,对吧?过滤出来如果返回的这个个数是几是一,那就说明我们这个data note是存在的,如果你过滤来结果是多少呢?是零,是零就说明什么,说明它挂掉了,对不对?哎,我们可以通过这个函数呢,去实现这个进程的这个监控啊,通过它监控,那这里边每个参数到底是什么意思呢?啊,你可以先点出来啊,每个参数分别是意什么意思,给大家解释一下,或者说你查看咱们这个,这上面也能查出来啊,我们可以在这搜一下,比如搜pro oc.nu。Number。这个是不是找到了啊,找到了对吧?啊,那这里边分别是什么东西呢?我们来一个一个看一下啊来。第一个是name啊,第一个是name,那name在这儿呢?指的是进程名称,是进程的名称啊,进程的名称啊,那后边呢。
06:02
是不是有一个user user指的是啥用户名,用户名是谁呀,用户名。用名就是启动这个进程的这个用户的名字吧,对吧,你比如我启动data not进程,我是用at硅谷起的,对不对,你就可以写上一个at硅谷对不对啊,这个好,也很简单,大家看下边state state指的是啥呀。类的,哎类呢,其实就是我们这个进程的一个状态,当这个进程状态的只是我们Linux当中的几个,哎状态你可以写的有什么呀,比如说哦。啊,那还有什么run啊,Sleep啊,这个这什么意思啊。僵尸的意思啊,僵尸进程啊,是这样的啊,那咱们这样呢,其实并不关心我这个进程当前具体处于什么状态啊,我是乱也好,我是力也好,我其实关心的只是啥,就是进程在不在对吧,有没有,所以这边呢,我要不考虑这个状态的话,咱们可以用谁啊哦啊,所有状态都可以啊,只要你在就行啊,那一会咱们这儿可以生成off啊,那后边还有还有一个什么,还有一个command line cmd line这是啥呀。
07:05
啊,这题也告诉你是通过命令行过滤啊,这个所谓的命令行指的是什么呢?命令行啊。什么叫做通过命令行过率,这个看到这个是不是感觉也不好理解啊,对吧?啥意思啊,就是这样的啊,我们每一个进程是不是都会有一个启动命令对不对,它其实在这儿呢,是根据什么呀,根据你的启动命令去过滤啊,然后呢,这你要写的是一个什么呀,在这儿你要写的是啥?是一个正则表达式。是一个正则表达式啊,也是在这儿呢,你通过一个正则表达式去匹配你要监控的进程的那个启动命令啊,能理解吧,也就是说你会他会怎么做呀,他会根据你在这写的这些所有的东西去匹配,哎,你要找那个进程啊,是这样的啊,然后呢,把你匹配到的进程的个数给你返回啊,那你说我们在这儿应该怎么去写这几个参数啊。怎么写单数怎么写都行,只要保证你能够唯一的准确的把你那个datanode进程找到是不是就可以了呀?哎,你不能找别的,你不能说我这儿要兼控的是data node进程,结果你通过这几个条件啊,你把name notde给过滤出来了,那还对吗?那个。
08:11
那就不对了,对吧?啊,那这块怎么做呀,具体咱们这个参数呢,可以这样去传啊来我们打开页面。啊,找到这个位置。在在这了啊来,我们把这里边东西可以给他该改的改一下啊,比如这里边我们找到这个name,这个name呢是进程的名字,一般情况下我们不通过进程名字去过滤,那所以这呢你就可以不写,要不写的话呢,直接就是把它删掉就行,连间括号也得给它删掉啊,这个user呢。有咱们你比如说我们用艾特硅谷写的对吧,你那呢就可以写一个艾特硅谷,当然这边你不写也行,我们其实主要通过谁过滤啊,其实主要通过后边的那个启动命令去过滤啊,那这个state呢,State,呃,这个咱们是不是刚才说了,我们要匹配的是所有状态对吧?写一个O就行,那这个cmd line这个到底写啥。刚才说的这是不是要写一个正则表达式啊,对吧,那这个正则表达式匹配谁就是匹配你那个进程的启动命令啊,哎,我问一下大家知不知道我们data node这个进程的启动命令是啥?
09:10
Data node命令这个进程的启动命令是啥?启动命令是啥呀?是什么死袋的DFS吗?是这个吗?那显然不是,是谁呀?啊,也不是杠,那那也不是,那那就是一个shell脚本。对吧,你用的是不是就是他海都给我们提供了一个脚本呀,对吧,咱们要找的是真正的启动命令。真正行是啥呀?你对于no进程也好,Name node进程,这都是什么进程,是不是都是Java进程啊,对吧,那Java进程的启动命令最终肯定都是啥,都是Java什么什么东西对吧?那这个进程这个启动命令去哪找啊。你可以这样去找啊,对,脚本里能找到,能找到啊,脚本里能找到,或者说你直接这样找就行,我现在这note进程在不在是在的对吧,我可以进行一个杠EF,然后后边呢grape一下。
10:01
Di not回车,哎,那现在呢,大家是不是看到了这个数据啊,咱们这数据一共几行啊,这是。两行,这是一行啊,这是咱们那个真正的诺进程,下面是不是刚才我那个格瑞命令对吧,咱们就看上面这个就行了,那大家要知道从这开始到这儿结束,这就是啥呀。就是啥,这就是咱们datano的这个进程的启动命令啊。这才是它真正的启动命令啊,你看啊,这就是啥,是不是就是Java什么什么东西,然后后边指定一大堆的参数,然后是不是就起来了,这是它真正的启动命令啊,这解命令,那你你大家大家之前咱们一直启动HS是不是用的是那个脚本呀,对吧,那个脚本里边实现了什么功能啊,其实就是。啥功能啊,是不是就在拼凑你这个启动命令对不对,然后呢,顺带着给你实现了一个群起的一个功能,是不是就是这个作用啊,所以说最本质的启动命令肯定还是这个啊,还是这个啊,那接下来呢,我们来继续呃,看一看啊,那既然我们已经明确了这就是启动命令了,那咱们怎么能够通过一个正则表达式把它匹配出来呢?
11:05
你只要能唯一的确定这个命令是不是就行,对不对。所谓唯一确定的命令,是不是就得找到这个命令跟其他启动命令不同的一点呀,对不对啊,那这个命令跟其他不同的谁,谁是不同的呀。比如说我要目的就是只是要匹配到这个命令,那我是不是随便写一个东西就行,我写个JDK行吗?能不能匹配到。能吧,只要这个字符串当中包含JDK,我是不是就能匹配到啊,那我写个log行不行,也能匹配到,但是这样行吗?这不行,你会匹配到很多这个那个不能用的进程,对吧?那这边咱怎么改一下呀,你找到他自己特有的一个东西是不是就行了呀,特有的应该是谁呀?哎,比如说在这儿呢,假如说data notde就是它特有的东西,我name notde里边是不是没有data node这个东西对不对,那所以说你只要能找到它特有的一个东西就行了,那在这呢,我们假定就用这个data notde这个去匹配啊,那所以在这呢,我们就直接写一个data notde是不是就行来把这打开。
12:04
把这个CMDLA,包括结口号全部删掉,删掉之后呢,咱们这写一个DA nod点到的好,那这样一来我们就能够通过这几个参数去过滤咱们的进程了,好,那这个完事之后,咱们接着往下走,下边这个主机接口不用管,这有一个更新间隔,这个所谓的更新间隔是啥意思?就是agent给server里面发送数据的一个间隔,对吧,默认是不是一分钟啊,咱们这为了让大家更快的看到这个效果啊,我们给它调小一点,调成五秒钟五秒5S就是五秒啊好,那其他东西咱们就不用配了,这时候呢,我们点击添加。好,那这个监控项咱是不是已经就配置好了呀,那只要有了监控项,那你说这就就会有啥。只要有监控项,那A是不是就开始收集数据给serve号发送了呀,对吧,那这时候我们是不是应该能够看到这个监控数据才对,对吧,在哪看来点击咱们这个最上面的一个监测监测啊点那点完之后呢,这是不是有一个最新数据这个位置。
13:05
对吧,点。点完之后呢,我们需要去找一个监控项啊,咱们这个监控项在哪,是哪个组的,是不是海度组的啊,然后呢,咱们点,然后直接应用就行。孩子不足,咱现在是不是只有一个监控项,你看。这是我们刚才起那个名字电漏的,对吧,最近数据是多少已那这个是不是已经得到了咱们这个监控箱了这个数据了呀,对吧,那已经得到了啊,那这时候呢,我们再去看我们之前配的那个配置,然后点主机,然后你看。这是不是已经发送数据了,发送了它就是绿的了,能过来那是绿色的,那下边这个也能过来,是不是也变绿了呀,就是这个意思啊好了,那这个完事之后呢,我把视频录一下。
我来说两句