00:00
哎,我想给大家演示一个你这个集群啊。呃,异常了,异常之后你怎么处理。嗯,假如说啊,我现在呢,这个是给咱看先看这个吧。这个集群呢,有的同学说这个用过这个命令吗。Q杠九,然后带弄。粘贴。6228。哎,Q掉。是吧,哎这样,然后呢,我再做一些这个嗯,奇葩的操作吧。我再来一个什么奇葩操呢,我RM-RF,我一不小心把你这里的数据删掉了。可以吧,那也可以,然后呢,我再来到英龙山上。还。来这里啊,我也不小心把这里的数据也给删了。两份都擦了吧,那我问大家新在我集群上的数据能不能下载下来?
01:01
随便一个啊找一个,我要找一个WC input,它能不能下载下来。能不能?思考一下,诶是不是能下载下来啊,那现在呢,相当于是保存了三份,你看对吧,还是能下载下来,那你说那我再比如说你这个海哥你还不够狠。啊,你得把这个104的数据啊也给干掉。也干掉了。那也干掉的话,那现在我还能不能下载下来数据呢。再来看一下。能吗?你看一闪而过吧,正在正在连接,连接失败啊,哎,那他已经崩溃了,比如说你们在初学者的时候啊,容易导致这个集群突然间崩溃了。那这时候怎么办呢?有的同学说那简单呐,海哥,那我格式化格式化集群,有同学肯定会想到说,嗯,H DS name node。然后杠form MAT走。说你看你看啊,说你这个name not is running啊先stopped,那行,那我就先把集群停掉,那集群停掉呢,正常情况下呢,你先把雅停掉。
02:08
嗯,Stop,雅点关掉。哎,咱们就做一些破坏啊,因为这个对于初学者来说啊,就怕遇到的就是这个集群啊,呃,出现各种奇葩问题,其实这东西啊,随便玩啊随便玩。不用担心。对吧,哎,现在我集群已经OK了,那现在我集群能不能再正常启动呢?大家思考问题,比如说sb start d FS假走。看一下它能不能正常启动。说启动起来了,海哥,诶哪呢,内斗的。
03:00
是没了,为什么说name note没了?你看一下我们刚才把谁删了,说把data note里面的name都已经给删掉了,还有name吗?没有了。那现在这个机器怎么办,你同学说这个海哥这怎么办。对吧,啊,他说那还个格式化ADS。啊,然后呢,内到的。对吧,啊,慢快说。这样行不行呢?你说行啊,那记住哈,我们先先记住一个事儿,呃,Date node,然后我们再进入到。嗯。哎呀,这个还真行。为啥真行呢,嗯,DFS。再进入到date note。推出来目前没数据啊,内蒙弄了。OK,然后呢,进到这里面啊current。我们查看一下这个版本号。之前我们记住一个版本号,还记得吧。
04:01
我们再来记一个版本啊,那这是这是上一个数据的一个版本,那版本呢,是139714,现在的变成它了啊,记住这两个是不是不一样啊,哎,不一样,那不一样的话呢,我们现在呢。查看一下ADS。9870。发现起不来了,那查看一下,进群看发生了什么情况啊,为什么起不来了对吧?嗯,就喜欢这种故障情况。哎,发现内幕豆没起来。你再看那个。再闹起来了,再闹起来。完了,现在学生就开始慌,说海哥这个没办法了,我我我这已经崩溃了啊,处理不了啊,其实很简单啊,教大家正确的这个处理这种故障啊,首先OPT model态度吧,来这不管它机群怎么坏啊,只要你别把这个什么ETC啊,这个B目录啊,这些路径给搞坏就行,呃,那我们先先这样记住第一句话,先杀死进程。
05:03
对吧,这个服务你得先杀死stop。DS。先把进程全停掉。第一步。OK,然后。第二步,第二步呢,一定要记住删除每一个集群上的date和log,一定要全删除RM杠,RF。Data logs。删除掉,然后再来到103上。RM杠、RF。来到104。RM杠、rf date log。对吧,哎,两块全删,呃,这个三台机器全删除掉,删除掉之后第三步才是格式化,As name nod杠,For MAT走。初始化完毕之后,然后启动集群star。
06:04
点。啊,有句话说的好,叫打扫干净屋子再请客,先停进程,删除历史数据之后再启动,那一会儿大家解释为什么说要删除历史数据。GPS看到没?现在集群是不是就OK了,大家看一下。哎,非常轻松啊。完事,那当然这里面是没有历史数据了啊,是不是已经上个集群已经删掉了啊,那什么原因呢导致的,给大家看一下啊。嗯,这个呢,是。新的。这什么?还记得这个地方吗?这是我们第一次name node格式化产生的name node空间,对吧?嗯,其实呢,在它外围啊,还配套着data node对应的版本。这里面注意。这套集群除了name note,还有data。Note,而且还有对应的版本号。
07:03
嗯,版本号在哪呢?大家看一下啊。CD date。DFS data。看到吗?CD。Heart里面有一个version。那每台data note它也有对应的版本号。哎,拿过来哈。那有什么含义呢?那你这个集群上啊,我这里面对应的是这not的和它是唯一绑定的,比如说它俩是相互识别。那么如果我新启动一个集群。我这里面的数据没有被清空,我用它去访问,它能不能找到呢?这相当于是两本账啊,这是第一号版本账,这是第二号,它这里面根本就没有你的信息,而且它会检测你的版本和他的版本是否一致,不一致就直接挂掉。
08:00
哎,直接就启动不起来,是这样一个原因啊行,那这个是对于新手来说呢,是最容易出错的,就是这个地方啊,那后边呢,那给大家演示一下啊。
我来说两句