00:00
好,接下来呢,我们看一下第六章HTS啊,故障的一个排除问题,那这里面呢,我会给大家模拟一下name no的故障,而且是把里面内部的数据啊,哎给删除掉,这种故障并不是说进程死掉啊,那同时呢,这里面还有这个机器安全模式以及磁盘的相关的一个修复,比如说磁盘坏了,那怎么办啊,这里面我们都会给大家去真实的去模拟,包括在生产环境下呢,呃,如果说你的这个磁盘发生了这个,呃,这个运行缓慢,那这种情况我们如何来查找哪块服务器的这个硬盘运行缓慢了。也可以进行一个测试,那还有一块呢,是S啊小文件的一个归档的一个处理好,那我们第六章啊,这里面呢,我们要做的事情呢,是先把你的集群恢复到雅恩的那个最开始的状态。就讲讲案例的时候,最开始的时候我们做做了一个快照啊是吧,哎,得恢复到那个场景啊,还记不记得怎么恢复快照。呃,来到这儿之后。
01:00
只恢复102103104就可以了哈,呃,右键,然后快照恢复到雅N1。然后。右键啊,别着急哈,有点慢。啊,然后右键快照延一。104右键快照恢复雅安一。呃,原来我们是五台服务器吧,啊,这回我们后面的案例啊,用三台就够了啊,所以说我们恢复到这个雅一,呃,回到这儿之后呢,我们来开启一下这个集群啊。啊,这个重新连一下吧。关掉。102103104。有点慢。好啊,已经。
02:00
打开了,打开之后呢,我们启动一下集群,看看这个集群是什么样状态啊。回忆一下。这是这个快照这个功能啊,这个非常重要啊,尤其在我们学习阶段,用这个快照呢,呃,可以快速的帮你恢复到这个历史的一个状态。我们打开这个。页面看一下。看看这个集群上有哪些内容,呃,a.T苍老师啊,Hioop input output对吧?哎,有这些内容好。嗯,这是集群启动起来了啊,恢复到这个状态之后呢,我们开始真正的第一个案例哈,比如说内的故障怎么办。在生产环境下,这个name no大家都知道它的这个重要性啊,非常重要,如果它坏了,整个集群就塌了。你比如说我们原来的机群是不是这样啊,啊,1021031043台服务器,这是name no。那如果说name note挂了呢?你说那试一下呗,哎,再模拟一下啊。GPS。
03:00
咱们将这个name note杀死,Q杠九,Name note是6075。6075这。对吧,哎,现在呢,内幕呢已经挂了。那我如何来恢复呢?哎,如果是只是进程这个挂掉那非常容易啊HDMS。然后杠杠DA demon,然后start。Name node可以。你查看一下对吧,你看这个那么多就恢复了,你这个集群呢,也能正常使用,那这个坏的不是不是很彻底。同学说了,那这个怎么叫彻底呢,来看。Date,然后DS这里有个name。对吧,我将这里的数据全删掉。这个坏的彻底吧,哎,我先把进程干掉啊Q杠九。呃,内洞呢,是6967 6967,哎,我们就做这种破坏性实验。
04:01
2M-F。别了,就星吧,狠一点。可以吧,Name note这回彻底挂了,那我们现在能不能开启呢?给你看一下啊。As。杠杠dae。Start not。诶。发现什么?是不是这个name not没起来呀,你看GPS哦。看到了吗?没起来,那没起来的话,我们怎么查看这个问题呢?哎,教大家看一下这个日志啊。对,出来。咱这里面是不是有个log斯啊,哎,进到这个log丝里面查看一下。这里面有各种数据,那我们查看谁呢?对吧,我们是谁挂了,是不是name note挂了,Name note挂了你就找name note呗,这里面这些数据是不是name note了,那name note我们唠说他那查看查看的话,你用这个K有点太low了啊,你可以。
05:09
T-N,比如说哎,从后面看最后的100行,呃,你要说看200行也行啊,或者你T-F那是动态的这个查看日志哈。硅谷name。No。OK。那这样呢,就是查看这个文件的最后的这100行,你会发现什么呢?说name node is not。并没有进行格式化。其实我们这个集群是不是已经格式化过呀。对吧,哎,那现在如果说换成这样的话。那怎么办呢?是吧,哎,知道怎么查看啊,那么再回到这个date。DFS name。来到这儿,来到这儿呢,哎,我们没有任何信息怎么办,来到江龙市场。C dot啊,Hi do date date下面有DFS。
06:04
Date不是date啊,还记得这有一个name secondary吗?还记得他吗?咱们之前说了这个second name note,它跟name note唯一的区别是不是没有那个动态的那个编辑日志啊。对吧,有个progress。啊,镜像文件progress滚动啊,这个一个progress。那么呢,我们可以将这里的数据拷贝到102里面。看看能不能工作好,那拷贝的话呢,我现在是在102上哈,CP-RDV拷贝。呃,艾特硅谷原数据是在hi杜OP1104场,然后冒号op pd modelop。Date。DFSDFS,下面这回就要变了啊,回到这儿。记住,那现在我们要拷贝的是它。拿过来。哎,将这里的所有内容拷贝到当前路径。
07:04
OK吧,走。好,拷贝完毕,拷贝完毕之后,那现在呢,我再来启动一下这个内note hdfs。杠杠,Dan。Start。Name not。GPS对吧?哎,现在这个内蒙动的集群就已经启动起来了,启动起来之后呢,我们来看一下这里面是否正常。对吧,啊仍然是正常的,看能不能删除数据,比如说三。呃,现在是安全模式啊,这是我马上下一个讲的问题啊,你稍等一会儿,等30秒啊,要等30秒。你可以回到这儿看一下啊。目前是啊。呃,马上我们就要讲这个安全模式啊,别着急。等30秒,然后呢,你删除。啊,还没到,别着急哈。
08:03
啊到没到,哎,这个到了吧,哎,到了30秒之后退出安全模式就可以正常运行了。将这次name note挂了怎么办啊,这里面有详细的这个处理步骤啊,啊,Name note挂了呢,你就将这个secondary name note里面的数据啊拷贝过来,那是不是secondary name no里面所有的数据,哎,拷不过来之后就是完完整整的name no里的数据呢,这个分情况啊,分什么情况,如果在近期,比如说在他这个呃,Secondary name note啊进行trypoint之前。啊,这这个期间没有任何其他的操作,比如说这块啊。没有对note进行操作,那这里面存储那个progress里面没有新数据,那么就是完完整整的恢复,如果这个期间有大量的其他这种操作,而且secondary note还没有来得及把这里的数据合并过来,那就会丢一部分。啊OK哈,那在生长环境下呢,我们会不会用这个name node和secondary name node呢?哎,我们一般不会用这种方式,我们会用ha,也就是说name node高可用,用两个name node同时工作啊这种方式啊,所以说这块呢,了解一下好吧。
我来说两句