00:00
好,下面呢,我们来做一下5.4内不动的故障处理。想一想,在整个集群当中,目前就一个name note。那么他要是挂了,是不是整个机器就瘫了?啊,那所有的节点就没有意义了,那么它的可靠性呢,就至关重要啊。那么假如说他真的就挂了。就没有办法了吗?能不能再抢救一些数据呢?主要是这件事情。其实这个呢,就属于偏运维方向了啊。咱们来看。呃,我先带大家看一个吧,这里面一共有两种方式啊,方式一,将secondary number中的数据拷贝到内部note中进行数据的。或者是恢复。因为之前我说大家看过这里面的数据跟内部里面几乎一致。只是。是差了一个音。Grace吧。
01:00
好。那下面模拟内的故障。最喜欢的动作是吧?Q,杠九先干什么?然后呢,删除内部中的数据啊,之后拷贝这个secondary内部的数据到这个内中。那我们来演示一下。GPS。啊,全部都启动起来了。那下面呢,一把飞刀扛过去,把那把干死。Q杠九。4304吧。挂吧。
02:01
这挂了,有的同学肯定说你的不够狠,对吧?原数据还在这呢。怎么办呢?狠一点。是CDDFS,它数据都在这了。RM杠、RF。全看掉到S。就什么数据都没有了。就没了,彻底没了。那没了,那怎么干活呢?我们将。这个DS。将current里面这些内容啊,也就是说secondary not中的内容通通的都拷贝到102。SCP-R表示递归,原数据在哪?
03:02
教练市场。按的硅谷。I豆幺零。104的什么舒服呢?奥BD报道爱豆版。太。DS。在下是不是。到了。他对吧。再往下一层。到这。将这里面的内容。通通的拷贝到哪里呢,当前目录的。当前就是内蒙的是吧。
04:00
考到当前目录就行了。看看啊。首先SP-R啊,表示递归拷贝原数据呢,在104爱硅谷账号,然后是这么长一个目录里面所有的内容拷。拷贝到当前。就好了。那考完了之后,下面我要启动了。启动病点,还记得这个吗?是单独启动啊。刚才挂的时候忘你们看这个了吗。现在内not一直烟赛了。
05:06
是刷起来了,要。看看这机器上还有优质。阿圭五店input小白。他依然都这样啊,那这个损失在还比较小啊。那正常情况下,刚才我们进入一个。模式,那个模式是不是你看不到整个集群当中数据啊。那个就是安全模式啊。OK,那现在呢,我是能把这个内部的恢复到原来的状态。取决于谁呢?Secondary?那下边啊,我再把这个内部的盖。采用另一种方式恢复哪一种呢?叫杠一炮的彩纹。导入检查点。呃,方式二呢,是使用导入检查点选项启动内的守护进程,从而将内中的数据拷贝到name no目录。
06:10
那要是采用这种方式呢,需要你。微修改一下K文件啊。走的话,这个实验的这个时间呢,比较长。比如说你这个地方默认是3600。教师。检查的时间比较长啊。我尽量的把它降低一下。两分钟,两秒。可以撤了啊。那另一个呢,是name弄的。DR要指定一下DS name not name。直向date time DFS内。进这么一个目录。明确一下。之后呢,你也是K5杠九杀死这个内的。然后删除内部的中的数据。跟刚才都一样。只不过下面这块稍微有些变化。如果三个内动不和内部动在一个主机节点。
07:03
分别在不同的主题。那干什么呢?需要将secondary内中的存储的数据目录拷贝到name node5。你说要把它拷贝到平级这。并删除一个叫in love。这个是相对比较规范一些啊,所以说他要求的东西也就比较多一些。将这个锁的一个文件干掉。之后呢,导入检查的数据。比如说执行HTS内的杠1POINT。等待一会儿之后,你看C就可以结束掉了。结束掉之后呢,你再启动内漏这。没事儿。啊,相对来说复杂一点,那我们来实际操作一下啊。先把这个要配置一下啊,配置到CS。
08:05
否则这个时间太长了。C。百度吧。一个是检查点的实验设置,一个是内部的路径的一个进一步是。OK,这个搞定搞定,分发一下SSCC还都搞。这样就完成了。下面呢,将这个内裤的死。告。一把飞刀。呃,他杀死掉之后,下面我们继续把这个内的原数据删除掉。CD。第三方RM杠、RF。
09:03
The last night。依然把所有的数据全部删除掉。那下面是什么事呢?将这个104。104上的如何数据?就将它吧啊。就是说将它拷贝到这个地方的平级步入,比如说跟这个内的平级步入,或者。那好,Icb杠二原数据在。艾硅谷开度110。D model开动版。对的。价格下边的。DS。将它拷贝到当前。
10:01
整个文件夹全部返回过来。下节课搞定。把这个原数据就拷贝到这儿,可以看一下NAME3。进来之后把这个in lock啊这个锁给我删除掉。这样的,你看这里面就是原来的原数据。基本是内漏,依然是挂掉状态,下面你开始执行这个命令。或者导入检查点。那个弄的。叫杠import才怪。找到检查点之后就可以了啊。FS。Name。
11:01
忘了。执行这么一个命令。好,执行。就发现一直在检查是吧,好,你再开一个窗口。是不是在检查的过程中立刻将内部动作进行启动了?这时候呢,它并不影响集群的整个操作,所以说这种方式呢,它可以即刻的启动啊。在那个另一个还在启动。启动一会儿吧。这个你稍微等待一会儿。时间。
12:02
对这种方式呢,他要求相对要多一些。两种方式。只能说这个他检查的东西更多一些。更标准一些,像之前我们那个呢,相当于杀死之后直接启动。被认为是。上来之后你发现这个内部的依然是要换掉了啊来。S点。
13:09
这样内部的就又依然起来了。就能正常的通过了吗?这就起来了对吧,啊一样的啊,两种方式都可以,只不过第二种方式呢,它检查东西相对来说多一些啊,第一种方式呢,是比较直接啊,直接启动,不管是三七二十一。第二种呢,是直接能保证你这个继续运行,但是呢,后续呢,检查东西确实比较。
我来说两句