00:00
好,接下来我们来看一下完全分布式的一个大件,这绝对是开发的重点啊,要求所有同学必须搞定,而且至少要安装三遍以上。千万不要嫌麻烦在学习期间啊,这个多敲多练是非趁的一个学习习惯哈。那首先来看一下安装完全分布式,我们需要准备哪些内容。一共九项,第一项呢是准备三台客户机安,呃,关闭防火墙,静态IP和主机名称都已经配置好,那我们是不是已经准备了一台302啊,这个102已经完全搞定了,那这里面既有嗨多也有JK,但是103和104上的嗨毒和JDK说目前还没有呢,哎,别着急,后面我们会给大家讲啊。再往下安装JDK 102上已经安好了配置环境变量,OK,安装hi度,配置环境变量都已经在102上搞定了。对吧,但是其他两台还没搞定,那怎么办?那继续往下搞呗,对不对,那这个呢,我们先不看,往下说,虚拟机准备到位,编写分集群分发脚本。
01:03
现在我们面临的问题就是这样。这张图还记得吧?拿过来。这张图当中,我们需要做的就是将102上的JDK拷贝过来。将拷贝到这儿,开度法拷贝过来,拷贝过来。这就是我们要说的事情。啊,那我们先编发一个脚本来拷贝,因为这是一台服务器,这一台又是一台服务器,这是一台服务器,相当于是服务器与服务器之间的一个。拷贝命令。那用什么呢?这里面有一个CP。完全拷贝。那它呢?SC是可以实现服务器与服务器之间数据的一个拷贝,叫from server to server啊呃,基本语法SC-R,杠R呢表示递归,比如说我便利这个文件夹下所有的内容,然后说Dollar pdr,相当于是要拷贝文件的路径。你说你要把谁对吧,那哪一个路径下面的哪一个文件,这是叫为原始的输入文件。
02:05
拷贝到哪儿呢?拷贝到你的目的地,那目的地里面是哪一个用户所有的,记住因为在Linux下面呢,这个权限管理的非常严格,那你拷贝的这个目录,它允不允许这个用户操作,这是一个很重要的一个问题啊,那再往下呢,说这个host,比如说哪台主机。也是主机名称之后,这台主机下的Dollar DR,比如说文件夹,再往下呢,是对应的文件名称,这就是它的基本语法,看起来挺复杂的,对不对?那么下面我们就来操作一下,我们首先来操作一下哦,啊,这里面说海102 13164,呃,下面有这个OPT model和SO2啊,因为我们是从102上拷贝的,那肯定都有啊,给大家看一下。对不对,诶model和south尔都有。证明一下,OK,那前置准备工作OK了,现在呢,我们是在102上将102中的op pd model jdk拷贝到103,那我们现在要实现的一个功能是这样。
03:08
将他。站在102上拷贝到103。实现这么一个功能。那行吧,实现一下。来到102。最终。Dwd OK,那在这个路径下,我们拷贝SCP-R表示递归拷贝谁呢?拷贝的就是它。对不对,拷贝它到哪。哎,我们是103,那103上的艾特硅谷,我们把这个语法给你拿过来啊,省得你记不住。对吧,现在呢,我们要到的目的地,首先写的是目的地,你用哪一个用户去存储,因为我们未来要存储在哪里,我们存储的是103下面的model目录,Model目录是不是属于这个艾特硅谷啊啊,所以说这块不用担心,OK,艾特硅谷。
04:08
然后。爱。Hiop。103拷贝到这儿,然后冒号。路径呢,仍然是。OBD model对吧,哎,就拷贝到这里面去,那看行不行走。首次连接需要来一个yes。输入103的密码,因为你现在从102访问103,那你必须得有它对应的密码才能进行访问,那仍然是六个零。我们去103上看一下啊。对吧,现在呢,这个JDK就已经拷贝完成了,就这么简单,也就是说我们在102上将JDK拷贝到103。那思考一问题,我在我要是登录到103。
05:02
我能不能把102的文件拉过来呢?刚才叫推,那这个叫拉。能不能呢?我们试一下呗。我们在这个目录下哈叫。SCP。杠二还是这里面对应的是输入路径。你的文件在哪呢?在102上,那在102上,你这个新在你是在当前在103,那你首先输入的仍然是对方的用户名at。对吧,好,艾特归我,然后艾特。艾特主机名称,HADOOP102。冒号。那它的路径在哪呢?O BT model model下面有一个,你现在打开它提示不了,嗯。那来到这里面。把这个名字复制过来。OK,回到这儿粘贴,我把它拷贝到哪呢?我的目标地址就是当前我自己的路径。
06:06
那也就是说你当前你在103这主机啊,那你这个路径就可以简单一些对不对,哎,能够识别就可以,那远方你要连接远方的时候,首先要输入对方的用户名,也就说这个文件它属于谁的,然后hi doop 102主机名称对应的地址。就可以。行,那试一下。第一次连接,Yes。现在我们要103访问102输入密码。六不六。比如说你去别人的电脑上去拉数据。开始102,那那个是呢,是相当于别人给你推数据。这是两种操作方式啊。那这步如果要是执行完的话,相当于在103上,目前GDK和开度是不是就都有了?
07:03
哎,那一会儿我们再来处理一下这个104啊。还得拷贝啊,量比较大啊。是不是有点黑客帝国的感觉啊,刷刷刷,一直在刷。学习大数据啊,还是蛮有意思的啊。这么长时间。那行,他在刷着,那大家思考一个问题啊,现在呢,我是102和103啊,来回拷贝没问题的,那我能不能我站在103上去把102的数据拷贝到104呢。思考一下问题啊,现在它已经结束了啊,结束的话我们来验证一下。是不是都已经拷贝过来了啊好,那现在我们就思考这个问题,我在这个103上,我去让把102的数据拷贝到104上。
08:05
哎,这个神奇对吧,哎,跟我一点不相关,我能把这两个数据拷贝过去,能不能呢?试一下ICP杠二,那我原始数据仍然在还多102,好,那102呢,就是艾特硅谷。At hadoop102。冒号。OPT model,那对应的数据,嗯,这样。摩托星一次性把GDK和这个拍全都拷过去。那目标地址。艾特硅谷。Dollar。爱的。嗨,度法目标地址在104,冒号OPT model。对吧。那看看到底行不行,OK。那提示首先我们得能够连接上102,也是102得让你访问123。六个零。那再来。第一次连接,Yes。
09:00
那104你是不是也得访问呢?也得支持这个能力啊,好六个零。那又开始执行了啊,好神奇啊,我站在103上,跟102和幺零四一点关系都没有,他居然能考位。你看一下。正在拷贝。这就是SCP的强大之处,比如说现在呢,我们就实现了将102考到103,然后呢?再通过我站在103这台主机上,将102上的数据拷贝到104。所以说这个ICP啊,在公司当中啊,这个服务器与服务之间拷贝的时候,这个命令呢,是非常用的一个命令。行,那他在拷贝的哈,那现在呢,我是一直在拷贝。那么我们来看下一个命令。下一个命令呢,叫RSYNC啊,RSYNC是叫同步工具,你看啊,这个名称起的啊,上面呢叫。
10:06
安全拷贝是复制。同步是什么概念呢?来看一下23VC呢,主要是用于备份和镜像,具有速度快、避免复制相同内容和支持符号连接等优点。复制啊,我是一定呢,是把你的这个数据完完全全的拷贝一份,那么同步呢。假如说给他画个图。什么叫同步?哎,还是这张图吧,都拿过来。那这张图当中,刚才啊,我们是把这个hi度op和GDK同这个拷贝过来,对吧?那如果hi度op当中有一个文件,比如说一个参文件,它发生了变化。那现在如果我再次执行的是命令,会发生一个什么效果?那我是不是就完全拷贝一份啊。爱完全拷贝一份。
11:02
完全,再来一份。你觉得这个效率是怎么样?那如果是同步呢,同步的话,我只修改这里面的参M,比如说只变它。只是它发生变化。那么这个数据不变。啊,差别就在这儿,直接只更改你变化的数据,其他内容不变,这就是RSYC和SP的一个区别,那很显然RSYC它的性能更好一些。而且这个二次班C啊,如果说你这样有同学该想了,说我这完全啊,这里面是第一次的一个同步,那第一次同步等同于拷贝。啊,第一次同步哈,这也是这样的,就所有数据都拷过拷贝过来呗,那你看一下它的语法。2XYC-AV变了,不是杠二了杠AV啊A呢是就是归档啊拷贝,那V呢是显示这个复制过程。
12:05
那后面呢,这个是要拷贝的。内容。然后呢,目的地。你看跟这个ICP是不非常像。除了第一个参数不一样之外。你看一下。对比一下,没有对比,没有伤害。对吧,那是不是后边这个都是一样的,OK,那行,那这里面我们来。操作一下啊,比如说呢,我们把这个海103上的这个WC input给它删掉啊,看一下啊,我们来到103。这里面是不是有个WC input和WC output呀。RM杠、r fwc input。WC奥,我都给它删掉啊。现在呢,我都删掉了,对吧,都删掉之后我来到102上。我看一下我这里面是不是有WC input和output,那今天要做一件什么事呢?我希望将。
13:05
102上的hiop同步到103上。那看他同步的时候是所有的内容都拷贝呢,还是只拷贝这种差异性的内容。这不就证明出来了吗?好,那我们来试一下这个命令啊。RSYNC。杠AV。然后原数据在哪呢。I,对吧,哎,在这儿同步到哪,对方艾特硅谷。艾特。HIOP103,那对方的路径呢,是OPT model。是这样吗?那我们来试一下。密码。既然给我同步这么多,嗯。但是你是回忆一下啊,那他虽然说给你看出来这些目录它是不是真正的同步了呢?不是啊,为什么说不是呢?你看啊,真正的这个嗨毒果咱们在拷贝的时候花了多长时间。
14:01
是不是花费了很长时间的一直在拷贝啊,刷刷刷一直在拷贝,还记得吗?但是你现在你看。他是不是几秒钟就完事了,哎,所以说这个同步命令你看,尤其是这个后面这块。对吧,哎,跟你同步来,我们来看一下吧。103,那这里面呢,你看WC input WC out就有了。那这个同步命令呢,啊,性能各方面啊,它属于同步,要比你这个SC啊,直接一个拷贝啊,啊要性能要好一些,那什么时候用同步,什么时候用拷贝呢?如果是第一次使用,我们用SCP,那后续呢,进行一个更改的话,我们可以选择用这个RSNC。但是大家思考一个问题,我现在每次在同步命令的时候都要写这么多命令,同时我还要输入密码。是不是感觉很烦呢?这个效率要低一些,那能不能有一个好的脚本,直接就我们想同步谁同步到哪。一步到位,那有没有呢?有啊,我们下节课来讲。
我来说两句