00:00
好,上节课我们把这个集群配置已经配置好了,对吧?哎,各个配置文件那相当于我们现在还多102和103104处于一个什么状态呢。也就是说它的配置完事,它的配置也完事儿,它的配置也完事儿。那都配置完毕之后,现在呢,我需要启动对应的这个集群,哎启动集群,那启动集群之前我们还需要做一件事,就是配置一下它的沃克斯啊,沃克斯,这个沃克斯啊,就说明你机器上有几台节点,我这块就配置几个主机名称,那我一共有三台1021314,那我就给它配置上。呃,来到这里面CDETC还斗篷。找到一个work就是它。打开之后啊,默认的它是local host。I插入进来,把它删掉。102。HIOP103。HIOOP104,哎,正好是三台服务器的主机名称,那这里面有两个注意事项,第一个不允许有这种空格。
01:07
啊,因为未来你这个文件会作为它启动脚本的一个获取输入文件,比如说它获取的主机名称是这些。那就失去我们含义了,因为我们的主机名称是还多幺龙四,没有后面这个空格。哎,但是他不管啊,说明他的脚本啊,写的还不是够好,对不对,哎,还没有进行一个优化完善,那当然还不允许有空格。空格,他会认为这是一个主机名称。对吧,哎,相当于没有虚空啊。行,那这里面我们按照他的要求啊,做好,做好之后别忘了分发一下沃尔克斯走。这样三台节点就全部同步完毕了,那下面呢,我们回到这个。加目录啊,就是还多的这个根目录吧,啊回到这儿,回到这儿之后准备启动集群,启动集群之前要进行初始化,哎,只有第一次的时候要进行初始化。相当于你刚买了一块硬盘加载到你这个电脑上,你需要对这块硬盘进行初始化是一样的。
02:06
那这块硬盘是不是每次我启动服务的时候都需要对它进行一个初始化呢?那肯定不是啊,你每你第二次第三次来的时候初始化,那这里面数据是不是就清空了。那你不得哭啊啊,所以说这一定要注意。啊,只有第一次的初始化,那初始化呢,就用这个命令,As name node杠,Format。相当于把你这个记账本啊清空,哎,重新开始记录。那我们来试一下。As name node,杠,嗯,这样就OK了哈。行走。正常情况下,这个期间没有发生错误,那就说明初始化完毕,初始化完毕之后,你注意这里面就多了一个。路径一个是date,一个是lo,多了这么两个东西啊,你看一下date。
03:00
Date里面有一个DFS,你再看它的。诶,它里面就没有对吧,再来看这里面。说他也没有啊啊,因为我们目前初始化的只是102,然后你CDDFS进来,进来之后这里面就有了一个name note。再见。有一个再见。Current,那这里面有什么镜像文件啊,后面我会给大家讲,这里有个worse。那这个图啊,给大家截一下。当前服务器的一个。版本号对吧?哎,版本号那后面叫name,呃,Name space ID是不是他呀,哎,记住啊。留作后用。退出,退出来之后呢,我们回到OPT model。行初始化完毕之后呢,我们现在正式的开始启动集群,那启动集群的命令在哪里呢?在目录下。这里面有一个start DFS。
04:00
哎,启动集群。那就用它。Sb start dfs.CH直接就够了,走。说启动内豆的在102上启动。哎,这是啊,也是带动的哈,一轮三一轮四。OK,启动完毕GPS,那你要跟谁比呢?跟你的集群规划比。在我们102上说启动name note对notde name notde对note没问题,那看一下103。103 OK,没问题,104。这note secondary name note是不是都OK啊?哎,一切都OK了,比如说现在启动完毕了,那启动完毕之后啊,HDS还给我们准备了一个HDS外部页面。嗨,法。1029870这个端口号不知道大家还记不记得啊,我们在配置的时候配置过,那来到这个页面啊,这里面说了啊,说海波102什么active啊,下面是整体的一个介绍啊,不用看,我们用的最多的是这个页面。
05:07
啊,Inity点击完之后说它的file system,比如说这个路径呢,是管理着这里面有哪些文件,那目前呢,它这里面是没有一个文件啊,不着急一会儿呢,我们再进行一个上传啊。得拿走。那往下看说DHDFS已经启动好了,而且呢,它的这个web页面也已经访问了,那下面我们启动一下resource manager啊启动一下它。那启动它这个地方要注意了,启动resource manager resource manager在哪台几点的呢。在103上,那我们就一定要来到103上去启动,不要在102和104上骑这个初学者总易犯这个错误。来阳山。艾滋病。看一下table键,这里面有一个start。哎,雅n.CH就是。
06:01
这是stop,那start呢,这个。Start。走。一定要注意啊,在103上。GPS查看一下哦,新在的data notde note measure no measure,跟这个一模一样。来到102。和我的集群规划一模一样。一定要对照啊,有一点不一样的不行,哎,这就相当于需求和我的设计完全匹配上了,OK,现在呢,集群就已经启动起来了,那启动起来之后呢,这里面说雅安呢,还有一个对我们暴露的一个外部页面,哎,嗨,度我1038088。查看任务的一个运行情况,我们先来看一下啊。再开一个页面。Hi do。103冒号。
07:03
8088,哎,来到这个页面,那我们现在就看到了,诶,这是雅安的一个支援任务调度的一个页面,那目前呢,这里面说no date available,呃,Available啊,就是不可见的在这个表里面啊,对吧,等我们运行任务的时候,这里面就有数据的一个变化。行,那整个集群呢,我们就已经启动完毕了哈,那下边呢,我们对这个集群做一些测试,首先呢,我们在这里面上传,呃,创建一个目录,然后呢,上传一个,呃,先上传的是小文件,再上传一个大文件。来到102。看好了hadoop FS杠、make DR,创建路径,根目录下input。WC的吧。WC input OK,看好在哪里?去看一下有没有变化呢?来到这儿。OK,走。
08:03
执行完毕之后,发现这里没变化,刷新。哎,你会发现这里面多了一个WC input啊WC input那注意。呃,那传上来之后,那我们。再往上里面传点内容吧,啊,我们把我们本地的一个word啊传上来。本地的一个文件传上来。嗯。本地是不是这里面有一个文件啊,对吧。嗨,FS上传的话是杠put WC input里面有一个work count啊word.ta传到呢,WC input走。上传成功再来查看一下。刷新是吧,那就有了,那有了,看一下这里面有没有我们想要的内容,我点。点击之后看一下。点它你看文件汤老师宋宋老师对吧,哎,我想把它下载下来,可以点download的,诶直接就下载下来了。
09:07
这里面对吧。这个就是,哎,这个就是。OK,那这是as的一个基本操作啊,查看上传,那这是传了一个小文件,那我再传一个大点的文件啊。Hi fsput,呃,哪里有大文件呢?OPT software software下面有两个,我传JDK吧。嗯,传JDK到。制造个目录。OK,传完毕了,传完毕之后我退出来看一下。那这里面就多了一个JDK对吧,哎,JDK。那JDK大家有没有疑问呢?说海哥你把这个数据上传到APS了,那这是一个web页面,它并不能存储数据,只是方便我们展示,也就说这里面只是存了一个链接,那实际存储的数据在哪呢?
10:04
它实际是存储在data note节点,那data node的数据在哪啊?大家始终疑惑是吧,那肯定有一个地方存的,那大家来看我们这里面是不是有一个date呀。对不对啊,有个它,那它是什么时候产生的,还记得吗?在我们配置集群路径的时候,有一个它。指定hi do数据的一个存储目录,Hi do time d到date啊就是它啊,那就是它的话呢,那就是CD date。进来一点点进进来之后啊,这里面有个DFS。最开始我们初始化内部弄的,格式化内部弄的时候只有它,现在呢,上传数据之后多了一个它。那我们就来看一下。再来看current。再往里面找CDBP。按table键,那这里面走谁呢?走current,那再走,走这个final再走。
11:00
到这儿到头了,到头之后看一下。这里面有这么多文件。那这么多文件干嘛的呢,开一下。BLACK25。熟悉吗?这是谁呀?看一下这页面里面。看一下。接出来。F1。看一下,对比一下。是不是就是我们刚才上传的这个word文件呢?哎,就是这样的哈,那好,那除了它之外,那我这里还传了一个JDK啊,哎,那这里面我们这样去操作一下哈,怎么操作呢?看一下。这命令我们这样去玩,还记得这个命令吗?K,查看查看你这个文件,然后追加到一个文件后缀,那后面我们为了为解压缩再加一个t.DZ也说压缩文件。那行,那这里面我们来操作一下啊。
12:02
说我们执行的是cat,嗯,Black2.826第一个文件,然后呢,追加到一个ta.Dz.T。是他的理解吧。啊,差点JZ啊,烦了。差点GC这里面走,哎,追加一个,然后我再一个BLOCK27,我仍然是追加到。第二。差点CCOK。那这里面就有了一个time t DJ,然后我干一件事。ZSVF。解压到当前路径走。你发现哦,这就是一个接DK啊。你看完全解压出来了,是不是呢。就是一个JDK啊,那现在就知道了,也就是说这个像。AJS数据的存储位置就在这个路径上。就在这种情况。
13:01
那咱们说这个hi to啊,它具有高可用对吧?诶任何一个服务器的数据挂了之后,它还有两份的副本帮我们存储的,那实际是不是这样的呢。那我们来看一下啊,首先你看啊,在这个页面上这个地方啥意思。哎,副本的含义说有三个有三个副本,它真的有三个副本吗?我们来到这里面,CD date。然后DFS current BP,然后current再来。Finalize。好。那这里面,那你发现是不是也是刚才我们跟102上存储的数据一模一样,那再来到104。CD date。DFS。Current。嗯,Current再来。OK。然后这里面你发现哦,这三台数据存储的一模一样。
14:00
对吧?啊,那如果再来第四台,有没有同学想,如果再来第四台是怎么存储呢?那它也是选择任意三台服务器进行存储,有一台是没有这个数据的啊,记住啊,他说三份就是三份啊。既然呢,这是上传的这个数据,那接下来我们嗯往下看。嗯,这是存储,那下面呢,我们再把这个执行一个word count程序。那看看雅恩又是怎么工作的,对吧,因为我们刚才上传。数据它不涉及到雅恩啊,因为雅恩是资源的调度,只有你有迈六这种计算任务的时候,我才会执行。那我们就执行一个官方word count,看还记不记得这个hi doop、架赛尔hi doop map6、hideop map6与Z斯,然后word count input output。还记得他吧,那下面我们来操作一下啊。嗯,回到102。好,来到这里面,然后呢,我hi do。赛尔。
15:01
嗨豆。MAPB6MAPB6下面呢,有一个hi doop,一个张斯,然后呢,Word count。哎,我的路径,我的路径怎么写?记住我们现在是HTS方式运行,比如说集群模式,那我们的路径也得是集群的路径。比如说是他。对吧,I是根目录下的WC音input。那我输出的路径也得是集群的输出路径WC output。哎,如果你不是的话,你得改啊,得改这个协议,那正常呢,我们都是在集群上进行一个操作。走。正在运行,它在运行的时候啊,我们来观察这个页面刷新,发现这里面多了一个任务对吧?哎,正在运行,你看正在运行。还得找。咱看一下这边这边还没执行完,对吧,Map reduce啊。好,那再回来继续刷新。刷新。哎,执行完了。
16:01
是吧,哎,现在就已经执行完毕了,那执行完毕首先你来到ADS观察一下这个数据到底有没有,有没有结果。WC。进来之后看一下结果。挑一下。对吧,就是我们想要的结果,那我来看看那行,那他执行完毕之后,那我们来看一下我们这个页面。这个页面呢,是它任务运行的一个页面,那这里面有一个历史。现在,哎,历史打开。你会发现诶报错了,为什么报错呢?因为我们历史服务器没有配,你说你过一段时间之后,那么这个你这个页面一关,那我这个任务的运行情况就没了。那这个不是我们想要的,我们希望呢,哎,能够查看到它对应的历史运行情况,哎,那我们就需要配置一下历史服务器啊。
我来说两句