00:00
好,接下来呢,我们来到第三章,诶这张呢就是开发的绝对重点,那么首先来看一下嗨多跑运行模式有哪几种,那这时候呢,我就会带大家去看一下这个官网啊。嗯,由于我这个网速。还挺快啊,那现在呢,已经打开了。打开之后。来到这一面。这里面是介绍了这个嗨,有哪些功能使用啊,这个我们就不看了啊,直接看这个gettinging star,比如说从这开始。进来之后往下走啊,据说大家这个英文水平啊非常棒对不对,哎,那我们来看一下啊,那首先呢,这是目的对吧?啊,然后pre care啊,就说准备的一些工作,那看一下这个。叫supported platforms,比如说支持的一个平台有哪些呢?说要求啊,Linux或者u is supported as development啊,生产平台说had Hass滨啊,这个on,这个LIS class已经运行2000个服务器节点啊,其实已经不止2000个,这个海多宝集群啊,正常的一个工作使用啊。
01:04
这样多的话,四五千个节点啊,同时工作都没有任何问题。啊,另一块呢,说Windows is also support,也就说你除了在Windows环境下部署high,那在Windows环境也能够进行部署,但是呢,说but the following stems,也说下面这些步骤啊,Fornus only,比如说仅对的是nu,你想用看这个。比如说你跳转到其他页面,OK,这是说两个系统的一个支持,那下面呢,还有说required software从硬件上搞定之后,那下面呢,就是软件上你需要准备哪些呢?第一个。比如说,你必须要准备的是Java must be store。你说JK你必须得安装,那另一个说sh must后面呢,我们会装这个SH是什么,不要着急。后面会详细说明,那再往下看说installing software啊,安装对应的软件啊,Download的下载,这是下载hioop,我们已经帮大家下载好了啊,后面呢,其实也可以教大家怎么下啊,你点进呗进去呗,进去这里面就有对应的呃,镜像啊。
02:07
呃,说prepare to start hioop集群啊,往下走,那这里面要求有Java home jdk,还有一个hideop安装,这两项我们是不是都已经安装完毕了。再往下走。哎,这个地方说now you are ready start yourop啊,In one of the three mode,比如说下面有三种运行模式分别是。本地模式local对吧?还有呢,呃,Pre pre distribute mode叫伪分布式集群,还有一个呢,叫fairly distribu mode叫完全分布式集群,那么这三者怎么理解呢?有什么不一样的地方?哎,给大家画张图啊。嗯,正常情况下呢,我们先来一个本地模式。这个呢是本地。
03:00
诶本地呢,那就是单台服务器,比如说就是hide。还多100吧,啊,还多100。就这一台服务器,同时呢,这里的配置,比如说读取的文件信息吧。数据。存储。在Linux本地。在Linux本地磁盘上就能够读到对应的这个数据,那这种方式呢,就是local模式,那再来一种。那对应的就是伪分布式。伪分布式呢,那这里面我们比如说放在101上,它也是一台服务器,那区别是数据存储在。HTS。还记得HS是的吗?一个数据储件。那你看一下区别,一个是存储在自己的文件系统管理,另一个呢是由Linux帮他去管理这个文件,那这是为什么是。
04:05
那还有一个。叫完全分布式。幺零。二吧,嗯,零二开始。能不能放下啊?嗯。行变一下颜色,那这里面102103。104构成了这个完全分布式。哎,完全不是集群。扩一下。下一生质地。那这也是完全复式,那它跟上面有什么区别,那它的数据也是存储在ADS。
05:02
同时我是多台服务器工作。哎,这就是区别啊,这三种模式,那这三种模式在什么场景下用呢?那谁家说一下这个本地这种在生产环境下不用测试,偶尔用一下。只是在测试啊,偶尔吧,非常少啊,也就给你们今天上课会用一下,后续呢就不会再用了,那像这个伪分布式,伪分布式啊,往往是公司。中没有钱。啊,不能说没有钱是吧,比较差钱。要差钱。那他就用这个伪分布式啊,确实有这种公司啊,但是非常非常少啊,之前我还遇到那个一个老学员啊,他跟我说他们公司每天的数据量呢,只有两兆,还在做大数据。然后呢,只给他分配了一个16G内存的一台服务器,只给了一台。
06:04
那怎么办?那只能搭这种伪分布式啊,可以正常使用,而且这家公司啊,这个口气非常非常非常大哈,是吧,你要给我做一套集群,能够适配每天两兆,到未来每天一个TB数据的集群。然后就给他分配了一个C台。嗯,这个16G内存的一台服务器啊。这个各种7788的公司都有啊,这个大家呀。这个见多了就知道了啊这个。领导啊,各种给你画饼,说我们要未来要上市,嗯。公司才20个人。这个说啥都有哈,那不管他那这种公司呢,呃,我们一般呢,呃,就是尽量少去哈,我们还是要这种正规的,有这种大的数据量,还有呢,这种正规这种集群啊的公司,我们再去啊。那如果是完全不是的话,通常在企业里面。大量使用。啊,几乎每家公司,只要你是一个真正做大数据的,都会有这种生产环境的集群,那我们后续呢,都是按照这种方式进行一个搭建。
07:03
那说了这么多,那我们下面开始干活呗,哎,首先来测试一下这个本地模式对吧?哎,先把这个最low呢给大家演示一下什么叫大数据。嗯,我们在。打开大。在这个目录下呀,啊,创建一个文件。Make d WC input文件夹,然后进入到这个WC input就是它啊。进来之后创建一个文件VM。起个什么名字呢?叫word吧,word.t。那这里面放一些单词,那咱们班有什么这个名人吗?哎,宋宋是吧,哎宋宋老师是名人。汤老师也是名人,汤老师,嗯,还有谁呢,班长?嗯,再来一个波波老师。波波,嗯,还有呢,杨哥。行,那这么多人物是吧?啊,英雄人物好OK,那现在呢,我们要干一件什么事呢?我们这里面是有待处理的数据,对不对啊,一堆单词,我就想统计每一个单词出现的次数,最终告诉我说送送两次。
08:15
苍老师两次,还有一个是波波。一次啊,杨哥一次。哎,给我出这么一个清单,那中间自然要经过MR程序,比如说map程序。这是输入端,这面呢,是输出端要干这么件事情。那开始吧。对,出来啊,来到当前这个路径下,然后洞。对吧,哎,海毒,因为我已经配置了全球环境变量,我直接打海毒火就能出来,他是谁的,他是这里面的命令哈,你看一下。对吧,哎,在这儿呢哈,那当然了,你说这个前期啊,这个对这个路径不太熟,那你可以这样。In,还法这样可以吧,哎,然后执行一个价包,那这个价包在哪呢?在这个赛尔下。
09:06
分享,然后你按一下table宝键,这个一定要会啊,就用下面提示,然后还啊,然后你按一下table宝键。对吧,也有提示,那这个程序在MA6啊,打一个M,一按table包键,然后再按ta包键。出来这么多家包,那我们这里面选择的就是hidoop map它。打一个HK吧。出来他然后打一个E在推广。这就OK了,对吧,按到这按这个CTRL加L就来到这个页面,那行那指向这个它之后,那这里面你看这个加包,它叫一个脏抛丝。啥意思?就是这里面它不光有一个案例,它有多个案例,那我现在呢,只想执行一个word count案例,那你就需要告诉他,我执行的是word count案例。诶指向那好,那记住后续我们所有写的这个map reduce程序,它必须指定对应的输路径和输出路径。
10:07
而且输出路径还不能存在,如果存在的话,直接跑一场。那我们来先来看一下啊,我们的输入数据在哪呢?按一下包键,是不是当前目录下的WC input呀啊。WC inputt保健,那它的输出路径输出到哪呢?我们就输出到当前这个路径下的叫WC output,那这个路径有吗?在当前路径下没有吧?哎,没有。那这个。如果你不懂这个的话,那这样也行,对不对,哎,当前路径。OK,开始执行。哎,这些挺快啊。查看一下cdwc out。那这样呢,就已经计算完毕了,这里面有两个文件,一个大小三18,一个是零,哎,这个零呢是success,表示一个标记,里面并没有数据,那真正存储的数据在这里面查看数据cat。
11:00
你看。班长一次,波波一次,汤老师两次,宋送两次,杨哥一次。哎,这就是统计这个单词将的时数,好,我们退出来啊。那行,那我们再来执行一下。这个命令金寨这个WC out是不是存在啊?看好了是不存在啊,存在之后我们执行。啊,直接抛什么说file already exist,比如说这个文件已经存在了,后面呢,我会带大家去看这个源码,说为什么他抛的是这个异常走到哪的时候就抛了它。那后面我们看源码的时候会详细给大家讲啊,那现在呢,你就知道啊,我们在执行命令的时候啊,这个路输出路径是不能存在的。啊,不能存在。行,那这个就是这个本地模式啊,本地运行模式,运行了一个官方word count案例,快速了解一下这个hiop它的一个运行啊过程OK。
我来说两句