00:00
好,同学们,我们刚才呢,把那个雅安的环境给大家演示了一下,怎么去部署啊,怎么去看它的历史服务,对吧?那么接下来呢,我们往下来看,下面呢,有一个叫K8S和这个S,这个S呀,是阿帕奇下面的一个开源分布式资源管理框架,其实啊,这个框架是非常强的,尤其呢是在国外呢,用的非常的多,其实他们互相之间都能够借鉴别的框架的,呃,好处和这个优点对不对啊,这都是没问题的啊啊,但是对于我们来讲呢,国内用的就少一些,所以这个咱们就不过多做讲解了啊,还有那个K8S,它是最近比较流行的,我们容器式的这种什么部署方式啊,我们这里呢,也暂时先不做过多的介绍,但是呢,这里面会有一些相关的一些内容呢,大家可以去查找一些相关的资料,自己看一看啊,咱们这里就不过多介绍了啊,我们工作当中主要还是以雅安为主,那么容器化部署环境呢,是目前业界比较流行的一项技术啊,那么我们的K8S呢?
01:00
就是基于容器化的这种部署方式啊,但是对于我们来讲呢,我们还是以雅为主,因为工作当中雅用的比较多嘛,对吧,所以这个呢,我们也就不过多的介绍了,如果大家感兴趣的话,这边有个地址,大家可以自己参考一下啊。好,那咱们继续往下,下面呢,有一个叫Windows模式啊,这个是什么呢?就是说呀,我们每一次在本地想去实现一些我们的功能的时候啊,我们有的时候会打开虚拟机连接我们的集群,但这个时候啊,你打开虚拟机以后,我们的机器相对来说就会变慢,这样的话有的时候调试呀,包括去执行一些功能啊,感觉不是很方便,所以呢,我们还提供了什么Windows的环境,那这样的话呢,我们不需要开启虚拟机,也能执行咱们的应用程序来做一些测试,这不挺好嘛,对不对?所以啊,这个呢,我们了解一下啊,那咱们也演示一下,看看它该如何完成啊。呃,首先第一个要将咱们的压缩文件给他解压缩,解压缩到无中文无空格的路径当中,一般呀,咱们Java的一些程序啊,都是要解压缩到无中文无空格的目录当中啊,那咱们这里为了演示咱们就不那么做了啊,所以大家看在我们给大家准备的资料当中,大家观察一下啊。咱们的这个地方有一。
02:15
咱们的压缩包把它解压缩来点一下。那么点完以后,解压缩完成了,它里面的文件结构跟咱们之前所学习的文件结构是完全相同的,因为压缩包是同一个嘛,对不对,好打开,打开以后里面的文件结构没有任何的问题,那么我们回来往下看,他说了这个时候啊,我们去在解压缩的目录当中去找到一个并目录。有一个B目录,然后呢,在里面有一个叫10sparkce.cmdcmd是我们Windows下面的可执行的命令文件,那么我们就找一下叫space,有个叫CMD,我们在这个位置我们双击执行就可以,它会弹出一个命令行窗口,我们稍等一下啊,稍等一下这个弹出的窗口呢,跟我们在虚拟机当中没有任何的区别啊,只不过这是我们当前的Windows对不对?诶,就是这样啊,那好,弹出窗口之后,只要出现下面的这个内容,就说明是OK的,没有任何的问题啊,咱们可以稍等一下,诶,大家听到现在已经出来了,那出来了以后我们再演示一下咱们环境上能不能执行啊,所以他说在B目录中创建一个input,然后创建一个word文件,所以呢,咱们在这里来,就在这个B里面,我们点击新建。
03:35
然后呢,诶我们来新建啊,咱们创建一个文件夹,咱们叫input,然后呢,在我们的这个地方,我们点击,然后新建我们这里呢,来创建一个我们的word文档,咱们写成word,然后呢,来把英文单词给它写进去打开。打开咱们就叫hello啊,咱们的word就,诶咱们叫hello,咱们叫Spark。啊,行,写上以后,现在我要想办法在咱们的命令行工具当中去读取这个文件,所以呢,SC跟以前一样,咱们叫做text file,那么这个时候啊,你读取的路径就是以刚才那个并目录它为基础路径了,所以我们写上叫input,然后我们叫word.tst,好,接下来flight map做一个扁平化操作,所以我们写上下划线,点split,然后写上一个我们的空格,空格之后点我们的这个地方写上,哎,不对,应该是map map加个括号,再加个括号下划线逗号一,你要让它变成我们的一个KV类型的数据,然后点我们叫reduce by key给它聚合在一块,点我们叫collect,回车,回车以后,那这个时候它这个地方我们来确认一下,说哦,我们忘了写东西了,来同学们看,嗯,把这个拿过来啊,我们写个下划线。
04:59
加上下划线啊好同学们,我们现在呢,打开咱们的这个叫space.cmd咱们打开一下啊,打开以后它会弹出一个黑窗口,这是我们的命令行窗口啊,那如果我们窗口当中弹出了或者说这样的一个内容,那就说明我们的环境是没有问题的,那么接下来我们需要在B目录当中创建咱们的input目录,所以呢,咱们在这里呢,来点击我们的右键,我们来创建一个文件夹啊,咱们写上叫input,然后打开。
05:31
打开以后在这里面呢,我们再来创建我们新的文件啊,咱们就叫word就可以了啊,咱们叫哎T在这个里面呢,我们点开,点开之后同学们看啊,把这个呢来拷贝,拷贝以后把把这个关掉啊,关掉以后在这里我们点开。点开之后拿过来,这是我们的hello word hello Spark,呃,那接下来我们准备呢,就在我们的命令行工具当中来读取这个文件就可以了,所以首先第一个SC点我们叫text file啊,然后呢,拿过来我们写上叫input,我们说过了咱们从B目录当中来读取文件,所以斜杠我们叫word.tt那么读取完文件之后,我们叫做flight map,然后我们写上下划线,点split,然后写上一个空格,用空格把单词隔开,然后点我们叫做map,把它变成我们的KV类型的数据,咱们下划线逗号一哎就可以了。接下来我们reduce,那咱们的reduce by key,然后两两相加,诶,我们这样写,再来点collect,嗯,好了,回车,回车以后大家观察一下,我现在就能够把咱们的。
06:50
数据读取过来,Hello,出现了两次word一次Spark一次,这样的话我们的word count不就出来了吗?这说明我们本地环境下这个是没有问题的,并且呢,我们还可以通过咱们的这个可以打开咱们的UI界面,也是完全可行的啊来咱们回车,回车以后你看一看咱们的执行情况,这也是可以的啊同学们好了,那这个咱们演示完了以后,咱们接着呢,往下这个时候呢,我们还可以通过命令行的方式来提交咱们的应用程序,那么首先第一个你得先退出去,所以啊,咱们给它退出去啊,来退出去,退出去以后,或者说咱们直接关掉这个窗口也行啊,直接关掉,关掉以后在咱们刚才的这个B目录下面,我们在这儿直接写上CMD。
07:38
啊,就意味着在我当前的这个目录当中,我直接写个CMD,我为什么要写CMD呢?是因为我需要在这个目录下面去执行咱们的这个SPA sum的一个脚本啊,所以拷贝。拷贝之后在咱们这个bin的目录下呢,给它来,我们在这儿啊,咱们复制一下,复制然后在这个地方回车,回车以后你会发现杠杠class,咱们的类名杠杠master是我们的环境,还有我们的架包的位置,那么它就会开始执行,执行的过程当中会把咱们的派给它打印出来,诶大家会发现现在就已经执行完了,这个明显呀,会比你在虚拟机当中执行的稍微的快一些,对不对,诶就是这个意思啊,所以这就是我们Windows的环境啊,就是这样的,好了,那我们现在呢,把Windows环境呢,也给大家介绍了一下啊,接下来做一个简单的总结吧,大家看我们呀不同的模式呢,进行了一个对比,那么首先我们有了三种不同的模式,LOCAL3和那个雅啊,那么local模式呀,它只需要安装一台机器就可以了,本地嘛,它不需要启动任何的进程,你直接。
08:53
去执行它的脚本就可以了,它属于Spark啊,主要应用于咱们的测试场景,然后呢,第二种呢,叫三龙,它是需要三台机器,为什么?因为资源和计算都是需要它自己来准备的,那么它里面就需要master和worker,它是跟资源相关啊,就是这样,它要事先启动好,它属于我们的Spark,它属于独立部署模式,不需要第三方的那些框架。然后呢,我们这边有一个叫雅安模式,那么雅安模式是我事先要准备好的,那你的Spark只需要安装一台机器,用来提交一些基本的配置和架包就够了,那么它需要事先启动的进程呢,是SDFS和雅恩的相关的进程,对吧?好,然后呢,它属于什么呢?我们的海多普啊,为什么呢?因为海多普的雅嘛,对不对,它属于混合部署模式,就是又有Spark,又有我们的雅安,诶就是这样啊,好了,这是我们对三种不同的。
09:53
模式的一个对比啊,接下来我们再往下看,下面呢是端口号,那么所谓的端口号呢,就是我们在前面给大家部署环境的时候啊,有大量的端口号,这些端口号呢,其实我们稍微的注意一下啊,也不需要全都记住啊,也没有什么太大意义,你就知道就行了,到时候呢,如果需要的话去看一看啊,第一个叫4040,它表述的是我们程序在执行过程当中的一个监控的端口号啊,用来查看任务情况的,还有个叫7077,它是我们在独立部署模式当中master的内部通信端口号啊,7077,然后还有个叫8080,这个8080呢,是我们在独立部署模式当中那个master的web端口号,当然可以改,对吧,这是可以改的啊。还有一个是我们的Spark的历史服务叫18080,这个也是可配的啊,给它配上,那么这个是雅恩的运行情况的那个端口号叫。
10:53
8088这个咱们之前啊,都分别的演示过啊,我说了不要求大家记忆啊,只要呢,用的时候把它拿过来用就可以了啊好同学们,这个呢,咱们就说到这儿了。
我来说两句