00:00
嗯,好,那位同学,那咱接下来呢,就来看一下我们这个数据仓库的开发环境,那在这儿呢,其实我们主要就是去安装,去部署一个呃呃,Have的一个可视化的客户端,那在这儿呢,我们以data为例进行演示,那其实在这儿呢,我们不管使用DB还是使用data啊,那他们俩它的大致的原理是一样的,它俩其实都是怎么做呢?都是使用JDPC协议连接到hive对不对?那既然要用JDPC连hi了,那我们就得先干啥呢?是不是得先启动have so to啊,对吧?好,那所以在这儿呢,我先把have to给它启动起来,来启动一下那have so to啊,呃,这个稍微都注意一下啊,大家之前在学have的时候,应该是有一个have sor库的启动脚本吧,对吧?哎,你可以用那个脚本启,你也可以像我这样直接用它自带的启动命令去启,那我直接启动,当然直接启动之后,这个have sor库,它的进程是不是会阻塞在我们当前的这个前台呀,对吧?啊,然后大家注意一下啊,那阻塞在前台的进程,当我们将来是不是关掉这个是SS连接,它会被挂断呀,对吧?啊是这样。
01:00
难的,所以通常情况下,我们正常不是这么去启的,你得加上no harm得退到后台才行对吧,但是我这儿呢,我为了方便查看日志,我就暂时先给他启动在前台啊,那实际商场完应该退到后台,应该得加no号了,这个大家注意一下就行了啊好,那这个先让他起的,那之后呢,我们来看一看这个data gra到底怎么去玩啊呃,Data gra的安装包呢,我已经给大家放在呃这个资料的这个目录下边了,咱们去找一下啊,找到资料,资料里边呢有一个data gra,然后在这儿呢,大家可以使用这个安装包给它安上,然后呢,用一用就完事了,呃,然后安装非常简单,我就不再演示了,我这已经提前装好了,然后呢,我把这个data口就把它打开。呃,然后大家第一次打开这个data gra呢,你需要去给它,呃,这个去创建一个工厂啊,创建一个工厂,那完了之后呢,呃,之后呢,就能来到我们当前的这个界面,我把这里边的东西先关掉啊,全部关掉好,那关掉之候,接下来我们就可以正式开始去使用这个daily了,那我们在使用它的时候,我们要做的第一件事,大家说应该是啥呀?是不是得建立连接对吧?我是不是得先建立data gra跟还有serve的一个连接啊,对吧?好,那这个东西怎么建立呢?很简单,大家看这这个位置是不是有一个加号啊对吧?点一下这个加号,点完之后注意观察,那这是不是会有一个data source啊对吧?这个data source后边其实就是它支持的所有的数据源,你会发现实际上它支持的数据源是极其丰富的,对吧,那这里边呢,有咱们大家所熟悉的,比如这就有一个阿帕奇have对吧?那还有什么呢?呃,比如说你看下边啊,什么big query可个house对不对,那甚至我们再往下走还会有什么呢?往下诶,这个没了,我们再点一下啊,点下这个,然后往下走,那再往下,这还有一个other啊,Other里边还有什么,比如说阿帕奇巴。
02:38
Park elastic search,甚至下面还有这个PAL Phoenix,我刚才说的这一堆东西,大家可能有的听过,有的没听过,对吧?但其实他们都是什啊,都是我们一些大数据的这个分析工具,那就是他对大世记的整个平台支持还是比较比较不错的,那那除此之外呢,还有一些这种传统的关型数据库是不是也都支持啊,对吧?比如什么my circle Oracle post circle等等也都是支持的啊,它支持的东西还是比较多的啊,那在这儿呢,我们就选这个haveve的就完事了啊,那就点击阿帕奇have,那点完之后我们就来到了这个连接的配置界面了,这里边有一些必要的参数,咱们得配一下啊,首先第一个就是名称,名称其实就是一个连接的名称,这个随便写就行啊,比如说在这儿了,我就叫做j Mo啊,J贸呢,其实就作为我们这个数据仓库,将来的那那个库名啊,是这样的啊,这个我把它作为连接名也没事,后边呢,我再写一下咱们这个班的班号,咱们叫1018对吧?好,那就来继续往下走,那下边呢,我们还有一些必要的参数需要去配置,首先第一个就是house加po,这个应该知道是啥吧,House跟po我们应该写写谁的呀。
03:38
是不是得写have so的house跟part呀,对吧?Have我现在在102,那我就写还102,那port是不是就是1万呀,对吧?这个就不用改了,好,继续往下走,下边我们需要配的是什么?是user和password,也就是用户名和密码,对吧?就是理论上各位同学啊,在JDBC当中,Username和password是用来干什么的?是用来做认证的吧,对不对?你比如说我们连接买C的时候,通过GDBC,你得输入用户名,输入密码,是不是通过之后才能去访问相应的这个数据啊,对吧,也就是用户名面是用来做认证的,但是啊,咱们现在的这个have,咱们启用认证的,没启用认证对吧?那所以理论上不启用认证,是不是我们这这个用户名和密码就不用写了呀,对吧?啊是这样,但是啊呃,话虽然这么说,但是这个用户名我们必须得写,密码可以不写啊,密码一写了他也不会用的,没啥用啊,但是用户名我们必须得写,为什么用户名一定要写的,这个我需要给大家解释一下啊,就是我们在这儿写的这个用户名会作为什么呢?会作为将来,那我们往雅安上边去提交任务的那个身份,什么意思啊,你想一想我们这儿是不是会通过,呃,这个GDPC协议连接到海circle对吧,完了之后我们是会在这写circle,你写完circle之后,这个circle是不是会转成一个SPA的任务,是不是提交到雅上了,对不对,OK,好,那我们往雅安上边提交任务。
04:59
的那个人的身份,就是我们在这儿写的这个userr,他的一个身份也啥意思呢?比如说我在这我写一个张三,那你往雅上面提交任务的身份就是张三,你写李四,那提交任务的身份就是李四,对吧?那所以说你这个用户名咱们能不能随便写,不能随便写,你要随便写的话,你比如说举例子,我就写个张三,那这可能会出现什么样的一个问题呢?对,没权限对吧?你你要是以张三的身份往雅上面提交任务对吧?那我是不是正常情况,最终我需要去读HDFS的一个文件啊,对吧?你比如说c select某一张表,对吧,你得去找那个表的路径对吧,那个路径,那是不是张三可能没有权限访问对不对?那所以说你那不能随便写,你得保证你写一个什么样的用户才可以的写一个是不是HDF的超级用户,它咱就能保证我们跑任意的S都能跑通了,对吧,都有权限,好,那现在问题来了,HDFM的超级用户是谁?
05:48
谁是HD超级用户?艾特硅谷,那为什么是艾特硅谷,为什么咱们配过吗?咱们配过HD超级库是谁没配过对吧?各位啊,不,不一定是爱五这个HD的超级用户是谁?这个由什么决定呢?啊,这个其实hi度的官网上有明确的说明,我就不带大家去看了啊,我直接告诉大家就行了,实际上HDFS的超级用户是由启动name note进程的系统用户决定的,哎,谁启动的name note进程,谁就是HDFS的超均库对吧?那我刚才是谁启动的呀?呃,我可能提前启动的,但是我告诉大家我是用I硅股启动的对吧?那所以说我的这个HDF超级用户那就是艾特硅谷啊,那当然你那块,比如说你是用张三这个用户启动的HTS对吧?OK,那你HT超级户就是张三啊,这个要注意一下啊,所以在这儿呢,我写艾特硅谷是不是就完事了,对吧,大家呢,改成自己那个启动HDFS的用户就OK了,那这样一来我们不管访问哪个路径都有权限啊好,那继续往下进行,密码刚才说了不用写写。
06:52
也没用对吧?行,那到目前为止呢,我们这儿必要的参数就算配完了,配完之后呢,我们这儿呢,其实可以点一下下边这个test connection,点测试连接,那当然各位同学啊,就是大家自己就是第一次去安装这个data gra的时候呢,你在测试连接之前,它肯定会让你干啥呀,下载驱动啊,它会让你下载驱动啊,你就按照提示去下载就行了,我这提前就下好了,所以直接测就完事,注意目前已经测试成功了,对吧?那当然这个测试成功的前提是什么,咱得保证是不是后台那个S测试录得启动成功才行了,对吧,你还so媒起来,这也连不上啊,这个理解一下,好,完成之后呢,我们点击一下这个OK,好,那这个链接我们就相当于创建出来了,创建出来之后呢,我们这现在直就来到哪呢?是不是直接就来到了一个这样的编辑界面啊,对吧,这个界面就是我们将来写circle哎,它的一个位置,OK,那现在呢,我们可以先简单的测试一下啊,比如在这我执行一个show什么东西,比如说dass show database,然后呢,我直接回车,好你看这个库是不是能够显示出来啊,对吧?那比如说我再来一个show,比如说tas show tables,然后走,好那现在这咱们。
07:52
这个什么东西,这个表名是不是也能出来对吧?好,那比如说我现在想查一下里边的数据,我直接select行,然后呢,让默认用的who应该是default户对吧?来一个student,完了后呢,我们直接回车走,嗯,这个是不是就已经出来了对吧?OK啊,大家可能这个没有看清,我刚才是怎么去执行这些四二课堂啊来简单说一下,那执行这个四二课,首先你可以把它选中,完了之后呢,点一下这个执行按钮就行了,对吧?或者说你可以按快捷键,你看快捷键是什么,CTRL加NTRL对吧?也就是你把它选中之后呢,直接按一下CTRL加回车L,那它也会执行,诶那这就是我们这样的一个大致的用法,然后呢,我再简单的多给大家介绍一点东西啊呃,那将来呢,我们需要干啥呢?我们需要是不是在还当中去创建我们的数据仓库啊,对吧?那我们书仓里边会有很多表,这些表我们都统一的给它建在一个库下边,这个库咱们叫什么库呢?我们叫J贸库,那所以在这儿呢,我们需要先去创建一个数据库,这个数据库什么呢?叫做database啊,完了之后呢,叫做g ma,呃,然后呢,我们先把这个库给它创建出来,那直接回车,那这个库就算是创建出。
08:52
来了好了,创建出来之后,我现在是不是想查看一下这个库啊,对吧,咱们从哪能看到这个库呢?你可以执行show data size,你也可以看左边点开这个地方,点开之后注意观察,这是不是就出现了一个j Mo库啊,对吧?但是有的同学啊,你可能刚点开的时候它没有,没有是怎么回事呢?可能是这么一回事啊,注意观察,那这个jma后边是不是有一个小二啊,对吧?你点一下这个小二点点完之后呢,这其实是可以选,就是可以选择你要展示的是库是哪个的,嗯,对吧,假如说有同学可能这出现了一个这样的情况,对吧?把这个J帽勾掉了,勾掉之后它这就不再显示这个J帽了,是这样的啊,如果你要是没显示,那肯定是这儿的问题,那你在这儿呢,可以把这个O给它勾选出来,那完这个库就都显出来了,这个大家理解一下啊好,那接下来呢,我再继续往下进行,那大家琢磨琢磨,你说我现在是不是有俩库了,对吧?有俩库我正常我是不是得切到咱们这个追帽库去进行操作呀,对吧?那怎么切呀,之前咱们是不是都是使用这个右的这个语句去切换相应的数据库,对吧?但是在这儿我们不用柚了,咱们用啥就行啊,看这个位置。
09:51
这儿是不是可以选择当前的库啊,对吧?我目前是def fo的,那完之后呢,我要想切到j Mo,那你是不是这点一下j Mo库,我现在就位于j Mo这个数据库来吧,哎,就是这样的,当然这个地方呢,你每次打开这个data gra吧,它都会怎么样,它都会变成default,这个大家可能会出问题,对吧?比如说我今天的表建在j mault,明天的表我都给他建到default了,我忘切了对吧?那所以说咱这为了不出这个问题啊,咱们怎样啊,咱去修改一下这个连接来,咱们找到这个连接完了之后呢,右键一下啊,右键找到谁找到这里边的一个小扳手,就这个位置proper,对吧?点点完之后大家注意观察,这是不是有一个s scmer啊对吧?这个STEM指的是什么啊,指的就是咱们那个库的概念database啊,完了之后呢,它指的就是啥啊,就是说我们连接这个数据库的时候,默认使用的库是哪个对吧?那在这儿呢,咱们写谁就行,你把这有个JA Mo给它写在这个位置,然后呢,再点击apply,点击OK,好,那这样一来你后续每次重新启动data,打开的都是J数据库,这个就不容易出错了啊,这一定要注意一下好了,那到目前为止这个。
10:51
呃,Data gra的基本用法就给大家介绍完了啊,完之后呢,我再多说两句啊呃,首先呢,第一点就是我们在这个位置所写的东西啊,实际上呢,Data gra是会帮我们保存到一个文件当中的啊,是这样的啊,那所以大家得知道就是比如说这个东西我给它关了不小心,对吧?我怎样去找到它对吧?去哪找啊?诶在这个位置找这儿是不是有一个fail啊对吧?那fail完之后呢,点点完之后注意观察,那你点下边这个就行了,Conss对吧?点点完之后呢,点到David conss之后呢,找到我们刚刚的那个链接,我这是1018对吧?那时你往下翻,诶这是不是有一个conso啊对吧?这其实就是我们刚刚的那个文件,诶你再给它打开就完事了,那打开之后呢,实际上你这个名字,比如说我不喜欢也可以给它改名字对吧,比如说来一个rename对吧,这样呢,我给它改成G,然后杠诶1018也是可以的啊11018,然后呢,直接回车,好,那这样一来的话,这个名字那也就改完了,OK,就是咱们得知道怎么去找这个文件,那你要想知道这个文件的目录在哪,怎么找呢?直接右键。
11:51
右键完之后,这里边有一个啥,有一个open in explorer或者叫做授印explorer啊,就是不同版本可能不一样,之后呢,你这个explorer就是文件浏览器嘛,对吧,点一下点完之后它就会定位到咱们这个文件的目录,看是不是就找到这个文件来,对吧?哎,其实很简单啊,好了,那这其实就是呃,咱们这个这个东西你关了之后去哪找,就在这找就完事了,好了,那这个完成之后呢,呃,我还有一个小细节需要去给大家说明一下啊,说明一个什么问题呢?大家要记住啊。
12:18
就是咱们上面的这个东西,上面这个东西啊,这这我们管它叫做标签页对吧,管它叫标页啊,这个标签页呢,你实际上是可以打开多个的,是可以打开多个的啊就啥意思呢?比如说在这呢,注意观察,这这是不是有一个QR对吧?QR在这边呢,我们是能够去创建新的这个,呃,所谓的一个quary cons的对吧?好,那这儿是不是打开了多个了对吧?好,那大家要注意的是,我们这儿不同的标签页相当于就是一个什么呢?不同的客户端啊,或者可以理解为是不同的绘画,能理解吧,也就是说我在这个标志页下边,我去跑一个三克,那我相当于起了一个这个新的这个还有绘画对吧?那么说我在这个客户端呢,我再去跑一个CE,我相当于又起了一个新的,诶汉有绘画,那言外之意是什么呢?是不是我一个新的汉有绘画,我就会在呃雅安上边对应一个SPA的job呀,对吧,前面讲过是不是汉王SPA下面是一个绘画,对一个job呀,对吧?好,我这儿会起一个job,那我这儿呢。
13:16
它也会起一个job对吧,也就是你这儿标签页开的太多了之后,那就会在雅上面是不是启用太多的这个,呃,这个这个这个这个job呀,对吧,Job多了时候是不是资资源就不够用了,对吧?所以大家这块稍微的注意一下,这块的标签页呢,咱们不要起太多,不要起太多啊,这个注意一下就行了,当然也不是说我这儿只要起标签页,我眼上面就会有招,是这样的吗?并不是这样的,我起标签页不一定会有招,什么时候才会有招起了标页,而且这里边我还得跑一个那种走计算资源的circle,是不是财务起招呀,对吧,我现在是不是一个起走自计算资源在S都没跑对吧?那这时候呢,你眼睛上边它有这个运行的任务吗?是不是没有啊对吧?现在是不是零了对吧?哎,一会儿你跑到30它才会起来,这个一定要注意一下啊OK,那这就是大家需要去注意的,就是这个标签页呢,不要起太多,如果确实起的太多,资源不够用了,那大家怎样去关这个任务应该已经知道了,对吧,你可以找到相应的任务,是不是给它KO掉了,对吧?这个大家理解一下就行了,好了,那完完完之后呢,还有一个小细节,就是你可以去在上面KO。
14:16
哦,你也可以怎么做呢?注意观察这这有一个什么,这有一个service对吧?Service然后点开,点开之后呢,你注意观察左边这个位置,这个位置大家去观察看,这是不是有一个councilol对吧?这是不是有一个小绿点啊对吧?这个小绿点就意味着什么呢?就是当前这个绘画室开启的状态,你要想关它的话,也可以在这儿关,直接右键,右键完之后这有一个什么呢?说close session呀,对吧,Close session那也会释放亚S上面的资源,哎,这个理解一下就行了啊,你比如说在这了,我直接右键我给他close,那这个session那就算是关闭了,诶这个大家稍微的注意,那这时候呢,如果上面占用的资源它也会释放了,诶大家理解一下啊,行了,那截止到现在呢,这个data gra的基本使用就算是,诶完事了,那大家呢,到时候呢,再自己摸索摸索,看看这个地方到底怎么去玩啊,其实比较简单啊。
我来说两句