00:00
好了,同学们啊,那咱们接下来看一下第三章咱们的一个快速入门啊,那我们现在想要使用king来做这个数据分析,那首先我们ing的数据源是不是来自于have啊,所以说啊,我们需要先在have里边准备咱们的数据。可以吧,啊,咱们在这边啊,给大家提供了两张表,一张叫做部门表,另外一张叫员工表啊,也就是说啊,是咱们当初学马sle,或者是当初你们学have的时候那个练习题啊,我把里边这个数据给它拿出来了,那么首先啊,我们这个数据给你摆在这儿了,包括咱们的发的这个资料里边也是有的,我们看一下啊,咱们这个发的资料里边有这么一个dept跟这个EP,我们简单看一下啊,咱们这个EP就就是咱们的这个员工表。啊,然后呢,咱们的这个de pd就是咱们的一个部门表。啊,那咱们需要先干嘛下,要先在have里边把这两张表我们串联出来啊,然后再往下,我提供了两个界面语句,第一个叫部门表,第二个叫员工表啊,那我们就进一下咱们的还有客户端好吧,嗯。
01:13
我们进到have客户端之后呢,我们就可以在这个have里边建咱们这个表了,那这样啊,我们这样吧,我们这个为了咱们这个数据看得更清晰,更清晰一些一些,我穿了一个库啊,大家看一下啊,当前我是并没有库的。那接下来干嘛,接下来啊,我创建这么一个库啊,就是create c。哦,是吧,然后呢,咱们有一个这个叫killing test吧,因为我要测试我的killing嘛,所以说我这个库名就叫killing test,哎,这么一个库,然后呢,我就use一下我的这个killing test。啊,下划线是吧,TST,那然那然后呢,我在我的这个killing test里边,我就把这两张表串出来,第一张叫做部门表,我先给他这个串联一下啊,注意啊,咱们的这个咱们为了这个数据安全,咱们的员工表和部门表咱们使用的都是外部表,是这样的啊,那咱们接下来先把这个部门表咱们给他创建一下啊,这个部门表比较简单,一共就三个字段,分别是什么呀,分别是咱们的这个部门编号,部门名称和这个位置信息,Location啊然后呢,咱们接下来再把咱们的这个员工表咱们给他传出来啊,这个员工表也是大家相当熟悉的一张表啊,有这个员工编号,员工姓名是吧,员工的一个岗位,员工的一个领导,MGRR是这个上领导,然后员工的一个生日,员工的一个工资,员工的一个奖金,最后啊,有一个员工的这个部门编号。
02:38
啊,也就是说啊,咱们这个员工表可以通过这个部门编号跟咱们这个部门表的部门表的部门编号进行关联啊,那咱们接下来啊,咱们利用KD他们做的一个统计需求就什么呀,就是咱们这个按照咱们的一个工作地点,或者是按照咱们的呃,部门信息来统计,按照咱们那个部门名称啊,来计咱们的员工信息啊,这个工作地点你可以要可以不要啊,我们可以改成这个部门名称,好吧,我们基本基本上喜欢更喜欢按照这个部门名称。
03:07
来统计咱们这个员工的一个什么信息啊,员工的一个工资好吧,啊,基本上是这么一个需求啊,完了就简单改一下好吧,啊,那我们明白,我们明白了这个需求以后呢,那接下来我们这个两张表有了,我需要把咱们这个数据啊同步到两个表里边,那这个时候大家可以看一下啊,咱们在这售tables,嗯,TB Les,大家可以看到咱们这个部门表和这个员工表已经有了,那咱们接下来就可以干嘛呀,就可以向咱的向咱们这两个表里边啊同步一下数据,上传一下数据啊。那咱们这个数据上传可以简单的上传,也可以复杂一点上传啊,怎么简单的话,这么复杂的话,就是先把咱们的数据传到咱们的这个Linux里边是吧,然后呢,再有这个load data怎么上传,其实没必要啊,因为咱们两张表它没有分区,比较简单,我可以直接打开我的HD4来看一下啊,在我这个哈杜普102啊9870。
04:00
我的这个HDFS里边呢,我就可以手动把咱们这个数据上传一下,好吧,毕竟是have have的数据存在咱们的HDFS上,那我找到我的这个user user里边有个have have里边有个warehouse warehouse里边有一个killing test DB在这个DB里边是吧,就有一个员工表,有一个部门表,那接下来我就打开我的员工表啊,我把我在我这个员工表里边,我上传一下我那个emp条TST啊。选择文件啊,找到咱们的那个E盘,E盘里边有个录课,录课里边个KK里边有个资料,资料里边有个ep.txt,那这样一来咱们这个员工表数据那不就有了吗?是吧?员工表搞定之后呢,咱们接下来再来搞定一下咱们的部分表,打开dept啊,点上传。要选择文件,然后呢,找到咱们这个dept.TSD点这个打开upload,那这样来啊,咱们的员工表和这个部分表,我的数据应该是都有了,那大家有没有呢?我们一起来检查一下好吧,Select星from咱们的EP啊正号。
05:02
你发现啊,在这个时候,在咱们这个have里边,我就能查看我员工表的数据了,那我的部分表呢,我的部分表应该也有了啊,就是dept,然后分号啊,咱们这个部分表也是有了,没有任何问题。那咱们这两个表有了以后呢,那我就可以是吧,进行就用我这个K来对接我这个have,然后获取我这个have的数据源了啊,那咱们接下来就打开咱们的K,在这个K里边啊,进进K的第一步,如果你要你你想做数据分析了,先干嘛呀,咱们先来创建一个工程,就project,因为你进来之后啊,它提示你选择一个工程,而咱们当前没有工程,那所以说我我得我先干嘛呀,先点那个加号啊,我们创建一个工程可以吧,点完加号之后呢,我们给这个工程起个名字,你就比如说我就叫first project,第一个工程fire是吧,大写的product product,咱们有这么一个第一个工程first project,那咱们这个描述啊是可以不写的,哎呀,没了啊,Fire是吧,大写的P。
06:05
好吧,描述不写,那这个参数我也不写,直接点submit,那这样一来咱们的这个force product这么一个工程就有了,这个工程有了以后呢,那咱们就可以在这个工程里边是吧?对接咱们数据源,那这个数据源怎么对接啊,大家打开这个data source啊,在咱们的这个data source里边啊,有这么一个选择,Table这么一个选项啊,其中还有一个什么呀,读取CSV的选项,注意啊,咱们这个K04.0,它是支持两种数据源的,第一种你支持读取这个哈表,第二种你支持读取这个CSV,就咱们那个逗号风格的文件啊,如果你要你要对接CV了,你给我点这个,如果你要对接have了,你点前面两个,那前面这两个有什么区别啊,注意啊,第一个。咱们是手写的形式啊,如果你选第一个啊,那我们需要把咱们两个表明,就比如说咱们那个ET啊,咱们那个DPT啊,你给我手写过来啊,咱们点那个同步按钮它能通过啊,但是啊,咱们不喜欢用第一个啊,我更喜欢用第二个,第二个啥意思啊,第二个是你点这个第二个啊,Load table from true是吧,它会读取咱们have里边所有表,让你选择你要同步的表,所以说啊,我们一般更喜欢用第二个。
07:17
哎,那接下来我就点一下第二个这个按钮。啊,由于啊,咱们这个K04.0,它使用的是那个Spark这么一个引擎来读取咱们have的数据是吧,作为这个查询引擎,那你会发现啊,当你点完这个以后,它这个地方稍微有点慢,它一直在loading啊,它会它会稍微等待一会儿才给你搂把这个数据加载过来,这是为什么呀,你给他讲一下,那这个时候啊,你可以打开你的那个。雅安看一下,大家打开自己的1038088啊,注意啊,是1103啊,我们来到咱们的103上面有一个8088,有这么一个雅安的这么一个外部UI,在咱们这个雅上面,你发现啊,咱们刚才已经有这么一个正在运行的任务,而这个任务的名字叫什么呀?叫做spider啊这个啊,就是咱们刚才说的那个是吧?啊,我这个K。
08:05
如果想要查询have的数据了啊,我我我将来我这个Spark引擎它需要在雅安上边啊运行一个一直运行的这么一个任务叫做spider,而由由于我我们刚开始咱们这个任务它并没有启动,所以说啊,当你在K里边点击这个读取have的表的时候,你第一次注意啊,你第一次你这么一点,它会先在你的雅上启动一个败的任务,这么一个后台会话任务,由于起这个任务啊需要一一定的时间,所以说啊,咱们第一次同步显得稍微慢一点,大家耐心等待一下就好了,一旦你后台的这个spider是吧,这个任务它跑起来了,就它是运行中了,那这个时候我们再来进行这个kidding的同步,它的速度比较快了,我一点这个load table from to,它立马就读出来了,我have的所有数据是吧,咱们选择咱们这个kiding test这么一个库,把这个库里边的两张表你都选中,然后呢,点击这个SY。
09:05
那这样一来啊,咱们在这个K里边就能够对接咱们have的两张表了,好吧,一张叫员工表,另外一张叫部门表,OK啊。那咱们的这个对接焊务数据源啊,就给大家讲到这里啊。
我来说两句