00:00
好了,同学们,那我们接下来给大家讲一下我们这个第三章啊,就是这个快速入门,在这一章里边我会给大家讲一讲如何使用咱们这个kidding做这个计息查询,好吧?啊,那因为咱们这个课程是独立的,咱们现在没有任何数据,那你想做这个kidding的计息查询了,我需要现在have里边创建一些数据。就比如说呃,我是以咱们那个,呃,在做my circlel练习的时候,那两张表,一个叫部门表,一个叫员工表,咱们先把这两张表在这个my circle,把在这个have里边创建出来这两个表,这两个表这个数据在相信大家应该很熟悉了吧,无论是做my circleql练习啊,还是讲这个have啊,咱们都这个用过它是吧?这两个表是咱们一个比较熟悉的两张表了,这张表记住是咱们这个员工信息表啊,这个表是咱们这个员工啊,每个员工他都有一个部门表。那咱们接下来是吧,就可以把这个员工表当做一张实时表啊,把这个部门表当做一张维度表,利用这两张表,咱们给他简单模拟一下咱们这个K的这么一个呃,星型模型来做这个数据分析,好吧,那应该怎么做啊,那咱们先打建到咱们这个have的客户端啊,在这个have的客户端里边,咱们这样咱们建一个库啊,咱们针对咱们这个K做这个练习是吧,我单独创建一个干净的库啊。
01:20
你就比如说这个时候是吧,我create c啊叫database是吧,那么来一个什么呀,那么来一个killing test这么一个库。啊,加个分号,哎,那这个时候呢,我柚子我的这个K。然后test的这么一个库啊分号,那这个时候是吧,在咱们这个库底下,它是干净的,它没有任何数据,没有任何表,那现在我就可以怎么着呢,我就可以在咱们这个库下边创建两张表啊,第一张啊,第一张就是这个。Dept叫部门表,第二张叫emp,他说是吧,员工表,只不过咱们这个库名我得去掉啊,那我既然创建了这么一个kidding test,我就不要把这个表给它创建在咱们这个底before的下了,我就直接创建在这个kidding test这个户下,好吧,哎,那咱们就可以把咱们这个在表语句你这个拿过来执行一下了。
02:15
这个部门表比较简单,它一共三个字段啊。那我们拿过来粘贴走,那这个时候是吧,这个部分表有了,然后呢,咱们再把这个员工表,咱们再给他创建一下啊,复制粘贴,那这个时候你show tables,你会发现咱们这个killing test这个库下就有这么两张表,一个叫部门表,一个叫员工表,只不过这个时候这两个表是不是没有数据啊,就比如说我来看这个员工表是吧,咱们这个员工表是没有任何数据的,它只有空的这么一个列,那怎么办啊,那咱们就可以把我给你提供的这两个数据,咱们给它漏进来啊,那你想漏的怎么漏的呀?首先第一第一第一个第一件事,我们先在这个OBD model下边创建一个目录,叫data塔斯,好吧,啊,咱们再起一个102啊。
03:07
然后呢,咱们CD,咱们这个OT Mo在这个里边啊,咱们make第一个得塔斯,然后CD这个得塔斯,然后这个时候是吧,我就需要把我那两个数据咱们给它拿过来啊,在我给大家发的资料里边有一个资料,然后在这个资料里边就有这么两个TST是吧,你可以选中这两个TST,然后给他拖进来。因为咱们这个数据不是很大是吧,它很快就进来了,只要这个数据在102这台服务器上面有,那我是不是就可以把这两个数据给它插入到对应的表里边了,那怎么写啊,啊,这个时候我就不写了,相信大家应该都会是吧,就是这个load data local impass啊,就是这个啊load data local ias把咱们这个dept t ST给它装载到咱们这个dept这个表里边。啊,这个库名我就不要了,好吧,啊,这个default我也不要了,咱们要装在咱们这个killing test这个库上面,那这个时候是吧,我就把这两个circle我给他拿一下啊。
04:08
点个复制粘贴走,然后呢,这个地方咱们也给他复制,咱们给它插入一下啊,走,那这个时候咱们再来检查咱们这个数据是不是我的员工表,还有我的dept部门表,Dept是不是这两个表都有数据了,只要这个数据有了啊,咱们就可以做这个计息查询了,就针对这两个表,咱们就可以简单的给他查一查了,你就比如说是吧,我让这两个表转一下,然后呢,我按照这个部门名称来做一个谁呀,来做一个这个工资的统计,我想统计一下我这每一个部门。他都发了多少工资,这是可以的是吧,所以说咱们只要有数据,只要有数据我就可以做这个指标的分析啊,前提是你这两个数据能够对应的上才可以好吧,啊那现在是吧,咱们现在就可以怎么说呢,咱们这个数据准备好以后呢,那你就可以打开你这个K。
05:05
在这个K里边注意啊,打开咱这个K里边以后呢,你知道怎么玩啊,这这个界面是咱们K的一个界面,那我接下来怎么玩啊,我注意啊,现在这个时候我是没法玩的,你打开这个摸,我是没法做任何操作的,那你第一件事先干嘛呀,你得先创建一个工程。大家看啊,在这个地方,它会提示你先让你new一个project,因此咱们得先针对咱们这个K,咱们给他创建一个工程,你就比如说我这个缺点叫什么呀,叫first first是第一个project呗,Profit是吧,First project。然后这个描述可以不写啊,然后这个这个描述我们写吧,就写个一好吧,然后咱们咱们这些东西就可以不写,然后直接点点sum,那这样一来啊,那这样一来我的这个工程创建好了,只要你这个工程创建好了,你在这个地方你就可以选择一下这个这个工程,你一旦在这个地方选择好了工程,那我就可以在这个工程底下做很多操作了,注意啊,大家在这个玩killing的第一步,一定得先创建一个工程。
06:10
我们这个king的工程,它就类似于my circle。或者是have的那个库,大家想一下,你玩my circle也好,你玩have也好,是不是都得先进来先建个库啊,那咱们玩kid是一样的,我得先创建一个工程好吧?啊,那这个keing的工程创建好以后呢,就这个项目啊,或或者你你可以叫工程,你可以叫项目,就这个project,一旦这个项目创建好了啊,就咱们这个工程创建好了,那接下来怎么做,那我就可以选择数据源了,就是你可以把咱们那个,把咱们这个have库里边的这两个表,你把这个数据源你给它对接到咱们这个K里边来。那怎么这个对接。大家这个看一下啊,我们就可以来到这个地方,咱们点什么呀?在这个modu底下,咱们点上这个,点上这个new啊,不是啊,点这个data source,注意啊,注意啊,这这是首页,大家点这个module module里边有一个data,这个就是数据源,在这个数据源里边,咱们需要先对接数据源,你得先把咱们have这些表你给他拿过来。
07:22
拿过来以后,我才可以做这个数据的分析,你在拿这个对接数据源的时候,大家在这个位置可以看到四个按键啊,四个按钮。前两个是对接have的。后两个是对接卡夫卡的,大家可以明显看到啊,后两个是流,流就是卡夫卡嘛,那那前面两个呢,就是这个离线,这两个叫实时离线,说白了就是have呗。那就比如说那我的前两个又有什么区别啊,一个叫load table,一个叫load table flow处,如果你点这个load table。
08:01
需要你自己在这个地方输入你的表明,就比如说你的这个什么EP是吧,你的dept。啊,但是前前面还得加上那个户名,就是什么什么库库点EP库点dept,所以这个就太麻烦了,你在这儿也能用,你把这一输,然后点这个同步也能同步过来,但是它太麻烦了,咱们不想用这个,你不想用这个,你就可以用这个第二个。叫load table from。点这个。他会。看到会在那给你列一个树形结构,让你看到咱们have里边的所有的库,那我就可以选择我的这个kidding test。在我这个keing test里边是不是就有这个killing test.dept你们大家看好了啊,我这一点它就会变粗,只要变粗了就说明我选中了,我把我这两个表全部给它选中,然后呢,我就可以点我这个SYNC同步数据了,把咱们两个数据你给它同步过来。
09:02
你这么一来是吧,他就同步成功了。同步成功以后呢,他在这个位置就多了一个killing test,然后在这个killing test里边就多了一个dept,多了一个EP,这两个东西咱们称之为咱们的have数据源啊,你想对这个have的数据做这个数据分析了,你肯定要先把这个数据源你给它对接过来,咱们在这个里边是吧,你可以看到咱们这每一个字段的详细信息。它指向了哪个位置啊,就是它的一些原数据你是可以看到的,好吧?啊,那咱们这个对接数据源,我就先讲到这儿啊。
我来说两句