00:00
OK,那现在呢,我们看看这个咱们的麒麟应该是如何使用,打开外部页面登录进来之后呢,呃,进进呢和工作界面了啊呃,工作界面看起来是比较美观的是吧,大家看这个位置啊。这块呢,他让我们去选择一个project。这个呢,就是我们需要呃,使用麒麟的时候呢。需要先创建一个这样的一个工程,那这个怎么创建呢?点那个位置啊。这一个ID就是添加,那那就点。那点一下起个名字吧,比如说咱们叫做机贸g ma g ma在这个起名上面是名字下面描述信息,那接下来呢,完了之后,后边点一下这个submit提交,嗯。这时候点击success,点击OK,那这时候咱这个机帽就相当于是这个已经创建完成了,那创建完成之后呢,你看这个位置啊,就这已经自动的,呃,是不是已经选中了这个这个集贸了呀,那这个如果说你要是这种状态,那相当于你这个东西还是没法用,你必须得选中某一个这个product才行啊电击帽。
01:01
好,那选完之后呢,接下来咱们需要干什么呢?接下来咱们使其实使用麒麟,咱们应该分为这样的两部分,哪两部分呢?第一部分。配置它这个计算规则。什么叫配置计算规则呢?首先一你得告诉他你的数据源是什么,是不是得对接上,还有的数据源呢,那对接完之后下边干什么,你得告诉他哪个字段是维度,哪个字段是度量,这是我们需要去自己定义的,OK,这是我们定义,定义完之后,那麒麟就会干什么,就会自动的进行构建,也是自动进行计算,这是我们使用的第一部分,那第二部分是什么呢?第二部分呢,就是去查询了,写SQL查询,诶那思维这的两部分啊,那现在我们要做的是什么?就是去定义这个计算规则,也就是说去构建Q,或者叫做定义Q吧,定义Q吧,这是我们要做的事,那所以我们现在要想去进行计算,第一步咱要干什么呢?要要把这个数据先拿到对不对,也就先去配置数据源,数据源怎么去配呢?在这个位置data source。点击。然后这儿呢,呃,有这样的几个按钮来逐一的看一下啊,先看第一个load table,第二一个呢,Load table from tree,第三一个呢,是的stream table,那这里边呢,我们就是说可以呃使用前两个按钮去对接have里边的表,第三个按钮呢,是用来对接咱们的这个呃,实时的这个数据的,比如说对对接这个卡夫卡stream流失数据对接卡夫卡的啊,那这边我们演示的是这个。
02:25
呃,对接have出仓嘛,离线出仓,那所以说咱们点前面low table low table的时候呢,这边就是说你需要自己想导哪个表呢,你需要自己去写,写的时候呢,多张表之间用这个separate with,用这个逗号去进行分格,呃,然后这个写的格式呢,就是库名加表名,这个直接写have里边呢就可以了啊是能够对接上的,当然咱们这呢,不这么去写太麻烦了,我们点什么呀?诶咱们这个呃,应该点一下这个conso取消啊点取消,咱们这应该点谁呢?应该点它才对啊,点这个。Load table from tree,那这时候呢,你看是不是已经把咱们have数仓当中,我们这个数据库已经给咱展示出来了,那然后点这个积贸好,那数仓里边所有的表呢,在这就全部列出来了,点这个收或者收off,然后收off吧,咱们把所有本全部展示出来。
03:13
这是我们收藏里边所有的表。是这样的啊呃,然后这边大家想一想,它为什么能拿到这些东西啊,为什么呀,因为我是不是在配在那个机器上边配了还有变量了,Have有的环境变量了呀,所以它是能够访问到的,能够访问到啊好了,那现在呢,我们去接下来去干什么呀,接下来咱们去那个。看一看我们这边应该去统计什么样的表,那前面咱们讲过啊,我们麒麟它对接的是什么?对接的是咱们数仓当中的这个维度模型,那为什么他要对接维度模型呢?其实这个很好理解,因为维度模型当中我们存储的是什么?存储的是最明细的数据,因为我们的事实表都是最细力度。对最明细的数据,那你有了最明细的数据,那你后续是不是做任何这个力度的聚合我都能做呀,任何力度的聚合都能做,诶所以说咱们这样呢,对接最原始的数据,然后后续呢,做各种分析,好那现在咱们看看我们这边对接个什么数据啊,那也就是咱们对接的时候,对接星星模型或者水花模型,我们得有实时表,得有维度表,对吧?那看看咱们实时表有什么act。
04:17
那我们选一个实时表吧,咱们选一个谁呀?诶可以选一个支付吧,或者是咱们选一个,诶就选支付吧,咱们选一个支付实时表,Dwd fact payment in,咱们选它,那OK,选完之后点击这个snchronize,这时候它就会同步一张表,当然我们这儿呢,可以一起同多张表啊,你看啊,我点完之后这个可能不太明显啊,点完之后是不是变变成粗体了呀,变粗了,那就是选中了,点完之后我还有什么,我还有维度表呢,维度表咱是D啊,这是可以搜索的啊,这是搜索搜地M,那team里边咱们跟支付相关的是那个维度边有什么呀?跟支付相关的,诶有谁有用户。对不对,还有什么,还有这个,比如说还有时间,还有什么可能还有这个,呃,这个地区对不对,那这些都是我的这个,呃,维度表,那OK,我在这呢,我可以把它选上,那比如说我现在呢,选一个这个这个用户,先选一个用户啊,那用户我们是一个什么,是一个拉链表对不对?拉链表那咱们就选这个user in for history选它,那还有谁还有这个,比如还有日期,那把日期也选上,还有谁还有一个那个地区表,那把它也选上,那这样一来我们是不是就已经选上了几张表了,一共选上了呃四张表了,一张事实,三张维度,那选完这个模型之后呢,点击一下这个S同步点。
05:32
那这时候大家看这个位置是不是就出现了一个这个机帽啊,对吧,点完这里边呢,就有我们刚才选的那四张表了,大家这时候要注意啊,其实咱这儿现在倒过来的是什么,倒过来是真正的数据跑什么麒麟里边来了没有,我们只是拿到了这个害武的原数据,咱们只是拿到它的原数据啊,只是原数据,这原数据啊好,那拿到原数据之后呢,那接下来呃,我们就可以去这个去定义咱们的这个呃,这个模这个这个模型或者那个Q吧了啊那接下来咱们往下进行,往下进行。
06:05
那接下来咱们应该怎么做呢?接下来我们要做的一件事啊,是去咱们现在只是把表拿回来了,对不对,但是麒麟现在并不知道哪张表是事实表,他也不知道哪张是维度对不对,那他也不知道谁是那个维度字段,也不知道谁是这个,诶度量字段对吧,他不知道,那所以说我们现在要做的事就是需要把这个东西给他定义一下,好,那现在我们去声明一下,咱们这个这个实时表是谁,纬度表是谁。然后呢,还得指明咱们事实表跟维度表之间是通过哪个字段进行关联的,这个都得告诉麒麟才行,对吧,那现在咱们点一下这个大写的new。大绿色的new啊,New完之后呢,这里边你看有一个new model,这个model是不是就模型的意思,模型这指代的就是咱们什么星星模型,雪花模型这个东西,然后这边你看啊,是不是有个五角星,那意思就是这个星星模型嘛,当然雪花模型它也是支持的啊,点new model,然后这里边我们先起一个名字。
07:00
随便写就行啊,在这边比如说我叫payment star,就是这个星星模型嘛,下边有个描述信息,你这个随便写一下就行了,Pay详线T。好,写上这个描述信息之后呢,接下来呢,我们呃,这个位置呢,有一个有一个N啊,点一下next点。连完之后呢,那接下来呢,我们就来到了这个,呃,这一步,那这一步你看他让我们干什么,是不是,首先第一行让我们去选这个fact table啊,Fact是不是就是事实表的意思,对不对?那现在咱们点事实点谁是事实表,找找找这是实表,那选上它就行了,那下边呢,有一个lookup table lookup table是什么呢?是这个,呃,Lookup是查找的意思,对吧?那在这儿就是查找表,实际上是谁啊,实际上是维度表。因为我们维度表的作用是什么,维度表作用是不是用来去描述咱们这个事实的呀,对吧,也就是我这里边有ID,我拿着ID去维度表里边去查找我这个具体的信息,所也管它叫做查找表lookup table啊,那现在我们去把那个维度表都给它定义上来,先点它完之后呢,上面看这啊,首先这里边实际上就是在让我们去干什么,去去去声明一个join关系,对吧,就是哪张表join哪张表对吧?诶是这样的啊,那现在呢,我们去给他,诶选择一下,选择一下啊,那首先呢,我们来选这个事实。
08:18
点这个位置。这里边先看第一个吧,这呢有一个这个DWD,这个payment,你看啊,第一张表是不是只能选实,现在我因为只有实时表点它。完事这个join的时候呢,我们的join的方式呢,有in the,有left join,有inner join,有left join,那这边呢,我们最好是去使用这个left join啊呃,那使用left join我们有什么好处呢?就是说我们的好处就是说我,诶无论这个维度有没有我最起码我能把这个事实都给你返回出来。对不对,要不然的话,如果说你某一个维度没有,那你那行事实也给你丢了,这实际上是不太合理的,对不对,所以说我们通常使用left join啊,Left事实表,让他去left draw,咱们的这个维度表,维度表那OK,那这个咱们就给它呃照上了,那照上完之后呢,接下来咱们往下选啊,下边有一个这个这个呃,Lookup table对不对,Lookup table,那我们开始往下选,那这时候呢,咱们把这三张维度表呢,都需要给它选上啊,那先选第一个。
09:17
那学完之后这时候呢,呃还没完,你得告诉他呀,诶你这个表跟这个表你的join的连接条件是谁,怎么怎么加呢,下边有一个诶new这个join condition加连接条件连,然后呢,我们去把这个连接条件给他指明一下,那应该是什么呀,应该是事实表当中的,这咱们是哪张表,是用户维度表吧,那应该是右的ID,等于这个ID,那是就照上了呀,照上之后呢,点一下这个右下角的OK。点这儿啊。OK,好,那已经加上一张表了,那接下来呢,我们去呃,选下边的那个其他表啊,然后点lookup table,那我就快速的选了啊,然后这时候你看啊,这个from table,这时候你能选两个表了。能选两个表了,那能选事实表,那说明我是支持什么,支持星循环性,那我现在能选谁能选维度表。
10:06
能选维度表,说明我现在这个还支持什么模型,是不是也支持雪花模型啊,因为维度表也能在join其他的维度表,这是不是就是雪花模型啊,哎,它是支持的啊,那当然我们这是星星,那还是选实时表,那下边呢还是选left,下边呢还是选选谁呀。选下边咱们来一个这个呃,DWD这个这个base province这个地区表,那接下来呢,选这个连接条件来往下走,有这个往下走啊,找一下pro ID,然后这块呢有一个ID,那他们俩就这个上了,然后点击OK,好,那接下来呢往下走,下边呢再选还是选实时表啊,选它那inner还是选left吧,然后再往下我们该谁了,该这个date in for了,选它那加条件。那这回咱们data in for这个维度表跟我这个实时表照的时候,咱们照的条字段是谁呀,实际上就是咱那个分区字段,就是那个DT分区字段啊,用它去照,那照样这个data ID好,那点击OK,那这时候咱们是不是这个模型相当于就已经定义好了呀,就是咱们已经有实时表,已经有这个维度表了,好而且照样关系呢,咱们已经给他已经已经描述完毕了,描述完毕之后点击next。
11:18
点它。好,完了之后呢,我们看来到了哪一步啊,这一步呢,要求我们去声明哪些字段是维度,哪些字段是这个度量dimensions Mars,那现在我们去选一下这个维度啊,那维度是什么维度,就是说你后续你要观察的这个问题的角度对不对,比如说我就想分析一下这个,比如说支付金额跟什么什么的关系对不对,那这边你要要把这个给它选上,对吧,这是根据咱们的业务来的啊,那我后续呢,我们看看这里边可能有什么维度啊,先看这个第一个实时表当中的维度,那这里边我们看有没有这个可以分析的东西啊,看一看。那比如说我现在呢,想去分析一下,诶这边是不是有一个支付类型payment的type,我想看一看支付类型,诶跟这个支付的这个关系,就看看比如说我什么支付类型,诶我的这个支付的金额是最多的,对不对,可以看看这个东西啊好,那你这儿可以把它选上,那下边呢,在用户表里边,我看看有哪些我可以分析问题的维度,那比如说谁,诶比如说有一个性别,那性别咱是不是可以作为分析问题的维度啊,看看不同的性别我们的支付情况是什么样的,对吧?看看谁更败家一点对不对,到底是败败家这个还是败家那个,对吧,那咱们往点点。
12:26
连上这个针的,然后再往下呢,还有什么?呃,诶用户等级实际上也可以作为一个分析问题的这个角度,对不对?那就是说我看看不同等级的用户,我的这个,诶支付分布是什么样的,诶这也是可以的,那下边其他的东西呢,咱们就不要了,然后往下看,下边还有谁可以作为分析位来的维度呢?诶这个地区,那地区里边呢,我可能按照这个省份去进行这个分析,那pronce name还可可以按,还可以按照什么,按照region name就是地区,我看不同地区诶或者不同省份跟咱们这个支付的这个,诶关系是怎么样的?好,那接下来往下看,下边还有什么,还有这个,呃,Data in for data in for,那也就是这个,呃日期,那日期这边呢,我可能会统计什么呀,诶,我可能会统计,诶这个呃一个季度的对不对,也可能会统计这个一个月份了,对不对,你都可以,那你这边你随便选,比如说我选一个季度,那OK,那这个后期呢,你想去统计,你就呃可以按照这个东西去进行格外进行分组了。
13:23
好,那这个咱就先选这么多吧,选完之后呢,这边呢,我们还是有一个next,点击next点。完了之后呢,我们就来到了这个,呃,下一步就是这个去指定mirror mirror什么,就是那个度量值,度量值是什么啊,那咱们这个你看啊,刚才我们选dimension的时候,你会发现我是不是可以从事实表里选,也能从维度表里选对不对,但是选measure的时候,我们只能从哪儿选啊,只能从事实表里边选。对不对,只有一个实时表,那实时表当中,我们对于支付来说,它的那个度量值,它的事实应该是谁啊,应该是payment amount吧,支付金额,那咱们把这个金额拿回来就行了,嗯,好了,那这个拿完之后呢,我们剪辑N。
14:02
那再往后呢,大家来到了这个位置啊,看这个位置,这个位置让我们去干什么呢?这是这个settings设置,那这个位置让我干什么看一下。让我们去,诶声明这个partan分区分区啊分区,那这边是什么,大家可以想一想,我们这个,呃,麒麟它可以干什么,可以做离线计算,也能做实时计算,对不对,那我们现在用的干什么,我们用现在用的是干这个离线计算。呃,离身计算,那离线计算我们数仓当中是怎么样的,是不是数据我一天一天的过来,然后我一天一天的算啊,就是来一天的数据我算一下,来一天的数据我算一下,那同理麒麟它也是这么去使用的,就是我来一天数据,我算一天的数据来一天算一天,来一天算一天,诶这么个原理啊好,那既然是这样的话呢,我们来看一看,那所以说麒麟它去获取你一天这个数据的时候,它是不是得根据你那个分区字段去获取啊。对不对,他需要知道你的分区字段是谁,那这边呢,所以说诶,这需要我们指明我们是按照什么分区的,那这时候呢,咱们选一下啊,比如说我这呢,有一个select partition table,也就说选你的分区表,那这时候呢,我们实际上只能选择事实表。
15:10
只能选四表啊,那也就是现在选不了维度表对不对,咱选不了维度表啊,那选不了维度表后续可能会出什么问题,这时候大家可以想一想啊,可以先想一想,那我先不提这个事,咱们先学诗边,学完之后呢,那你的分区字段是谁谁like part column,那是不是下边那个DT啊,这是我们的分区字段,那下边呢,有一个这个我们的日期格式。Format日期格式是什么呢?诶是年月日,这是不是就是我们的日期格式啊YYYY杠杠杠MM-GD,这是我们的格式,当然这边它支持的格式比较多的啊,你看还有什么,诶可能有这个这样的,还有小时的分钟的秒的对不对,呃是这样,它能够支持各种各样的格式,那这边咱们就选它就对了,就没错了啊行,那这边咱们就诶完事了,然后下边呢,还有一个filter,然后这filter是这个过滤器,过滤器,然后大家往这里边写的时候呢,就是我们正常的这个VR过滤条件,VR过滤条件啊,然后大家这块要注意,这时候你这个通常我们这个其实也不用写,你要写的话呢,这块写这个它会对谁生效啊,注意只会对我们的事实表生效,对维度表没没用,也就咱们这个界面配置的东西全是对事实表的配置。
16:19
所以要注意啊,那这边咱们不用配,我们就一天数据全部都要拿过来计算,所以不用过滤,那OK,那完了之后呢,我们接下来点击最后边有一个save啊,点击保存。然后点击这个yes,好,那现在这个咱们的model就已经有了,在这个位置啊,这个model,那这个model呢,你可以这个编辑的啊,可以编辑编辑也可以删除,也可以克隆,诶是这样的啊好,Mole咱们就定义完毕了,定义完Mo之后呢,那紧接着我们接下来要去干什么呢?接下来我们要去定义cube了。也就model是在干什么,Model只是在去声明我的实时表跟维度表之间的关系,我并没有去定义我要计算哪些东西对不对,那真正的要计算哪些东西,在什么时候定义呢?再去你,诶你去构建cube的时候去定义的,所以接下来咱们还要去定定一个CU吧,啊好,我。
我来说两句