00:00
好了同学们,那我们这个数据源对接好以后呢,那接下来就是在K里边的下一步什么呀,叫创建model。这个module啊,在K里边也叫模型,那我们来思考一下啊,为什么我们的第一步需要创建这么一个模型呢?大家想啊,咱们现在导进来一个员工表,一个部门表是吧?我说过在这个K里边它就只支持新型模型。就是那就比如说啊,咱们这个K里边,他认为有的表实时表,有的表是这个维度表,那现在咱们自己知道是吧,我把这个员工表我当做实时表,我把这个部门表当做这个维度表,那我这个K怎么知道你这两个表的关系呢?并且咱们这两个表将来是不是要转起来啊,那我用什么字段join,像这些东西我的K目前他是不知道的。那因此你需要怎么着啊,你需要把咱们这两张表的一个模型给它创建出来,所以这一步咱们这个学名叫什么呀?叫创建modu啊,创建modu特别重要,那怎么创建这个modu啊,大家这一块是吧,你可以看照你按按照我这个文档是吧,一步一步的截图去做,这个截图截的是比较详细的,那我这一块我就不一步看这截图了,你也可以看我这个操作,好吧,我给大家点一下啊,怎么点啊,首先第一步你得点开这个module里边这个modus。
01:23
在这个modules里边,你会发现咱们现在是吧,它没有任何module,也没有任何的cub,那因此我得先创建一个dule,然后怎么创建啊,你点这个new,下边这个箭头点这个new,然后这里边儿就有一个new module。啊,这个东西就是创建模型,那咱们就可以点这个new model,你这么一点,它会弹出这么一个框框,让你选择你这个模型的一些信息。啊,首先第一步先填一个modu名称啊,Modu名称。他说了你可以输入字母,输输入字或者下划线,那咱们就给它起个名字呗,就比如说我这我我我我的这个Mo叫什么呀?就叫my modu可以吧,My Mo my modu。
02:09
啊,就是我的模型。啊,或者我叫什么呀,我叫个呃EMC Mo也行是吧,咱们就叫个EMC modu吧。啊,EP摸是不是也可以啊,就是员工模型。啊,那然后这个描述你可以不写,也可以不写。然后呢,咱们就可以这个model是不是拼错了,看一下啊,创建model啊model Mo是吧,不是这个是Mo de模型的意思啊emp model。啊,Mo dl是吧,然后呢,咱们点下一步,那这个时候你看第二步你干嘛,第二步就让你选择这个事实表叫fact table,因为我说过嘛,在K里边它只认维度模型。指认维度模型,而大家都知道是吧?听过数仓的课程,应该应该你应该知道什么叫维度模型吧?维度模型就是有事实表,有维度表的一个模型。
03:05
因此咱们第一步先选一个实时表,那咱们的实时表是不是就是哪个表啊,是不是就是我king test里边这个员工表啊,以咱们把这个EMMP啊当做事实表,然后呢。然后咱大家知道为啥把这个EP当成实时表了呢?大家讲细一点好吧,咱们这个有两张表,一个是实时表,一个是员工表,一个是部门表,大家看一下啊,咱们将来要统计什么呀,是不是你想统计你每个部门下的所有的工资啊。而工资这一列咱们称之为度量值,工资这一列在员工表里边,所以说咱们需要把这个员工表当做咱们的事实表,因为只有事实表它才会有度量值这么一个字段,这个我希望大家认真思考一下,好吧,那因此啊,咱们就把咱们的这个。
04:01
员工表,哎,当做table叫实实表,然后呢,下边有一个什么地方,有一个什么ADD lookup table。添加什么表啊?Lookup table,我称之为维度表,Lookup就是观察,观察表,那什么叫观察表?观察表不就是维度表吗?大家要理解一下好吧,所以说咱们这个地方你得点点这个,你把这个事实表选中之后呢,还要在这添加维度表,怎么添加啊,你点这个地方。然后咱们这一块是吧,咱们就有一个emp,这叫实时表,然后呢,用咱们这个实时表是吧,它有一个折条件,要么left,要么in,咱们可以选这个in the,因为我是内连接吗?是吧?就是首先第一个第一个问题,咱们有一个员工,有一个部门,而我这个部门表是不是它的这个数据链,数据范围一定是包含咱们这个员工表的部门的呀,所以说我用我我用这个,我用这个left room跟用这个in the room是不是没有区别啊,所以说咱们在这儿选这个in the room就可以了。
05:01
那然后呢,我用我这个员工表,Inner上谁啊inner join上我这个dept就是inner join上我这个部分表,注意你join完以后呢,你还要给它加上一个什么呀。你还要给它加上一个连接条件,叫new June condition叫连接条件,那怎么加啊,咱们给他点点击这个。注意咱们这个联接条件大家都知道吧,我是不是要选一下我这个员工表的DE1PD啊叫部门编号,它等于谁呀,等于咱们这个部门表的部门编号,那这样一来这两个表就可以折起来了,只要这两个表转起来之后呢,你点上一个OK,那这样一来咱们这最基础的一个模型就建好了,就咱们是以员工表为事实表,然后呢,部门表为这个。维度表这么一个星型模型是吧,这么一个小小的一个星型模型就有有了它有了之后呢,那咱们就可以点击下一步了。注意啊,在下一步这一块,就第三步叫dimensions。
06:02
这一步是选择维度自判的。就是你你认为你这个模型里边,你的这个员工表跟部门表,你的这个模型里边哪些字段是维度字段。咱们这个维度字段可以在维度表里边选,我也可以在事实表里边选,就是你可以把这些维度字段先挑出来。先挑出来这个能理解吧,那我们就可以挑一下了,那怎么挑啊,首先我的这个员工表是吧,我可以挑一下,你看有很多啊,我的这个什么,我的这个员工的照顾是不是算一个。是吧,员工的照顾算一个,然后呢,员工的内幕你可以,你如果认为他算一个,你也可以算一个,好吧,员工的这个什么,呃,领导。哎,员工的这个什么呀,员工的这个第1PT,咱们这个东西是不是称之为部门编号啊,部分编号也算一个,就我我认为我这些字段它都是那个维度字段,就将来我有可能基于这些字段,我在格外的字段。
07:02
啊,它就是维度组算好吧,那再往下这个DPT呢,这个DPT你可以选一下这个什么呀,这个D内容你也可以选,你也可以选择这个这个LC,这个LC是不是是不是这个部门的这么一个地理信位置信息啊,就是位置啊,就比如说是它是哪个省的哪个市的,那我那我认为我我这个部门表的这三个字段都是纬度字段,可以选,咱们在这个位置是可以选的,好吧,我把我把它先选出来,就认为这些字段它是维度字段,然后呢,下一步就是挑完维度以后,你挑的就是事实的,就是measures度量值,咱们一般把这个度量值就称之为这个事实。度量值知道吧,度量值四的。那我们这个大家想啊,咱们这个。咱们这个员工表,哎,跟这个。部门表它作为这个新型模型,那我这个员工表作为实时表,我事实表上是不是除了有这个度量,有这个维度外建以外,我还有度量值字段啊,那这个度量值字段你可以选选,那就比如说我选项什么呀,首先我有一个。
08:05
这个salary工资我认为我是多张值,我是不是还有一个cum是什么呀,是奖金吧,我认为我这个奖金也可以作为一个多张值,这怎么在这儿可以选出来,这是没有问题的,能理解吧,选出来之后呢,那我就可以点击这个下一步了,Next。最后一步叫设置设置什么的呀,他要设置一些分区信息和一些过滤信息。注意它这块这个分区,它指的是哪个表的分区啊,它指的是它指的是事实表的分区,那大家都知道是吧,咱们这一块咱们给大家做这个简单演示,咱们这个员工表是不是并没有创建事实表啊。并没有创建分区表来看一下啊,咱们这个有有一个表叫EP,只不过咱们这个EP是不是没有分区啊,那没有分区。你在这个地方你就不要选了,如果说你的实时表是一个分区表,那你要在这选一下,就比如说你选一下这个EP,然后呢,选一下你这个分区字段,那咱们现在没有分区字段,我也就我我也就不用选了啊,所以说这块呢,知道就好了,那这个where呢,这个filter where就是一个过滤条件。
09:13
如果你认为啊,你的这个员工表这些数据,有哪些数据是脏数据,你不想要啊,就比如说你将来要统计这个奖金了,这些奖金等于零的数据你不要,你可以给他这个过滤掉,那咱们这一块也不要过滤是吧,那我我就不过滤了,就这一块能过滤,你也可以不过滤,如果你不过滤的话,那咱们这一块就可以不不设置了,那我这一块不设置是吧,我可以直接点击这个保存了,我点击这个save。啊,然后他问你,你确定要保存这个modu吗?这个模型吗?我点个yes,那这样一来,咱们这个员工模型那不就创建好了吗?你也可以点开再看看,你也可以再改一改,好吧,它有这个什么?呃,Visualization是一个图,它会告诉你咱们是一个emp,作为一个实时表,然后关联上这个DP,就它俩作为了一个简单的星型模型。
10:05
这个能理解吧,在这一块你可以看一下这个东西的一些具体信息,具体信息想修改的话也可以再修改点这个action有一个edit,你可以给他再次修改一下,好吧,那咱们这我也不修改,我也不保存,所以说咱们这第一步就在使用K的第一步叫创建模型。就给大家讲到这儿,这个摸特别重要,大家一定要把这个模型给我听明白了啊。
我来说两句