文章/答案/技术大牛

发布

首页视频09_入门实战_创建Model

09_入门实战_创建Model

2022-12-022022-12-02 16:02:20播放42

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Kylin4.0 & MDX/视频/09_入门实战_创建Model.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好了，同学们啊，那咱们的这个数据源对接好以后呢，那接下来我就可以干嘛呀，我就可以在K里边啊，创建咱们这个数据模型了啊，大家打开咱们这个models啊，在这个models这一块啊，我们有一个新增，新增这个地方可以干嘛呀，可以这个创建数据模型，包括哎创建咱们这个计算Q。那注意啊，咱们这个Q5是基于咱们的模型的，因此我第一步先干嘛呀，我得先用一个model啊，这个model就是咱们那个数字模型，因为什么意思啊，咱们当前啊，对接了咱们两张表啊，一张叫员工表，一张叫这个部门表，那我这两张表怎么关联啊，他俩什么关系啊？哎，另外啊，咱们的这个kding它做数据分析，它只支持咱们那个维度模型里边这个呃，星型模型，也就是说啊，你必须给我指定一个实时表，指定一个维度表啊，让你的实值表和你的维度表进行关联。那咱们当前怎么办？咱们当前啊，就要把咱们的这个员工表作为一张事表，为什么要把这个员工表作为实施表啊，因为在这个员工表里边有咱们需要的这个事实字段，大家都知道啊，咱们这个事实表里边是不是包含这个度量值字段啊，而咱们的这个工资跟咱们的这个嗯，奖金就是咱们的度量值，因此啊，当前咱们这两张表，我就可以把我的员工表作为一张实时表，把我这个部分表作一张维度表，咱们简单给大家这个作为一个数据分析就可以了，好吧，当然啊，咱们造的这个数据稍微简单了一点，就稍微简单了一点，在公司里边啊，它稍微复杂一点，好吧，那咱们那个简单不可怕啊，咱们给他讲清楚就可以了，那首先啊，第一步我得先创建我这么一个员工模型，就是把员工表作为一张实施表，把部分表作一张维度表，然后呢，然后然后，然后咱们再让咱们的这个实施表跟咱们的维表，维度表怎么做一个关联啊，那这种东西啊，就叫数据模型，所以说第一步你得先把你的这个数据模型你给我创建出来，那你点开这个new啊，你在这个new里边。
01:54
我们可以new一个model啊，New model呢，我可以先给我的这个数据模型起个名字，咱们这个名字就可以叫什么呀，就可以叫一个emp model可以吧，Mo dl啊，咱们就是一个员工模型，那这个描述我可以不写，那接下来直接点下一步next。
02:09
然后呢，在这个data model里边是吧，你可以选一下你的实时表，你看啊，这个fact table就是咱们的时表，那所以说啊，我就把把我的这个EP作为我的这个实时表，然后呢，下边你还需要给我添加这个lookup table，这个lookup table就是维度表啊，它也叫观察表，这咱们以不同的角度来观察分析咱们的这个事实，所以说啊，咱们这个lookup这么这这么这么一种表就叫维度表，咱们接下来添加咱们的维度表，那咱们这个维度表是吧，你得怎么添加，你得给我用这个EP，你给我转上咱们的这个d dept，注意啊，在这个转的时候，咱们还可以选择左外连接，还可以选择这么一个呃内连接，咱们咱们这个时候啊，咱们这个数据比较简单，我用一个内连接就可以了，也也就是说啊，我这个员工表，这是我的部门表，而在我部门表里边是吧，大概有四个部门。
03:00
啊，而在我员工表里边，我员工的这个部门，它肯定是不超过这四个部门的，所以这个时候啊，我用左外连接跟我的内连接，我这个效果应该是一样的，因此啊，咱们就简单选一个in就可以了。你选完咱们这个连接条件以后呢，我们还需要啊，加上这么一个啊，就是你光知道密连接了是吧，那你的连接条件是什么呀？所以咱们在下边啊，咱们得给它加上一个join condition，就是连接条件，那我选择这么一个join condition在这个里边啊，我得我们得用谁啊，我们得用咱们这个EP员工表的DEP，然后join上咱们这个部门表的dpo啊，然后呢，我就可以点个OK了，那这样一来，咱们的一个数据模型是不是就创建好了？那创建好咱们的数据模型以后呢，你点下一步，那咱们接下来第三步要干嘛呀，要选择咱们的这个数据模型里边的dimension字段，咱们这个底是啥意思啊，就是维度的意思啊，就是你先把咱们这个模型里边有哪些字段是咱们的维度信息，你给我挑出来，将来咱们就可以基于这么多个这么个维度咱们去做计算了。
04:05
好吧，那那那我感觉啊，你就这边随便随便选就可以了啊，就是你认为哪些字段是五维度字段你都可以选，就比如说我这个员工表的这个depp，这个员工编一个员工编号一般就不用了啊，因为它是一个唯一的，咱们一般也没必要计算，你比如说我的做误应该算一个吧，是吧，我的这个MGR领导算一个吧，我的这个名字如果你想统计也可以统计是吧，包括咱们的这个DP啊，我的一个部门部部门编号啊，我的一个部门名称是吧，那咱们接下来在部门标里边呢。在咱们这个部门标里边啊，你就可以选择咱们这个部门编号啊，包括部门名称，包括一个location，就咱们这些啊，能统一的字段你都可以选选出来。啊，只有把这个字段啊，我给它定义成咱们的这个五维字段了，将来我在构建那个cub的时候，我才可以从这里边挑选，如果这个时候啊，你定义你都不选，所以你将来在创建cube的时候，你是没有办法挑选这些字段的，你比如说啊，将来我需要按照这个location这边一字段去做那个分析了，而你在这个地方，首先你得先把这个字段，你给我定义成这么一个维度字段，然后呢，我们就可以从咱们定义的这个维度字段集里边选择咱们需要的这么一个字段了，是这样的啊，我们接下来点击下一步啊，在咱们这个measures里边啊，这是啥意思啊，注意啊，这是定义维度段的，那这个呢，就是定义事实字段的。
05:26
啊，定义咱们那个度量值字段的啊，咱们这个度量值就是咱们那个所谓的事实。好吧，啊，那所以说啊，咱们需要先干嘛呀，我看一看啊，我这个事实表里边都有哪些度量知字段，首先啊，我是不是有一个工资啊，还有呢，有个奖金啊，我的工资和奖金是不是都是可以累加的事十多段的，那咱们接下来就可以点击下一步了。啊，等你把这个维度啊，跟咱们这个事实度量值都选完以后呢，最后一步的设置，我们来一起看一下啊，都设置什么东西，首先啊，咱们第一个设置就是分区设置，如果说啊，咱们这个事实表是一张分区表，那你一定要把咱们这个事实表的分区你给我挑出来，那咱们当前咱们这个EP表是不是没有创建这个分值表了，那既然我整个表没有分区，那这个地方我我我就不用选，那如果在公司里边啊。
06:18
大家分析的这个表是一张事实表，那你就可以在这个位置把你这个事实表的这个分区字段你给我挑出来，你看当前注意啊，咱们这个地方选他只能选这个实时表，因为只有实时表，咱们可以选择这个什么呀，分区字段，而咱们那个维度表，它每一次都是一个全量快照，注意啊，咱们这个K点啊，在获取出数据的时候，如果你有实时表，你有维度表，你的实时表啊，可以按照分区去这个增量同步，而咱们的那个维度表呢，它每次都是全。全量快照，他每次啊都是它会最近的维度表做一个全量快照这么一个同步，所以说啊，大家要要要要要要搞清楚咱们这个地方选的这个分区字段是哪张表啊，咱们肯定选实时表，那只不过啊咱们这个实时表当初创的比较简单，咱们是一张员工表，咱们没有给他分区，那我也可以不分区，是这样的啊，那最后一步呢，最后一个设置啊，就是这个filter过滤啊，就是如果说你感觉你的这个实时表里边是吧，有一部分数据是脏数据。
07:22
你可以不统计，你可以用咱们这个filter把那部分造数据你给我过滤出去啊，你只需要过滤咱们所统计的这个字段就可以了，也就是说啊，你在这个地方，如果你写上这么一个where，那咱们将来创建的每一个错误都是从你这个数据集里边创建的啊，咱们当前啊，咱们这个数据没有藏数据好吧，所以说啊，我这个分区不设置我的这个过滤，我也不设置，咱们直接点击save保存。啊，点个yes，那这样一来啊，咱们当前这个员工model数据模型就有了。那咱们这个数据模型有了以后呢，那我就可以基于咱们这个员工模型，咱们创建咱们的Q补了啊，Q补就是咱们的一个计算数据立方体啊，一个cube是吧，包含多个q point，这个我们在那个前置概念里边咱们就讲过了啊，当你把这个模型创建完之后呢，你可以给它改一下，好吧，你看你点这个action有为edit，我们也可以做一个修改，好吧，我们后边啊也也是可以给咱们这个数据模型做修改的，那咱们当前不做修改是吧，那因此我就直接这个返回首页了。
08:23
啊，再到咱们这个model里边是吧，是吧，咱们就有有这么一个员工模型啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Kylin4.0 & MDX

（9/25）

3分53秒

01_Kylin课程介绍

410

17分43秒

02_理论概述_前置概念

410

9分59秒

03_理论概述_架构介绍

320

9分1秒

04_理论概述_特点和4.0的升级

420

14分54秒

05_安装启动_安装和部署

350

13分19秒

06_安装启动_启动环境准备

400

7分46秒

07_安装启动_启动和关闭

420

9分21秒

08_入门实战_准备数据&创建工程&对接数据源

430

8分29秒

09_入门实战_创建Model

420

13分44秒

10_入门实战_创建&构建Cube

370

7分47秒

11_入门实战_Kylin和Hive性能对比

310

7分44秒

12_入门实战_Kylin使用注意事项

400

19分45秒

13_入门实战_实现每日自动构建Cube

380

9分16秒

14_入门实战_Kylin设置查询下压

400

12分38秒

15_查询引擎_Sparder介绍

380

11分11秒

16_构建优化_衍生维度

390

13分13秒

17_构建优化_聚合组

350

21分14秒

18_构建优化_设置合适的Spark参数调优

420

16分51秒

19_构建优化_全局字典和维度快照表调优

440

9分39秒

20_查询优化_RowKey排序和设置Shardby分区列

340

7分27秒

21_查询优化_Parquet文件重分区参数调整

380

9分59秒

22_BI工具_JDBC连接Kylin

340

9分24秒

23_BI工具_Zeppelin连接Kylin

400

14分37秒

24_MDX_安装&启动&登录

410

8分47秒

25_MDX_Excel对接MDX进行数据分析

520

09_入门实战_创建Model

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐