文章/答案/技术大牛

发布

首页视频098-DIM层-设计要点

098-DIM层-设计要点

2022-12-022022-12-02 16:02:27播放36

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据项目之电商数仓5.0/视频/098-DIM层-设计要点.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
呃，好了，各位同学，那咱接下来呢，就继续往下进行，那下边首先我们要讲的内容就是dim层的设计要点啊，一共三点，咱们一个来先看第一点，第一点是什么呢？是dim层的设计理论依据对吧？那想想dim层的设计理论是不是肯定是维度监管理论呀，对吧？哎，这个就没啥可说的了啊，OK，那这一层呢，我们主要是存放维度模型当中的维度表，OK，那这提到了这个呃，维度建模理论了，对吧？又提到了维度表，那大家现在还能不能回忆起来，就是说我们去设计维度模型当中的维度表的那个具体的过程还能想起来吗？还还能想起来吗？就是我们设计维度表的过程还能想起来吗？稍微的回忆一下啊，来，我们往前找一下之前的那个建模理论，找到建模理论应该是在哪一节，应该是在这一节对吧？4.2维度表设计步骤对吧？咱们第一步是干什么来着？是确定维度或者叫做确定维度表对吧？其实这一步刚刚咱们在做整体规划的时候，不是已经做过了呀，相当于没问题吧，OK，咱们是怎么做的，我们是不是找到这个业务总线矩阵对不对？然后呢，在这里边呢，我们确定下来了，我们一共需要这六张维度表，其余的是不是咱们都做了退化了呀，对不对？那OK，这实际上就是咱们第一步叫做确认维度，这个确认维度怎么确认的？其实很简单，咱其实就是根据什么确定是不是根据与这些业务过程相关的维度去确定的呀，对吧，你看这儿都有对根，那就表明啥，是不是这个维度跟我这些业务过程都是有关的呀，对吧？那在这儿呢，我就应当去创建一张与之相关的维度表了，对不对？OK，咱就是这么创建的，也就是第一步咱相当于就完成了啊，那接下来咱继续。
01:39
往下走，下边一步是什么？是确定主为表和相关为表，对吧？大家还记得这个主为表相关为表的概念吗？首先他们指的是不都是与呃，与谁相关的，与这个维度相关的哪儿的表，是不是业务系统当中的表啊，对不对？那也就是我们再去确定这个所谓的主维表和相关的表的时候，你得怎么确定，是不是得一个维度一个维度的确定了，对吧？比如说我接下来我要设计的是商品维度表，那首先呢，你就得干啥，是不是得现在去找一下业务系统当中与这个商品相关的表都有谁啊，对吧？诶，找到之后呢，这里边是不是力度最小的那个，往往我们称之为是主维表啊，对吧？其余的我们往称为这个相关为表，是这样的，这是我们第二步，好，那只要主维表相关维表确定下来了，那咱是不是就可以去确定这个维度表的表结构了呀，对吧，那表这构首先就是行呗，那行通常跟谁保持一致，跟主为表保持一致对吧？好，那列呢，列是呃，就是来自于咱们这个主为表和相关为表了，对吧？来的方式呢，有两种，一种是什么来着，是直接取。
02:39
还有一种呢，是进一步加工得到对吧？诶就是这样的几个步骤对吧？OK，那大家呢，需要先把这个维度表的设计的过程先给它回忆起来，好，那回忆起来之后一会儿我们就严格的按照这个过程去设计咱们的每一张维度表啊，好，到时候再说，那现在我们先继续往下看啊，走走走来到这个DM层的这个位置好了，那现在第一第一点，那基本上咱们就回忆完了啊，就是我们需要根据那几个步骤去设计我们的每张维度表啊，接着往下走第二层啊，第二步，第二步是干什么？第二步也是在给我们指明dim层的这个表的存储格式啊对吧？呃，第一第一步呢，其实是告诉我们怎样去设计这个表结构，对吧？那第二层呢，主要是给我们声明一下，哎，就是说我们到底应当如何去，呃，或者说我们到底应该怎样去选择这个存储格式，对吧？啊，那我们这采权的存储格式什么呀？是orc劣式存储加上死内皮压缩，你会发现dim层跟ods层，是不是这个存储的格式发生了很大的变化呀，对不对，咱们Di ods层相对于什么呀，就是文本文件。
03:39
再加上一个GZ和压缩，对吧？那在这儿呢，首先我们的文件格式是orc啊，这样的一个列存储，然后压缩呢，也变成snap了啊，为什么会有这样的一个变化啊，啊，其实我这个需要给大家说明一下，就是因为dim层跟ODI层咱们的职责已经不一样了，对吧？啊，ODM层咱们的职责是保存历史数据，所以说我只要把数据压的够小就可以了，对不对？但是dim层呢，它将来会作为什么呀？是不会做为我们做需求对不对，它的这个数据的主要来源呀，对吧？OK，为啥你想啊，就是将来我们做需求，要么就是从DWS层取数，要么就是从DWD加上DM层取数，是不是应该是这样一个逻辑啊，对不对？那OK，那你从里边取数去做需求的时候，我应当尽可能保证，保证什么呀，保证这个查询速度对吧？啊，实际上你查询速度越快，这是我越想看到的这个情况没问题吧，那所以说怎样才能让它更快呢？哎，两种方式，那一个呢，就是列尔存储，再一个呢，就是使用一个快速的压缩格式嘛，对吧，那列存储能够加快咱们这个查询，大家应该都呃都能想明白对吧。
04:39
为啥？因为将来呢，我们去做的这个需求的时候，我通常都是怎么去查询数据的，我们不会一行一行的去查某一行数据，我们一般情况下就是查啥，就是查一个表或者一个分区当中的是不是一个列的所有数据啊对吧？那所以说你采用列的存储，把列啊，就是把同一列相邻的这个，这个把同一列的数据我放在呃这个相邻的位置，那我查的时候是不是更快一些啊对吧，实际上所以说呃，在这儿我们采用列势存储是很有用的，那再有一个呢，就是死的压缩，那它是不是它的特点就是快速的解压和和压缩呀，对吧？那所以它速度也比较快，那所以说那它俩配合诶，我们就能够，呃，就是实现更好的这个查询速度，诶，这一点要体会一下啊，OC跟snapy就是一个比较经典的搭配，就是外边企业当中呢，也大多数都采用的是orc加snap的一个压缩格式啊好，那这个理解一下，那接下来咱继续往下进行，下边我们看一下第三点要求是什么，第三点呢，其实也是为我们指明了一下这个表明的命名规范，对吧？那我们现在来看一下它这个具体的规范是什么啊，也是一共有三部分组成，第一部分DM。
05:39
是不是就是层名对吧？第二部分呢，是表名啊这样的，也就是说假如说你是商品维度，是不是得把这个商品给体现出来才行，对吧，你要是用户维度，得把用户体现出来才行啊好，接下来继续往下走，那下边呢，诶，是不是也是一个全量或者是拉链表的标识啊，对吧？大家稍微回忆一下，就是我们的维度表是不是我们大致可以分成两类啊对吧？一类我们称之为每日全量快照表对不对？那还有一类呢，是干什么来着，叫做拉链表对不对？那这两种类型的表他们为什么这么设计，主要是为了干啥来着，是不是为了保存维度的历史状态啊对吧，这个要回忆起来啊，OK，那所以说我们的表可以分为这样的两类，那所以我们在这儿呢，需要给咱们去加上一个区分，对吧，如果你是每日权利快照表，我加一个负啊，如果是拉链表，我加一个Z，就是在这儿，我们为什么要去加这个，加这样一个标识啊，这个标识你别看它简单，但很有用。
06:32
有用在哪呢？大家想想啊，我们之前在讲那个维度加值理论的时候，对吧？哎，我们应该分析过，就是每日全量快照的维度表和拉链表，它的使用方法，使用逻辑是完全不一样的吧，对不对？那你每日全量快照表是通常就是根据分区去过滤数据就行了，对吧？那拉链表咱们得根据什么来着，什么开始日期，结止日期是去过滤对吧？他俩的使用方式是不一样的，所以在这儿呢，如果你不加这个标识，那我用户拿到这个维度表之后，他知道怎么用吗？他不知道怎么用对吧？诶你加了标识之后，诶一看就是个全量表，那我就按照全量表的方式去查对吧？这一款，那我就按照拉链表的方式去查，对不对，这个其实很有用的啊好了，同学，那这就是咱们的dim层每张表的表明的命名规范啊，行了，那同样是啊，就是后边这两点，我们只需要做一个简单的遵守就行了，然后核心呢，仍然是第一点，就是到底如何根据见闻理论这个维度见文理论对吧，来去设计咱们所需要的每张维度表，OK，那咱接下来呢，就重点把这个第一步去给它做一下去。
07:32
落实一下啊，来，视频我录上，咱们继续往下走。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据项目之电商数仓5.0

（97/199）

4分8秒

001_离线数仓_课程简介

480

2分38秒

002_数仓概念-数仓简介

420

11分47秒

003_数仓概念-数据分类

340

22分30秒

004_数仓概念-数仓总体介绍

440

4分48秒

005_数仓概念-项目需求分析

530

16分33秒

006_数仓概念-技术选型

400

10分53秒

007_数仓概念-系统数据流程

380

9分59秒

008_数仓概念-框架版本的选择

370

3分18秒

009_数仓概念-具体版本号选择

360

5分35秒

010_数仓概念-服务器选型

390

9分18秒

011_数仓概念-集群规模

460

2分43秒

012_数仓概念-集群资源规划

380

6分22秒

013_同步行为数据模拟-埋点简介

360

17分25秒

014_用户行为数据模拟-用户行为日志内容

380

9分32秒

015_用户行为数据模拟-埋点日志格式

480

15分56秒

016_用户行为数据模拟-克隆三台服务器

370

4分42秒

018_用户行为数据模拟-集群同步脚本

340

7分49秒

019_用户行为数据模拟-免密登录配置

410

8分54秒

020_用户行为数据模拟-安装JDK

370

4分23秒

021_用户行为数据模拟-Linux环境变量说明

270

15分32秒

022_用户行为数据模拟-模拟数据

360

58分32秒

023_用户行为数据采集-hadoop安装

410

20分6秒

024_用户行为数据采集-Hadoop项目经验

440

11分42秒

025_用户行为数据采集-Zookeeper安装

420

14分12秒

026_用户行为数据采集-Kafka安装

400

5分9秒

027_用户行为数据采集-Flume安装

390

35分53秒

028_用户行为数据采集-Flume的KafkaChannel

470

1时11分

029_用户行为数据采集-采集Flume配置

420

10分7秒

030_业务数据采集-电商业务简介

360

38分11秒

031_业务数据采集-电商业务表结构

370

23分27秒

032_业务数据采集-业务数据模拟

330

2分54秒

033_业务数据采集-业务数据通道

440

21分15秒

034_业务数据采集-Maxwell简介

360

33分26秒

035_业务数据采集-Maxwell配置

340

21分19秒

036_业务数据采集-Maxwell使用

350

3分32秒

037_业务数据采集-采集通道maxwell配置

340

2分14秒

038_实时数仓数据同步-实时数仓同步数据

460

3分22秒

039_离线数仓数据同步-用户行为数据同步通道

450

1时8分

040_离线数仓数据同步-用户行为数据同步flume配置

380

29分56秒

041_离线数仓数据同步-业务数据同步策略

360

17分41秒

042_业务数据采集-DataX简介

400

13分4秒

043_业务数据采集-DataX部署

460

58分10秒

044_业务数据采集-DataX案例

460

13分37秒

045_业务数据采集-DataX的HdfsWriter的Null值存储问题

510

9分32秒

046_业务数据采集-DataX参数调优

430

1时7分

047_业务数据采集-全量同步流程

360

46分48秒

048_业务数同步-增量同步流程

330

9分45秒

049_业务数据同步-集群总启停脚本

370

9分0秒

050_业务数据同步-Hive安装部署

360

11分58秒

051-数据仓库-概述

410

37分15秒

052-数据仓库-核心架构

410

19分50秒

053-建模方法论

410

26分52秒

054-建模方法论-ER模型-数据库规范化

440

8分33秒

055-建模方法论-ER模型-函数依赖

450

27分5秒

056-建模方法论-ER模型-三范式

410

18分2秒

057-建模方法论-维度模型-概述

420

8分11秒

058-采集集群-要求

320

23分55秒

059-维度模型-事实表-事务事实表-概述

430

12分22秒

060-维度模型-事实表-事务事实表-设计流程

440

10分44秒

061-维度模型-事实表-事务事实表-不足

420

31分3秒

062-维度模型-事实表-周期快照事实表

460

14分25秒

063-维度模型-事实表-累积快照表

460

15分42秒

064-维度模型-维度表-设计步骤

430

9分1秒

065-维度模型-维度表-确定维度属性-要点

440

9分34秒

066-维度模型-维度表-维度设计要点-规范化&反规范化

370

11分50秒

067-维度模型-维度表-维度设计要点-维度变化-全量表

450

20分6秒

068-维度模型-维度表-维度设计要点-维度变化-拉链表-制作和使用

500

9分17秒

069-维度模型-维度表-维度设计要点-多值维度

560

10分6秒

070-维度模型-维度表-维度设计要点-多值属性

520

6分54秒

071-维度模型-对同步策略的影响

450

27分1秒

072-设计-分层规划

510

23分29秒

073-设计-构建流程

390

26分36秒

074-构建流程-数据调研-业务调研

430

5分18秒

075-构建流程-数据调研-需求分析

470

13分27秒

076-构建流程-划分数据域

550

12分31秒

077-构建流程-构建总线矩阵&维度模型设计

750

31分15秒

078-构建流程-明确统计需求-指标体系

540

23分15秒

079-构建流程-明确统计需求-汇总模型设计思路

450

20分17秒

080-运行环境-说明

380

15分56秒

081-运行环境-Hive-on-spark-编译源码

400

45分20秒

082-运行环境-Hive-on-spark-部署

350

15分1秒

083-开发环境-使用说明

400

10分33秒

084-数据准备-日志

290

22分7秒

085-数据准备-业务-全量&增量

390

4分0秒

086-Hive-on-spark环境问题排查思路

460

12分45秒

087-ODS层-设计要点

400

6分47秒

088-ODS层-日志表-设计思路

290

21分16秒

089-ODS层-日志表-json表

430

23分7秒

090-ODS层-日志表-复杂数据类型

390

14分29秒

091-ODS层-日志表-建表语句

370

4分6秒

092-ODS层-日志表-数据装载

400

13分18秒

093-ODS层-日志表-数据装载脚本

370

21分51秒

094-ODS层-业务表-建表语句-全量&增量

400

16分59秒

095-ODS层-数据装载

430

3分13秒

096-DataGrip元数据显示异常问题说明

390

8分51秒

097-DIM层-维度模型规划

400

7分35秒

098-DIM层-设计要点

360

16分6秒

099-DIM层-商品维度表-确定主维表和相关维表

470

43分39秒

100-DIM层-商品维度表

450

100

32分42秒

101-DIM层-优惠券维度表

360

101

13分3秒

102-Hive元数据中文乱码问题说明

450

102

12分7秒

103-DIM层-活动维度

360

103

10分56秒

104-DIM层-地区维度

440

104

28分6秒

105-DIM层-日期维度

480

105

18分59秒

106-DIM层-用户维度-拉链表-建表语句

370

106

23分37秒

107-DIM层-用户维度-拉链表-数据装载-首日

450

107

53分13秒

108-DIM层-用户维度-拉链表-数据装载-每日-思路一

510

108

15分25秒

109-DIM层-用户维度-拉链表-数据装载-每日-思路二

430

109

12分5秒

110-DIM层-数据装载

380

110

8分2秒

111-DWD层-设计要求

420

111

12分51秒

112-DWD层-交易域加购事务事实表-建表语句

430

112

12分1秒

113-DWD层-交易域加购事务事实表-数据流向

470

113

9分10秒

114-DWD层-交易域加购事务事实表-数据装载-首日

400

114

32分20秒

115-DWD层-交易域加购事务事实表-数据装载-每日

380

115

24分31秒

116-DWD层-Hiveserver2-文件描述符问题说明

350

116

15分20秒

117-DWD层-交易域下单事实表

410

117

24分48秒

118-DWD层-交易域下单事实表-数据装载-首日和每日

470

118

8分40秒

119-DWD层-交易域取消订单事实表-建表语句

380

119

28分17秒

120-DWD层-交易域取消订单事实表-数据装载-首日和每日

370

120

21分26秒

121-DWD层-交易域支付成功事实表-建表语句

370

121

20分17秒

122-DWD层-交易域支付成功事实表-数据装载-首日和每日

430

122

22分31秒

123-DWD层-交易域退单事实表

380

123

24分46秒

124-DWD层-交易域退款成功事实表

350

124

18分13秒

125-DWD层-交易域购物车周期快照表

440

125

28分10秒

126-DWD层-工具域优惠券业务分析

440

126

10分58秒

127-DWD层-互动域收藏商品事务事实表

470

127

18分39秒

128-DWD层-互动域评价事务事实表

330

128

24分23秒

129-DWD层-流量域页面浏览事务事实表-建表语句

370

129

53分12秒

130-DWD层-流量域页面浏览事务事实表-数据装载

440

130

9分3秒

131-DWD层-流量域启动事务事实表

440

131

24分28秒

132-DWD层-流量域动作事务事实表

390

132

8分45秒

133-DWD层-流量域曝光事务事实表

420

133

20分48秒

134-DWD层-流量域错误事务事实表

360

134

34分6秒

135-DWD层-用户域用户注册事实表

400

135

23分27秒

136-DWD层-用户域用户登录事实表

490

136

2分39秒

137-DWD层-维度模型-小总结

410

137

7分59秒

138-DWD层-数据装载

310

138

35分4秒

139-DWS层-设计要点

410

139

19分6秒

140-DWS层-设计-构建指标体系

530

140

5分33秒

141-DWS层-设计-抽取派生指标

430

141

38分25秒

142-DWS层-设计-最近1日n日汇总表

460

142

14分43秒

143-DWS层-设计-人数重复计算问题-最近1日n日汇总表

470

143

29分9秒

144-DWS层-设计方案-设计V2.0

460

144

17分1秒

145-DWS层-设计方案-设计V3.0

390

145

16分42秒

146-DWS层-设计-历史至今-汇总表分析

360

146

31分10秒

147-DWS层-设计-历史至今-数据装载

390

147

7分3秒

148-DWS层-设计-总结

400

148

18分15秒

149-DWS层-交易域用户商品粒度订单最近1日汇总表

370

149

6分27秒

150-DWS层-交易域用户商品粒度订单最近n日汇总表

470

150

7分5秒

151-DWS层-交易域用户商品粒度退单最近1日和n日汇总表

440

151

10分6秒

152-DWS层-交易域用户粒度订单汇总表

460

152

5分26秒

153-DWS层-交易域用户粒度加购汇总表

320

153

3分46秒

154-DWS层-交易域用户粒度支付汇总表

430

154

6分42秒

155-DWS层-交易域省份粒度订单汇总表

390

155

7分11秒

156-DWS层-交易域用户粒度退单汇总表

440

156

11分29秒

157-DWS层-流量域会话粒度页面浏览最近1日汇总表

340

157

6分59秒

158-DWS层-流量域访客页面粒度页面浏览汇总表

380

158

38分29秒

159-DWS层-交易域优惠券粒度订单最近n日汇总表

330

159

9分15秒

160-DWS层-交易域活动粒度订单最近n日汇总表

420

160

6分27秒

161-DWS层-交易域用户粒度订单历史至今汇总表

460

161

2分34秒

162-DWS层-交易域用户粒度支付历史至今汇总表

410

162

17分3秒

163-DWS层-用户域用户粒度登录历史至今汇总表

520

163

15分9秒

164-DWS层-数据装载-最近1日n日历史至今

380

164

1时8分

165-ADS层-各渠道流量统计

360

165

27分8秒

166-ADS层-用户路径

370

166

23分41秒

167-ADS层-用户路径-需求实现

360

167

9分6秒

168-ADS层-用户变动统计-需求说明

350

168

13分33秒

169-ADS层-用户留存率-需求说明

260

169

19分46秒

170-ADS层-用户变动统计-需求实现

350

170

28分41秒

171-ADS层-用户留存率-需求实现-2种思路

310

171

2分41秒

172-ADS层-用户新增活跃统计-需求说明

420

172

13分45秒

173-ADS层-新增活跃用户统计-需求实现

450

173

7分55秒

174-ADS层-漏斗分析-需求说明

370

174

3分15秒

175-ADS层-新增交易用户统计-需求说明

350

175

5分34秒

176-ADS层-品牌复购率-需求说明

270

176

40分39秒

177-ADS层-漏斗分析-需求实现

320

177

8分23秒

178-ADS层-新增交易用户统计-需求实现

350

178

25分58秒

179-ADS层-品牌复购率-需求分析

310

179

2分45秒

180-ADS层-各品牌交易统计-需求说明

390

180

4分15秒

181-ADS层-购物车存量topN-需求说明

380

181

4分4秒

182-ADS层-交易综合统计-需求说明

310

182

25分10秒

183-ADS层-各品牌交易统计-需求实现

330

183

11分58秒

184-ADS层-购物车存量topN-需求实现

340

184

11分46秒

185-ADS层-交易综合统计-需求实现

350

185

7分25秒

186-ADS层-各省份交易综合统计

380

186

3分22秒

187-ADS层-补贴率统计

380

187

3分18秒

188-ADS层-数据装载

370

188

1时8分

189-报表数据导出-DataX

360

189

33分42秒

190-全流程调度-DS-核心架构

320

190

16分1秒

191-全流程调度-DS-部署模式及要求

420

191

16分4秒

192-全流程调度-DS-部署-数据库初始化

400

192

35分25秒

193-全流程调度-DS-部署-一键部署

480

193

27分10秒

194-全流程调度-DS-使用-安全中心

370

194

36分26秒

195-全流程调度-DS-使用-入门

520

195

1时15分

196-全流程调度-DS-使用-进阶

350

196

1时4分

197-全流程调度-集群模式&单机模式

400

197

1时1分

198-可视化-Suserset-安装部署

370

198

30分25秒

199-可视化-Suserset-完整流程

450

199

7分40秒

200-可视化-Suserset-完结

390

098-DIM层-设计要点

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐