文章/答案/技术大牛

发布

首页视频081-尚硅谷-数仓建模理论-范式理论之概述

081-尚硅谷-数仓建模理论-范式理论之概述

2022-12-022022-12-02 16:02:23播放37

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商数仓项目（含2.0、3.0版本）/尚硅谷数仓项目实战V3.0/视频/081-尚硅谷-数仓建模理论-范式理论之概述.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
OK啊，那咱接下来呢，要讲的是这个数据仓库当中的这个建模理论啊，建模理论，那其实咱们提到这个建模，提到建模啊，尤其是这个数据库建模，对吧，那我们大家应该诶知道两个两个这样的建模的理论啊，一个叫做维度模型啊，或者叫做维度建模，那一个呢，叫做关系模型，或者叫做关系建模啊，这个两种建模方式呢，在咱们这个数据仓库当中，其实哎，都有用的啊，都有用的啊，而且每一个建模理论，关系建模和维度建模呢，他们各自都有一个这个支持者啊，都有一个支持者啊，或者叫做一个推推荐推崇者啊，那谁推崇这个呃维度呃，这个关系间玩呢，谁推崇啊？呃，一个老外啊叫做啊比尔伊蒙啊比尔伊蒙啊，那这个人呢，他其实呃，就是号称什么这个数数据仓库支付什么的啊，就这种东西啊，然后呢，他所支持这个数据。
01:01
物的建模方式是啊，这个关系建模啊，然后后边呢，哎，还有一个人啊，就是他推崇咱们这个维度建模，那这个人叫什么呢？呃，他那个名字叫什么我忘了，但是他的信儿是k ball啊，K ball啊叫做k ball啊，那这个人呢，推崇的是维度建模啊，那其实这两套建模方式在咱们就是书仓里边呢，都有可能会应用，但是目前啊，在咱们这个大数据的这个背景下啊，我们目前所采用的建模方式更多的应该是哪个呀？是维度建模，更多的是维度建模。啊，是这样的啊呃，然后关系模型咱们现在在哪比较常见的，现在在这个业务系统当中是很常见的啊业务系统。呃，咱比如说我们这个前面是不是给大家讲过一个采集项目，对吧，采集项目里边咱们业务系，业务系统的一个数据是不是就一大堆的数据，一大堆的表啊，对吧，那一大堆表是不是也会组成一个所谓的模型啊，对不对，那个模型就是什么模型，就是典型的关系模型。
02:03
啊，就是关系模型啊，其实大家呃，通过那个业务系统也能发现，这个关系模型是不是非常的复杂呀，对吧，里边表很多啊，表很散对不对，然后表与表之间的关系非常复杂对不对，这就是关系模型给咱们大家的第一个就是第一印象就是这样的啊，其实它确实是这样的啊，然后跟它相对的，我们这个维度模型，那它使用起来就要简单很多了啊，就是它的模型会比较清晰啊，然后表呢，没有那么多，没有那么散，表与表之间的关系呢，也非常简单啊，这是维度模型它它的特点啊的特点啊，那我们大家先把这两个模型的概念咱们先搞清楚啊啊然后咱们接下来呢，要按照这个文档顺序去讲，咱们接下来要讲一下这个范式理论，这个范式理论呢，是为谁打基础呢？是为这个我们去了解这个关系模型打基础的，也是关系模型当中呢，我们会用到范式理论啊好，那接下来咱们开始学习这个所谓的范式理论啊，当然他对咱们。
03:04
们维度建模来说没有那么重要，所以这个我们以理解为主啊，就是了解一下就行啊好，那现在我们看这个所谓的范式理论，那所谓的范式理论呢，我们呃，先来看一下这个范式什么意思啊，范式概念什么意思啊，来看一下这是它的定义，这个定义呢，好像写的就是有点不太通顺啊，咱们读一下啊，凡是可以理解成这个，呃，设计一张数据表的表结构，然后呢？呃，符合的这个呃标准级别规范和要求啊，这句话看似不太通顺是吧？啊，但其实说的没毛病啊，说没毛病其实就是什么意思啊，说白了所谓的范式啊，范式，范式就是一套规范化的模式，规范化的模式啊，那什么时候会用这套规范化的模式呢？就是我们去设计一张表的这个表结构的时候。啊，就是咱们现在我我我我我比如说要开发一个业务系统，对不对啊，我要进行关系建模啊，所以建模就是在去去决定我建哪些表，然后表的字段是什么，就是决定那些事儿，你在决定这些事儿的时候呢，可以使用这个范式啊，去指导你进行界面啊，然后呢，你只要遵循他这一套规范化的这个呃模式，那OK，你建出来的表呢，那就是符合咱们这个标志的啊，符合规范，符合要求的啊，是这样的啊啊这就是所谓的这个范式啊，那这个范式啊，那它能够起到的这个作用是什么呢？咱们刚才只是粗略了一下啊，粗略的说了一下，就是他能够对咱们的这个建表进行规范化，对吧？那规范化之后是什么样的呢？来往下看啊，它具体能够实现什么样的功能？
04:42
哎，其实主要的一个功能就是采用范式啊，咱们的主要目的就是降低数据的冗余性，降低数据的冗余性啊，那首先我们先来明确一下这个冗余性这个概念，大家理解不理解，是不是真正的理解？啊，什么叫冗余啊，什么叫冗余啊，这数据重复就要冗余对不对啊，可可以这么理解，没错啊，确实是这样的啊，那如果说在我们自己设设计好的一个这样的关系模型当中啊，就是同一条数据，同一条数据啊，相同的字段，相同的值啊，如果说我出现在了多个地方。
05:22
那这就叫做数据发生了冗余啊，什么意思？比如说用户的一个信息啊，一条用户的信息啊，那用户信息，假如说我有一张用户表，那用户表里边是不是会存储用户的姓名、性别、年龄、手机号等等等，是不是有这么多信息啊，诶在这儿会有的啊，那在另外一张表呢，比如说我这儿还有一个订单表，在订单表当中，因为咱们是不是得知道是哪个用户下的订单呀，对吧？那这时候比如说我在订单表里边，我也记录了用户的姓名、性别，然后什么年龄，手机号等等等等，诶，那你发现K是不是就是所谓的数据产生的冗余啊。就是所谓的冗余啊，所谓的冗余啊，就是说白了就是，哎，同样的一条这个数据信息在咱们整个模型当中出现了，在多个地方出现了多次，那就是数据产生冗余了啊啊，那这个数据冗余之后，它有什么样的坏处啊啊，那咱们这说了要降低数据的冗余性对不对，它有什么坏处啊。
06:18
啊，冗余了有什么不好的地方，其实最明显的一个地方，嗯，同样一条数据有没必要存多个地方，对吧，这样一来会呃，导致咱们这个占用的存储空间会增多，对吧？那所以说这是它最明显的一个缺点，但其实这个呢，还不是最啊，最致命的啊，那最致命的应该是哪个呀？那就是咱们这个数据的一致性就没有那么好保证了啊，就没有那么好保证了啊，这个怎么去理解啊，你想一想啊，如果说同一个用户的信息在咱们这个整个模型当中出现了多次啊，那你说咱们用户是不是有可能会修改个人信息对不对，那要改的话，那你是不是就得想到咱们都在哪些地方出现了这个用户的信息。
07:02
对不对，那你你都得把这些信息是不是都得去做一个修改啊，对不对，那这我得改，这儿得改，这得改，这儿也得改啊，你都得改啊，那所以说这样一来，你这个数据啊，它就一致性就没有那么好保证了啊，就没有那么好保证了啊，这实际上是咱们这个数据冗余的这个缺点啊，那我先简单问大家一下啊，你说咱们这个一致性，因为他入迷了之后，是不是有这个一致性问题啊，那你说怎么可以怎么解决这个一致性问题。可以怎么解决？怎么解决呀，哎，你可以这样做呀，哎，我我保证啊，所有的用户信息只在用户表当中存储，那其他其他的表呢，怎么做？哎，我来一个user的外键。对不对，然后呢，我去关联，我去引用这一条数据，那是不是用户的信息只在一个地方出现了，你改是不是只要改一个地方，其他地方是不是都会相当于跟着变呀，是这样的，那所以这这就能够解决这个一致性问题吗？对不对啊，那呃，而且你看啊，你如果说引用外键之后，那这个冗余性它还有吗。
08:08
是没有冗余性了呀，咱们只存一份了吗？哎，是这样的啊呃，这当然这这说的是咱们怎么去解决这个冗余性问题啊，那当然咱们经过这个规范化之后，那这个冗余性这个一致性自然就解决了，是这样的啊，那接下来就是咱们要讲的这个规范化了，好，那这边刚才咱们提到了冗余性的这个问题啊，然后下边呢，就是说咱们为什么要去降低冗余性，这个其实跟咱们跟刚才咱们分析的差不多啊，咱们来简单看一下吧，啊首先第一个啊，十几年前啊，咱们这个磁盘很贵，为了减少磁盘存储，呃，这个怎么理解啊？呃，大家要知道这个关系型数据库它是呃在什么什么样的这个情况下诞生的。啊，十几年前，那现在应该是20几年前了啊，啊就是90年代啊，那时候啊，就那个时候，呃，诞生的是这个关系数据库，那时候开始火起来的啊，就是那个时候大家都知道这个磁盘的存储空间，它确实还比较贵啊，它不像现在，你像现在你别说磁盘了，就固态硬盘是不是也没多贵了呀，对不对，但是在那个时候是非常非常贵的啊，你九你你别说90年代，你就是零几年啊，那时候如果说你要去买个呃什么，别说硬盘，就买个U盘啊，挺喜欢那U盘对吧，咱现在你买一个U盘买个什么60多G的，128G的，几十块钱对吧？啊贵点100块钱，但是那时候你就是买一个，呃，别说60多，你买一个4G的可能就得好几百啊，就是那时候还是比较贵的，而且那时候那几百块钱跟现在比它也不一样了，是吧？啊，那个时候确实存储代价比较高，所以你你要是把这个数据的容易性消失了，那我磁盘空间就能少占点，那我就能够节省一定的这个经济成本啊，这是第一点，那这个当然也不是最主要。
09:49
那主要还是什么啊，还是因为咱们这个关型数据库啊，在它诞生的年代，它那个时候还没有现在咱们这个互联网这么发达，咱们现在互联网当中的数据主要来自于谁呀，咱们现在这个年代。
10:03
咱现在互联网上数据啊，其实主要不是由咱们这个，呃，就是这个网站的运营公司提供的，应该是谁，是不是来自咱们的用户啊，对不对，你比如说你看头条，你刷什么抖音，那这些数据都来自于谁，都来自于咱们个人用户，对不对啊，当然你看的是别的用户发的啊，实际上你也可以往上发，对不对，那既然来自于咱们个人用户，所以这个数据呢，就以这种就是爆发式的这种增长啊，这个速度去增长，那所以说这个数据呢，现在是越来越大了，但是当时没有这么大的数据量，所以说没有这么大的数据量，他们根本就不会考虑对这个数据库进行这种什么所谓的分布式的设计，也就当时关系数据库最开始都是单机的，因为他根本就想不到会有这么大的数据量嘛，对吧？啊，那所以说呢，当时啊，全是单机的，那全是单机的话呢，那就会有一个问题啊，就是单机的这种服务，我扩展性肯定会比较弱。对不对，又是单机的，单机的话，那你说你扩展只能怎么做呀。
11:02
只能做所谓的纵向扩展啊，什么叫纵向扩展？呃，其实很好理解，就是你就比如说咱们是，呃，以这个咱们建一栋楼为例吧，啊，假如我现在盖了一栋楼啊，然后里边有十层，现在然后十层很快住满了，我需要扩展啊，那你只能怎么做？所谓纵向只能往上盖接着盖，但你不能一直往上盖，对吧，一个可能达到一定的这个层数之后，它开始晃悠了，你就不敢盖了，是吧？啊，那所以说这就是所谓的纵向扩展，它是有限的啊，那同理，咱们这单机版我我只能怎么做呀，我只能加加什么磁盘啊，加内存，但是你那个是不是CPU对内存对磁盘的支持也是有一定的极限的呀，你不可能一直扩展啊，这是有限的啊，那但是呢，如果说我现在是分布式的啊，是分布式，分布式我就可以怎么做呀，我就可以做所谓的横向扩展啊，所谓横向或者怎么理解呢？还是以盖楼这个事儿为例啊，我不往上涨了怎么做，我再多盖几栋楼，那这个假如咱们地球上空间非常大，对吧，你可以无限的扩展对不对，那所以说呃，这个之前呢，因为是单机版只能纵向扩展，扩展能力有限，所以说能尽量的减少存储空间就减少就可以了啊，这第二点这是，然后第三点呢，就是那个一致性的问题了啊，就是降低冗余性之后呢，那咱们这个一致性问题就比较容易保证啊是。
12:20
是这样的啊，所以说咱们啊，如果哎使用关形数据库啊，去进行这个设计，这个这个关系建模的话呢，那它这个范式呢，我们是一定要遵守的啊，一定要去降低数据容易性的啊啊行，那这是咱们讲一下这个范式的这个呃目的啊，以及就是咱们呃为什么要去降低这个哎容易性啊啊完事之后呢，咱们接着往下走啊呃往下走之后呢，就是咱们对数据模型进行规范化之后呢，咱们这儿诶有一个所谓的缺点，对吧？啊那这个缺点是什么呀。啊，确定一会儿大家能发现啊，就是你随着随着什么，随着我们这个规范化的进行，你会发现你这个数据库里面的表啊。
13:04
它会被拆开，而且会被拆的越来越细啊，拆的细了之后，那表是不是就越来越多了呀，那多了之后呢，那表与表之间的关系它就复杂了，对不对啊，就比较复杂了啊，那完之后，假如说我要想去获取这个表和这个表的数据，那你怎么办？是不是还得通过join呢，对不对，而且有时候呢，你需要join的这个层数呢，还比较多，照的层数还比较多啊，那大家都知道这个进行join的时候呢，其实是比较耗费性能的，对吧？啊，那所以说进行规范化之后呢，虽然能降低咱们的存储空间，但是呢，呃，会呃，就是在对咱们的这个查询性能造成一定的影响啊，这是它所谓的缺点啊，就是这个意思啊，那接下来呢，咱们说一下这个所谓范式的一个分类啊，范式分类，那目前咱们这个业界啊，就是比较知名的几个范式呢，有以下几个啊，来看一下分别是呃哪几个呢？就是第一个，第二个，第三个和第四个就是这个意思啊，那命名都是就是这么命名的，它叫第一范式第。
14:04
范式，第三范式，然后边呢，有一个巴斯科德啊范式，然后呢叫这当然只是一个音译啊，啊，就是有一些这个文献当中，它并不是音译成了巴斯克德，有叫其他的的啊，它只是一个音译而已，然后后边呢，有一个第四范式，有一个第五范式啊，那我们在这个关系建模的时候呢，我们其实一般情况下不会呃让他去遵循所有的范式，一般情况下我们就只遵循前三个范式。所以说我们一说到范式啊，通常就说什么呀，三范式，三分式，三范式其实说的就是第一第二第三范式是这个意思啊呃，然后给大家说一下这个几个范式，我们去遵循的时候，他这个要求是什么样的啊，我们这个几个范式之间也是有这个前后关系的啊，我们必须得在遵循第一范式的基础之上，才有资格有条件去谈第二范式啊，有遵循完第二范式之后呢，才有可能去遵循第三范式啊，是这样的啊，然后呢，你遵循的这个范式级别越高啊，遵循的越高，那咱们那个数据的冗余啊就会越少。
15:09
啊啊，遵循的这个级别越高，那冗余会越少啊，那一般情况下，咱们遵循到第三级别就够了啊，就够了啊这三分事啊，这当然说的是咱们这个，呃，比较就是规范的这个做法啊，当然就是目前啊，就是目前啊，咱们现在啊，就是即便是这种关系型关系模型，就是即便是业务系统当中啊，我们去进行关系建模的时候啊，也不一定啊，咱们都会严格的去遵守这个三盘式。啊，为什么呀。其实现在出于这样的两点考虑，第一点呢，现在咱们已经不是当初那个年代了，对吧，现在首先存储代价已经很低了，那其次呢，我们现在的关系型数据库，你像买circle Oracle，那这些东西都支持什么呢？现在啊，比如说什么分库啊，分表啊，是不是也支持所谓的这种类似于横向扩展这个东西了呀，对不对，也就说我也可以有多个数据库啊呃，有多个这个数据库的服务器嘛啊，我也可以进行这个比较，呃，比较大的扩展了，比较大扩展，那所以说这个首先存储我是能满足了啊，那再一个呢，咱们得考虑一个这样的问题啊，那什么问题啊。
16:17
啊，你如果说遵循的这个范式越严格，OK，确实我那个数据冗余性会越低，但是还会带来一个问题，什么问题啊，我的表是不是会拆的越散，那表拆的越散，你查询的时候，你招的是不是就越多，招的越多，你的查询性能呢，受影响就越大，那所以说咱们现在这个业务系统呢，很多就是为了保证我的查询性能啊，我我会怎么样，我会允许一部分数据冗余的存在啊，比如说我不遵循三分制，我遵循前两个啊是不是，那这样确实会有一部分的数据冗余，但是呢，它换来的就是我这个查询性能的提升啊，是这样的啊，所以这块呢，大家灵活的这个来理解一下就可以啊，这是咱讲的这个范式的概念啊，这概念咱就说完了啊，来把视频录一下。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷数仓项目实战V3.0

（78/291）

7分1秒

001-尚硅谷-数据仓库-课程介绍

390

19分57秒

002-尚硅谷-数据仓库-项目概述

350

15分4秒

003-尚硅谷-项目分析-需求分析

300

17分26秒

004-尚硅谷-项目分析-技术选型

420

11分48秒

005-尚硅谷-项目分析-数据流程设计图

370

13分25秒

006-尚硅谷-项目分析-框架版本选择

380

10分2秒

007-尚硅谷-项目分析-服务器选型

270

11分59秒

008-尚硅谷-项目分析-集群规模规划

370

20分1秒

009-尚硅谷-日志采集-埋点目标数据

560

9分50秒

010-尚硅谷-日志采集-主流埋点方式(了解)

460

12分31秒

011-尚硅谷-日志采集-日志数据结构

400

4分42秒

012-尚硅谷-日志采集-埋点数据上报时机

340

14分25秒

013-尚硅谷-日志采集-服务器准备

420

8分40秒

017-尚硅谷-日志采集-JDK配置及免密配置

370

1分48秒

018-尚硅谷-日志采集-JDK分发

370

7分30秒

019-尚硅谷-日志采集-Linux环境变量说明

420

10分24秒

020-尚硅谷-日志采集-模拟生成日志

380

7分37秒

021-尚硅谷-日志采集-模拟日志脚本

380

5分25秒

022-尚硅谷-日志采集-Hadoop部署之环境变量配置

340

19分0秒

023-尚硅谷-日志采集-Hadoop部署之核心配置

520

12分27秒

024-尚硅谷-日志采集-Hadoop部署之其余配置

370

2分43秒

025-尚硅谷-日志采集-Hadoop部署之历史服务器和日志聚集配置

390

4分23秒

026-尚硅谷-日志采集-Hadoop部署之启动及测试

470

9分17秒

027-尚硅谷-日志采集-Hadoop项目经验之多目录存储

360

8分27秒

028-尚硅谷-日志采集-Hadoop项目经验之数据均衡

300

7分30秒

029-尚硅谷-日志采集-Hadoop项目经验之LZO压缩配置

330

5分21秒

030-尚硅谷-日志采集-Hadoop项目经验之LZO压缩测试

380

9分0秒

031-尚硅谷-日志采集-Hadoop项目经验之LZO切片说明

340

8分39秒

032-尚硅谷-日志采集-Hadoop项目经验之参数调优

290

27分28秒

033-尚硅谷-日志采集-Hadoop项目经验之基准测试

360

7分39秒

034-尚硅谷-日志采集-通道设计规划

440

9分38秒

035-尚硅谷-日志采集-Zookeeper部署

270

10分52秒

036-尚硅谷-日志采集-Kafka安装

360

20分5秒

037-尚硅谷-日志采集-Kafka常用脚本

340

5分16秒

038-尚硅谷-日志采集-Kafka常用脚本补充

240

12分51秒

039-尚硅谷-日志采集-Kafka压力测试

330

9分17秒

040-尚硅谷-日志采集-Kafka机器数量与分区数量计算

430

4分31秒

041-尚硅谷-日志采集-Flume安装

400

5分21秒

042-尚硅谷-日志采集-日志采集配置方案对比

340

8分42秒

043-尚硅谷-日志采集-监控日志Flume组件选择

420

23分13秒

044-尚硅谷-日志采集-监控日志Flume配置文件

340

17分57秒

045-尚硅谷-日志采集-监控日志Flume拦截器编码

430

12分7秒

046-尚硅谷-日志采集-监控日志Flume测试

400

28分24秒

047-尚硅谷-日志采集-Flume启停脚本

360

10分31秒

048-尚硅谷-日志采集-消费KafkaFlume功能分析

340

2分18秒

049-尚硅谷-日志采集-消费KafkaFlume中KafkaChannel注意事项

420

37分35秒

050-尚硅谷-日志采集-消费KafkaFlume配置文件

380

9分2秒

051-尚硅谷-日志采集-消费KafkaFlume时间戳拦截器

440

9分26秒

052-尚硅谷-日志采集-消费KafkaFlume测试

390

1分21秒

053-尚硅谷-日志采集-消费KafkaFlume启停脚本

390

4分38秒

054-尚硅谷-日志采集-消费KafkaFlume内存调整

320

3分23秒

055-尚硅谷-日志采集-小结

310

12分12秒

056-尚硅谷-业务数据采集-电商系统概述

370

7分7秒

057-尚硅谷-业务数据采集-电商系统基本概念

340

7分44秒

058-尚硅谷-业务数据采集-电商系统表结构说明

370

25分1秒

059-尚硅谷-业务数据采集-电商系统核心表概述

340

15分55秒

060-尚硅谷-业务数据采集-电商系统表结构讲解

410

7分58秒

061-尚硅谷-业务数据采集-电商系统表字段说明

380

9分27秒

062-尚硅谷-业务数据采集-模拟数据生成之mysql部署

370

3分40秒

063-尚硅谷-业务数据采集-模拟数据生成之建表

350

10分23秒

064-尚硅谷-业务数据采集-模拟数据生成之EZDM使用简明介绍

410

9分39秒

065-尚硅谷-业务数据采集-模拟数据生成之测试

470

7分11秒

066-尚硅谷-业务数据采集-Sqoop概述

400

7分12秒

067-尚硅谷-业务数据采集-Sqoop安装

370

4分53秒

068-尚硅谷-业务数据采集-Sqoop测试

360

26分13秒

069-尚硅谷-业务数据采集-Sqoop基础使用

440

7分4秒

070-尚硅谷-业务数据采集-Sqoop使用之SQL形式导入

350

23分40秒

071-尚硅谷-业务数据采集-数据同步策略

340

14分33秒

072-尚硅谷-业务数据采集-业务数据表同步策略划分

360

40分18秒

073-尚硅谷-业务数据采集-Sqoop导入脚本之基础说明

310

7分33秒

074-尚硅谷-业务数据采集-Sqoop导入脚本之同步策略说明

450

2分40秒

075-尚硅谷-业务数据采集-Sqoop导入脚本之测试

350

1分35秒

076-尚硅谷-业务数据采集-Sqoop导入脚本之存在问题分析

380

3分57秒

077-尚硅谷-业务数据采集-Sqoop导入脚本之数据验证

420

34分16秒

078-尚硅谷-数仓建模理论-分层概述

440

5分48秒

079-尚硅谷-数仓建模理论-数据集市

300

7分43秒

080-尚硅谷-数仓建模理论-命名规范

390

17分1秒

081-尚硅谷-数仓建模理论-范式理论之概述

370

8分27秒

082-尚硅谷-数仓建模理论-范式理论之函数依赖

380

13分9秒

083-尚硅谷-数仓建模理论-范式理论之三范式

420

12分35秒

084-尚硅谷-数仓建模理论-OLTP与OLAP概述

420

18分6秒

085-尚硅谷-数仓建模理论-关系建模与维度建模

520

15分2秒

086-尚硅谷-数仓建模理论-维度模型之事实表与维度表

500

17分0秒

087-尚硅谷-数仓建模理论-维度模型之事实表分类

380

9分27秒

088-尚硅谷-数仓建模理论-维度模型之模型分类

490

13分41秒

089-尚硅谷-数仓建模理论-数仓分层模型之整体概述

380

4分33秒

090-尚硅谷-数仓建模理论-数仓分层模型之ODS层

380

26分1秒

091-尚硅谷-数仓建模理论-数仓分层模型之DWD层

310

30分51秒

092-尚硅谷-数仓建模理论-数仓分层模型之DWD层维度建模演示

400

11分2秒

093-尚硅谷-数仓建模理论-数仓分层模型之DWS层与DWT层

370

2分10秒

094-尚硅谷-数仓建模理论-数仓分层模型之建模驱动

430

10分34秒

095-尚硅谷-数仓环境准备-Hive安装

400

4分30秒

096-尚硅谷-数仓环境准备-Hive引擎说明

410

8分35秒

097-尚硅谷-数仓环境准备-框架兼容性问题说明

330

23分32秒

098-尚硅谷-数仓环境准备-HiveOnSpark配置

590

10分7秒

099-尚硅谷-数仓环境准备-HiveOnSpark测试

480

17分14秒

100-尚硅谷-数仓环境准备-Yarn容量调度器之并发度问题演示

400

19分38秒

101-尚硅谷-数仓环境准备-Yarn容量调度器之多队列配置

350

8分21秒

102-尚硅谷-数仓环境准备-Yarn容量调度器之提交任务指定队列

380

100

8分24秒

103-尚硅谷-数仓环境准备-DataGrip使用介绍

380

101

16分43秒

104-尚硅谷-数仓环境准备-新数据准备

350

102

11分4秒

105-尚硅谷-数仓搭建-ODS层日志表之建表语句

380

103

5分32秒

106-尚硅谷-数仓搭建-ODS层日志表之数据装载

360

104

7分58秒

107-尚硅谷-数仓搭建-ODS层日志表之装载脚本

330

105

4分33秒

108-尚硅谷-数仓搭建-扩展之Shell脚本引号总结

370

106

6分18秒

109-尚硅谷-数仓搭建-ODS层业务表之建表语句

340

107

4分28秒

110-尚硅谷-数仓搭建-ODS层业务表之装载脚本

420

108

8分8秒

111-尚硅谷-数仓搭建-DWD层日志表之数据结构回顾

400

109

7分34秒

112-尚硅谷-数仓搭建-DWD层日志表之Hive解析JSON函数说明

450

110

6分3秒

113-尚硅谷-数仓搭建-DWD层日志表之日志解析思路分析

340

111

7分26秒

114-尚硅谷-数仓搭建-DWD层日志表之启动表建表语句

330

112

9分0秒

115-尚硅谷-数仓搭建-DWD层日志表之启动表数据装载

360

113

4分28秒

116-尚硅谷-数仓搭建-DWD层日志表之页面表

380

114

9分14秒

117-尚硅谷-数仓搭建-DWD层日志表之动作表解析思路

360

115

5分42秒

118-尚硅谷-数仓搭建-回顾之explode函数使用说明

340

116

3分16秒

119-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数设计

270

117

11分16秒

120-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数说明

420

118

27分6秒

121-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(一)

380

119

8分49秒

122-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(二)

390

120

3分38秒

123-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数注意事项

300

121

6分10秒

124-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数创建

360

122

8分6秒

125-尚硅谷-数仓搭建-DWD层日志表之动作表数据装载

420

123

4分47秒

126-尚硅谷-数仓搭建-DWD层日志表之曝光表

450

124

9分8秒

127-尚硅谷-数仓搭建-DWD层日志表之错误表

400

125

9分57秒

128-尚硅谷-数仓搭建-DWD层数据装载之lzo索引文件识别问题

340

126

5分46秒

129-尚硅谷-数仓搭建-DWD层日志表之数据装载脚本

370

127

4分54秒

130-尚硅谷-数仓搭建-DWD层业务表之维度模型概述

340

128

11分5秒

131-尚硅谷-数仓搭建-DWD层业务表之商品维度表

330

129

1分50秒

132-尚硅谷-数仓搭建-DWD层业务表之优惠券维度表

430

130

11分44秒

133-尚硅谷-数仓搭建-DWD层业务表之活动维度表

350

131

3分40秒

134-尚硅谷-数仓搭建-DWD层业务表之地区维度表

450

132

16分34秒

135-尚硅谷-数仓搭建-DWD层业务表之时间维度表

340

133

19分22秒

136-尚硅谷-数仓搭建-DWD层业务表之支付事实表

380

134

7分22秒

137-尚硅谷-数仓搭建-DWD层业务表之退款事实表

300

135

9分45秒

138-尚硅谷-数仓搭建-DWD层业务表之评价事实表

390

136

7分8秒

139-尚硅谷-数仓搭建-DWD层业务表之订单明细实表建表语句

380

137

14分1秒

140-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(一)

310

138

9分26秒

141-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(二)

300

139

10分46秒

142-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(三)

290

140

7分56秒

143-尚硅谷-数仓搭建-DWD层业务表之加购与收藏事实表

390

141

10分16秒

144-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分析

390

142

7分48秒

145-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分区规划

380

143

9分35秒

146-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载思路

320

144

16分4秒

147-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载

330

145

9分53秒

148-尚硅谷-数仓搭建-DWD层业务表之订单事实表建表语句

430

146

43分22秒

149-尚硅谷-数仓搭建-DWD层业务表之订单事实表数据装载

340

147

17分10秒

150-尚硅谷-数仓搭建-DWD层业务表之拉链表概述

330

148

15分19秒

151-尚硅谷-数仓搭建-DWD层业务表之拉链表制作过程概述

350

149

17分40秒

152-尚硅谷-数仓搭建-DWD层业务表之用户维度表(一)

400

150

19分44秒

153-尚硅谷-数仓搭建-DWD层业务表之用户维度表(二)

390

151

8分10秒

154-尚硅谷-数仓搭建-DWD层业务表之数据装载脚本

340

152

28分38秒

155-尚硅谷-数仓搭建-DWS&DWT层之业务术语

360

153

14分11秒

156-尚硅谷-数仓搭建-DWS&DWT层之日期函数

380

154

7分22秒

157-尚硅谷-数仓搭建-DWS&DWT层之复杂数据类型使用说明

330

155

16分3秒

158-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表建表语句

400

156

47分40秒

159-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表数据装载

270

157

24分16秒

160-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表建表语句

310

158

6分37秒

161-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载思路分析

390

159

14分46秒

162-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(一)

390

160

29分43秒

163-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(二)

360

161

5分43秒

164-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表建表语句

330

162

13分7秒

165-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表数据装载

370

163

6分35秒

166-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表建表语句

340

164

13分45秒

167-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表初次装载说明

390

165

9分28秒

168-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表数据装载

480

166

1分20秒

169-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表建表语句

370

167

23分6秒

170-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(一)

390

168

24分27秒

171-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

430

169

9分25秒

172-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

320

170

12分3秒

173-尚硅谷-数仓搭建-DWT层之商品主题累积汇总表

400

171

20分48秒

174-尚硅谷-数仓搭建-DWS&DWT层之活动主题汇总表

430

172

16分29秒

175-尚硅谷-数仓搭建-DWS&DWT层之地区主题汇总表

430

173

7分5秒

176-尚硅谷-数仓搭建-DWS&DWT层之数据装载脚本

401

174

45分43秒

177-尚硅谷-数仓需求-设备主题之活跃设备数

350

175

4分36秒

178-尚硅谷-数仓需求-设备主题之新增&沉默&流失需求说明

330

176

6分13秒

179-尚硅谷-数仓需求-设备主题之新增设备数需求讲解

260

177

4分9秒

180-尚硅谷-数仓需求-设备主题之沉默用户数需求讲解

380

178

2分51秒

181-尚硅谷-数仓需求-设备主题之流失用户数需求讲解

370

179

8分5秒

182-尚硅谷-数仓需求-设备主题之留存率需求说明

430

180

2分2秒

183-尚硅谷-数仓需求-设备主题之回流用户数需求说明(一)

430

181

2分9秒

184-尚硅谷-数仓需求-设备主题之回流用户数需求说明(二)

400

182

1分57秒

185-尚硅谷-数仓需求-设备主题之最近三周连续活跃用户数需求说明

390

183

2分15秒

186-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求说明

360

184

16分33秒

187-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路一)

420

185

8分26秒

188-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路二)

330

186

14分24秒

189-尚硅谷-数仓需求-设备主题之回流用户数需求讲解

370

187

21分0秒

190-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路一)

410

188

9分28秒

191-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路二)

410

189

20分19秒

192-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路一)

350

190

13分4秒

193-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路二)

330

191

4分44秒

194-尚硅谷-数仓需求-会员主题之会员信息统计需求说明

370

192

5分15秒

195-尚硅谷-数仓需求-会员主题之漏斗分析需求说明

390

193

1分51秒

196-尚硅谷-数仓需求-商品主题之商品个数需求说明

340

194

10分1秒

197-尚硅谷-数仓需求-会员主题之会员信息统计需求讲解

330

195

21分8秒

198-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路一)

370

196

6分16秒

199-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路二)

270

197

5分51秒

200-尚硅谷-数仓需求-商品主题之商品个数需求讲解

310

198

8分5秒

201-尚硅谷-数仓需求-商品主题之全局TopN需求说明

380

199

2分45秒

202-尚硅谷-数仓需求-商品主题之分组TopN需求说明

390

200

4分28秒

203-尚硅谷-数仓需求-商品主题之销量排行需求讲解

330

201

3分21秒

204-尚硅谷-数仓需求-商品主题之退款率排行需求讲解

390

202

2分44秒

205-尚硅谷-数仓需求-商品主题之差评率排行需求讲解

360

203

10分57秒

206-尚硅谷-数仓需求-商品主题之分组TopN需求讲解

330

204

7分32秒

207-尚硅谷-数仓需求-营销主题之下单&支付统计需求说明

350

205

9分14秒

208-尚硅谷-数仓需求-营销主题之品怕复购率需求说明

380

206

3分44秒

209-尚硅谷-数仓需求-营销主题之下单统计需求讲解

370

207

11分45秒

210-尚硅谷-数仓需求-营销主题之支付统计需求讲解

350

208

16分54秒

211-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路一)

370

209

9分18秒

212-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路二)

460

210

7分48秒

213-尚硅谷-数仓需求-ADS层数据导入脚本

400

211

14分47秒

214-尚硅谷-全流程调度-工作流程概述

360

212

11分26秒

215-尚硅谷-全流程调度-调度系统概述

400

213

7分54秒

216-尚硅谷-全流程调度-Azkaban部署模式概述

380

214

2分57秒

217-尚硅谷-全流程调度-Azkaban安装之安装包准备

380

215

5分53秒

218-尚硅谷-全流程调度-Azkaban安装之数据库准备

340

216

11分25秒

219-尚硅谷-全流程调度-Azkaban安装之Exec部署

400

217

10分6秒

220-尚硅谷-全流程调度-Azkaban安装之Web部署

470

218

7分53秒

221-尚硅谷-全流程调度-Azkaban使用之入门案例

350

219

5分30秒

222-尚硅谷-全流程调度-Azkaban使用之工作流程配置文件说明

390

220

11分22秒

223-尚硅谷-全流程调度-Azkaban使用之Yaml文件格式概述

390

221

6分34秒

224-尚硅谷-全流程调度-Azkaban使用之任务依赖配置

420

222

4分23秒

225-尚硅谷-全流程调度-Azkaban使用之自动失败重试

380

223

3分56秒

226-尚硅谷-全流程调度-Azkaban使用之手动失败重试

390

224

6分57秒

227-尚硅谷-全流程调度-Azkaban使用之定时调度

410

225

9分35秒

228-尚硅谷-全流程调度-Azkaban使用之邮件配置

470

226

4分35秒

229-尚硅谷-全流程调度-Azkaban使用之邮件通知演示

310

227

5分14秒

230-尚硅谷-全流程调度-实操之Sqoop导出功能说明

440

228

15分3秒

231-尚硅谷-全流程调度-实操之MySQL建库建表

330

229

28分36秒

232-尚硅谷-全流程调度-实操之Sqoop导出脚本

380

230

6分58秒

233-尚硅谷-全流程调度-实操之新数据准备

360

231

7分13秒

234-尚硅谷-全流程调度-实操之Azkaban启停脚本

370

232

11分9秒

235-尚硅谷-全流程调度-实操之Azkaban工作流程配置文件编写

360

233

5分22秒

236-尚硅谷-全流程调度-实操之Azkaban工作流传参说明

440

234

9分34秒

237-尚硅谷-全流程调度-实操之Azkaban全流程调度演示

360

235

8分16秒

238-尚硅谷-全流程调度-实操之Azkaban问题总结

360

236

4分45秒

239-尚硅谷-数据可视化-概述

450

237

6分22秒

240-尚硅谷-数据可视化-Superset概述

370

238

15分56秒

241-尚硅谷-数据可视化-Superset安装之Miniconda部署

520

239

9分43秒

242-尚硅谷-数据可视化-Superset安装之准备Python3.6环境

430

240

7分2秒

243-尚硅谷-数据可视化-Superset安装

530

241

5分31秒

244-尚硅谷-数据可视化-Superset安装之初始化

490

242

6分20秒

245-尚硅谷-数据可视化-Superset安装之启动

400

243

9分52秒

246-尚硅谷-数据可视化-Superset安装之启停脚本

380

244

12分40秒

247-尚硅谷-数据可视化-Superset使用之对接数据源

450

245

13分39秒

248-尚硅谷-数据可视化-Superset使用之趋势图示例

780

246

7分29秒

249-尚硅谷-数据可视化-Superset使用之地图与饼状图示例

980

247

5分17秒

250-尚硅谷-数据可视化-Superset使用之编辑仪表盘

540

248

4分46秒

251-尚硅谷-即席查询-概述

370

249

4分42秒

252-尚硅谷-即席查询-Kylin概述

370

250

38分9秒

253-尚硅谷-即席查询-Kylin前置概念

310

251

12分46秒

254-尚硅谷-即席查询-Kylin基础架构

320

252

6分35秒

255-尚硅谷-即席查询-Kylin特点

310

253

14分12秒

256-尚硅谷-即席查询-Kylin安装之HBase部署

340

254

2分30秒

257-尚硅谷-即席查询-Kylin安装之环境变量准备

380

255

13分19秒

258-尚硅谷-即席查询-Kylin安装之兼容性问题说明

380

256

4分15秒

259-尚硅谷-即席查询-Kylin启动

440

257

30分54秒

260-尚硅谷-即席查询-Kylin使用之基础用法

360

258

21分49秒

261-尚硅谷-即席查询-Kylin使用之维度表重复key问题说明

380

259

8分29秒

262-尚硅谷-即席查询-Kylin使用之查询

390

260

12分39秒

263-尚硅谷-即席查询-Kylin使用之RestAPI使用概述

260

261

9分21秒

264-尚硅谷-即席查询-Kylin使用之每日定时构建脚本

440

262

6分42秒

265-尚硅谷-即席查询-Kylin原理之基础概念回顾

330

263

8分21秒

266-尚硅谷-即席查询-Kylin原理之Cube存储原理

480

264

15分2秒

267-尚硅谷-即席查询-Kylin原理之Cube构建原理

320

265

18分0秒

268-尚硅谷-即席查询-Kylin优化之衍生维度

400

266

13分24秒

269-尚硅谷-即席查询-Kylin优化之聚合组

340

267

15分23秒

270-尚硅谷-即席查询-Kylin优化之Rowkey调整

330

268

8分51秒

271-尚硅谷-即席查询-Kylin优化之并发粒度优化

370

269

7分13秒

272-尚硅谷-即席查询-KylinBI集成之JDBC

390

270

11分47秒

273-尚硅谷-即席查询-KylinBI集成之Zeppelin

390

271

25分6秒

274-尚硅谷-即席查询-Presto概述

340

272

23分45秒

275-尚硅谷-即席查询-Presto安装之Server部署

370

273

5分56秒

276-尚硅谷-即席查询-Presto安装之命令行客户端部署

340

274

8分54秒

277-尚硅谷-即席查询-Presto安装之LZO 压缩格式说明

320

275

8分14秒

278-尚硅谷-即席查询-Presto安装之可视化客户端部署

440

276

17分31秒

279-尚硅谷-即席查询-Presto使用注意事项

390

277

13分49秒

280-尚硅谷-集群监控-Zabbix概述

460

278

7分45秒

281-尚硅谷-集群监控-Zabbix安装之服务器环境准备

310

279

12分29秒

282-尚硅谷-集群监控-Zabbix安装之yum仓库配置

350

280

2分8秒

283-尚硅谷-集群监控-Zabbix安装之下载安装

380

281

10分9秒

284-尚硅谷-集群监控-Zabbix安装之修改配置文件

310

282

2分21秒

285-尚硅谷-集群监控-Zabbix启动

330

283

3分37秒

286-尚硅谷-集群监控-Zabbix安装之web配置

320

284

5分3秒

287-尚硅谷-集群监控-Zabbix使用之术语

400

285

7分17秒

288-尚硅谷-集群监控-Zabbix使用之创建主机

360

286

13分43秒

289-尚硅谷-集群监控-Zabbix使用之配置监控项

330

287

6分13秒

290-尚硅谷-集群监控-Zabbix使用之配置触发器

350

288

3分18秒

291-尚硅谷-集群监控-Zabbix使用之配置报警媒介

380

289

7分56秒

292-尚硅谷-集群监控-Zabbix使用之配置动作

320

290

2分12秒

293-尚硅谷-集群监控-Zabbix使用之测试

430

291

12分59秒

294-尚硅谷-集群监控-Zabbix使用之模板

390

081-尚硅谷-数仓建模理论-范式理论之概述

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐