文章/答案/技术大牛

发布

首页视频154_尚硅谷_数仓搭建_DWD层_拉链表理论

154_尚硅谷_数仓搭建_DWD层_拉链表理论

2022-12-022022-12-02 16:02:22播放33

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商数仓项目（含2.0、3.0版本）/尚硅谷数仓项目实战V2.0/视频/154_尚硅谷_数仓搭建_DWD层_拉链表理论.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
嗯，好，接下来我们来看一下啊，4.4.14用户维度表，比如说DW层最后一张核心的表，那这张表呢，处理的是要拉链表啊，又有一个新的名词啊，拉链表呢，在日后的这个面试过程当中啊，啊问到的非常多啊，因为就是因为各大家数仓公司，做数仓的这个公司他都会用到这种。拉链啊拉链表对七天连续三天。你们讲过呀，能这么厉害吗？这都讲过，那行，那你要讲过，那你们无敌的存在啊，行，那我来先看看啊，那那就你只要把DWD层冲破的话，那剩下的事都简单了啊，你只需要把现在这个。嗯，搞定。啊，挺好玩的啊，那那那稳稳的，那大家就稳稳的了啊，所以说你看马上15K就要到手了啊，再努努力啊。啊，用户表中数据的每日既可能有新增，也有可能有变化。对吧，哎，新增的变化，那用户表当中每天有新增的数据，也有这个变化的数据，比如说这个用户这个名字发生了变化，用户这个手机号发生了变化，用户这个性别发生了变化，这都有可能，对吧，但是呢，这种频率修改的频率并不高。
01:17
属于这种缓慢变化的维度，记住了，用户拉链表是采用的是啊，处理的问题就是缓慢变化维度，简称叫缓慢变化维。啊，缓动变回，那此处呢，就是采用拉链表来存储用户的维度信息。这块涉及到这个面试题，面试官怎么问呢？一般会这样问，哎，给你一个描述了一个场景，说有一张表啊，这张表呢，它不准发生变化。它就是这个偶尔一个月变一次啊，或者两个月变一次这样的一个力度，那我来如何用什么技术来解决这种问题，在书场里面，其实它考的就是你要用拉链表来解决这种缓慢变化的事情。就他那，当然还有一些面试官比较简单粗暴，你们公司用不给我拉了表怎么做的？
02:05
哎，那这也是单刀直入啊，都可以哈，行，不管他怎么说，反正你会就行，嗯，往下来看，首先看一下什么是拉链表，光一看这个拉链，大家这个可能就是衣服啊拉过链对吧？啊，别的这个拉链好像好像没没感觉过。来看一下什么叫拉链呢？啊，拉链表呢，记录每条信息的生命周期。它会记录着你的任何一个细小的变化，就像这个手机号，下面这张表的手机号，比如说这个张三呢，这个手机号在一月2019年1月1号的时候是这个号。到了19年1月2号的时候，切换到了这个手机号，一直持续到了一九年的1月9号。这种事情可能发生吧，对吧，然后之后呢，到了这个1月10号的时候，又更换了一个手机。
03:04
一直用到现在。这就是一个用户的一个状态，手机号的一个状态是吧，那这张表里面我就记录了这个手机号的整个全流程变化，用三条日志。分别是1月1号啊，他是这个状态，然后1月2号到1月9号是这个状态，1月10号到这儿是这个状态。他是记录了这个手机号的生命周期的全流程。啊，一旦一条记录的生命周期结束，就开始一条新的记录，比如说这个生命周期结束，开始一个新的，并把当前日期放入到生效开始日期，这不是当前日期嘛，今天是1月10号啊，结束啊，如果当前信息自己有效，生效日期填一个极大值，极大值，那这个表示永远也达不了的。这是行业内标准哈，一般的通常情况下就放一个啊9999永远也到不了嘛，啊这一行和上一行啊，对上对行，那这个呢，就是拉链表，拉链表就长这样，它记录了生命周期的全流程变化。
04:10
任何一个细小的变化，在这张表上都能够看到，这是拉链。那有同学说了这个这有啥用啊，那我没没有必要，有的同学说咔咔，我就关心1月10号什么状态，那我就来一个全量就行了呗，全量直接覆盖那1月10号来了啊，这不合适啊，因为这里面是有这个变化的，这时候我们用拉链表来解决这种缓慢变化的。知道什么是拉链表之后呢？来看一下什么为什么要做啊？嗯。那为什么要做拉链表呢？拉链表适合于数据会发生变化，这是第一个前提哈，数据一定是要发生变化的，不变化的还记得要要用什么吗？数据如果不变化，我们做的什么？
05:04
叫增量，然后呢，见的表叫事物型适时表对吧？哎，事物型事实表的特点呢，是一旦产生就不会发生变化啊，那其他的话，只要它发生变化，还有个特点，是不是这个大部分都会变化呢。哎，不是啊，不是大部分都会变化啊，它是一个缓慢变化的。最典型的就是一个用户的信息，他注册完之后，它会很，就是这个变化的一个周期啊，频率啊非常低。啊，反正我呢，像那个在这个京东啊，或者淘宝上注册那些账号，新店里面我填的啥我都不知道啊，我很少去改那些东西啊，有时候没有必要，除非是手机号换了啊，要进行购买那个新的商品的时候，我可能会更新一下手机号啊，好啊，比如用户信息会发生变化，会发生变化，但是呢，每天的变化的比例并不高，你数据量没有那么大。如果数据量有一定的规模，按照每天全量的话方式保存，这个效率比较低，为什么说每天全量这个效率比较低呢？
06:09
那你想想哈，就还以这张表上的为例，这张表里面三条记录就反映了这个用户发生了三次变化的一个状态，对吧，那如果你按全量表记录的话。全列表你怎么记啊，1月1号这天一个全量啊，1月1号的时候它是这个手机号，然后到了1月2号的时候，你是不是还得来个全量，那整个这块就是二到九每一天一个全量。二号三号四号五号六号七号八号九号，每一天一个小量，然后到了这个1月10号的时候。每天学量，那一直到今今天，今天是2020年了吧，你说一年的数据。整整一年的数据，每天都要带着这个，张三的手机号是这个。但是你说这有用吗？对我们来说有用吗？这是365条，然后再加上几个月，再加个100天吧，一共加个100天，比如说我们一共记录了，假如说465天，一共记录了465天，就反映了张三变化了这么这么两项。
07:15
那效率太低了，对吧？啊效率太低了哈，那你说比如说用户，呃，1亿的用户，像那个淘宝啊，1亿的用户你乘以365天，那每天一份这个用户信息，而且它基本上就是不怎么变化，你像我们这个就是不怎么变化。完全的一个浪费存储空间。啊，那么那这样的话，我们就考虑，既然你不怎么变化，那我就把你只要你发生变化的时候给你记录下来，不发生变化我就不记了呗。就一直维持这个状态，一直往前走。哎，所以说这就是为什么要做这个拉链呢，原因就是因为它解决了这种呃，全量的效率低下。啊，效率低下，如果你这里的数据啊，经常性发生变化，你这里这个这个这个手机号一直发生变化，每天都要变化，那你就不如说全量了啊记住了，每天你要都发生变化，难道你你不如来全量了。
08:07
对吧，你相当于每天这里面就要来一条。啊，要不你要来一条。每天一条，每天一条经常变化的，那就做全量了，只有这种缓慢变化的才有做这个，呃，拉链表的一个价值所在，争取存储空间。再往下。那如何使用拉链表呢？来看。这呢是对应的拉力表啊，拉表这个哈，这个上面这个是拉表，这里面记录了这个张三啊，他的名字是这个没问题，1月1号到现在啊李四，李四呢是1月1号到1月2号，这个期间叫李四，到了1月3号的时候呢，突然间切换到叫李小四。
09:03
啊叫李小四，然后一直到现在李小四啊，然后王五赵六对吧，一张用户表，那现在呢，我要干什么呢？哎，这个拉里面怎么用，日后的时候啊，它会记录了某一个时间点的一个数据切片。比如说我就想查看一下，呃，在1月1号。在什么呢？在2019年1月1号的时候，李四就说他这个二号用户。他叫什么名字对吧，那我就可以把它查出来，那怎么查呢？哎，你想查哪一天的历史的切片，就是当前这个二月这个1月1号这一次课。它这个拉链表里的所有的数据的状态，那就是它的start time开始时间小于它，你从这里面去过滤啊，你看它开始时间小于1月1号的有谁呀，小于等于哈，有。有它小于等于，它不小于等于，它小于等于。嗯，它也不小于等于对吧，啊，它也不小于等于，你这三条能过出来，然后再后面加上一个an time得大于等于，1月1号它大于等于。
10:09
它呢大于等于1月1号，它大于等于，所以说你最终过滤完的话，就只有这三条，那这三条呢，就是代表了1月1号的时候，张三叫什么名，李四叫什么名，五叫什么名，包括他的一个状态。啊状态那以此类推哈，那如何讲获取一个1月2号这一时刻。啊，某一时间点这个这里面拉列表里的一些状态，那也可以啊，就是开始时间小于它，And time大于它啊，大于等它就行了，那你看一这个开始时间小于它的。小于一号小于一号小于。那这个呢，李小四李小四不小于它小于它小于啊，然后后面这个呢，是大于等于一二号大于等于一二号大于大于大于大于大于。
11:00
对吧，那这里面满足条件呢，就只有这个这四条，这四条就能够剥离出来。就是这么一个情况，也代表了1月4号这一时刻，这里面哦，增加了一个兆六。啊，增加照料，比如说这里面有这么多信息，比如说这就是啊拉链表日后的一个使用啊，方便你去一个查询过滤，它代表的叫一个历史切片啊，历史片某一时刻，这里面表里的信息的一个状态。那再往下拉链表的一个形成过程。你说怎么来的，这个表怎么做？首先看啊，首先看。2019年1月1号，假如说第一天哈，用户的全量表，用户表里面有这个用户ID和用户名称这两个时段。
12:02
那怎么把这个用户表变成这个拉链表呢？这是我们关心的啊，因为我们正常这个用户表里面没有什么开始时间，结束时间，没有这些东西，那只有的是这个用户ID，用户姓名，怎么办呢？首先第一步初始化拉链表。初拉的表，比如说初始化拉丁表的时候呢，是就等于最开始的时候，就是1月1号，一定从这号开始，选择某一天开始哈，那有可能是你数仓刚建立的时候，第一天那天作为开始之间，也有可能呢，是你出仓提前呢，已经把这个用户啊已经注册好了，突然间呢，这个老大说我们要做一个用户拉链，那这时候呢，一次性也可能导入过来一堆用户的信息，这都有可能完，总之呢，也得有一个开始时间。存在这里面，那这个怎么做呢？只需要把书仓里的所有的数据导过来之后。在他末尾加上两列。两列分别是它的开始时间和结束时间。
13:01
这两列补上，开始时间呢，就是今天这个日期，结束时间是一个永远也达不到的值，999。这是第一步，好，第二天到了第二天的时候，那这里的用户表呢，有可能会发生变化。对吧，啊，有可能发生变化啊，谁发生变化呢？用户二发生了状态的一个改变。你这里面是李四，我发生了改变，变成了李小四。同时在这个用户表里面，我又增加了两个用户。四和五。又增加两，没问题。买再一个是修改，一个是增加增加。那这样的话怎么合并到这个拉链表，初始化拉链表里面呢，你看啊，这里面没有这两列啊，没有开始时间结束时间。哎，那你首先要做的是就是通过这张表里面过滤出来新增和变化的数据。那你回忆一下我们这个用户这个表里面是不是就是考它的新增和变化，也是用SCO导的时候导的，就是它的新增和变化。
14:07
那你就会把谁取到呢？把李小四取到。再把这个六和田七取到。因为我取这个像什么一号和三号没有意义啊，根本就没有发生变化，你原来这个张三是什么，你这个王五是什么，那就是什么，没有必要变化，我需要的是它的新增和变化的数据拿回来。找到，找到之后，这是新增和变化的数据，这是历史的拉链表里的数据，我需要把这两张表的数据进行一个整合。哎，把它两个进行一个噪音处理。到里面去。拼到这里面去啊，你先看首先原来的这里面的历史数据1231。嗯。然后新增的新增和变化的数据，新增的好说了，直接在它的四五加到后面，同时加上对应的开始时间和结束时间。
15:05
平过来，那还有这里面还有一个变化的，李小四，变化的也好弄看好了啊，变化的其实也是增加一条。对吧，这是新增的。都往这一放。唯一比较难处理的是它。也就是说你修改了之后，以前的这个数据怎么变，你需要把以前的这个结束时间修改成它。修改前一天的时间说一我们需要掌握的就这块。啊来处理它，怎么来处理它。如果在MYSQL里面很简单了，那我直接直接修改一下就行了，但是在have里面你没办法去修改某一个字段。哎，没办法修改某一字段，就跟我们，呃，刚才分析那个订单，订单四时表和领取购物券实时表一样，你没办法改变某一条信息，那我们怎么做呢？我改变不了一条信息，我就改变你整个所有分区。
16:06
那同样道理，这里面我改变不了你这一个字段，我干嘛呢？我改变你全表啊，我把你全表进行一个不就完了吗？道理是一样的哈，道理是一样的。行，那再稍微回顾一下这块怎么处理啊，也就是说这块首先获取到新增和变化的数据。然后跟历史的表进行一个噪音处理。噪音处理的时候分两步，第一步，新增和变化的数据仍然只是在它末尾，加上开始时间和结束时间，这事就OK了。啊，就OK了，那如何来处理这块呢？你需要用它去left噪音，它记住是left噪音，后面我再说为什么是left。因为你要保证这里的数据一定要有。你看你现在如果跟他去的话，正常能够匹配上只有二。那你一就没了。
17:01
啊，一和三我们是要保留的啊，所以说这里面要选择left噪音，去left噪音它噪音你看用它去left噪音它的时候能匹配到谁呢？就能够把这个二。匹配。你看他俩一着人就二跟它不就关联上了吗？关联上只要能关联上之后，那我想修改这字段就容易了。哎，我修改之后呢，先把它放到一张临时表里面，然后临时表再把这个这张整表一覆盖。哎，这就是这个处理的一个思路哈，行，那我们再往下看。下面呢是制作拉链表的一个过程。打开。知识化拉链表过程，这里面呢，是用户当日全部数据和买施工中每天变化的数据拼在一起，形成一个新的临时拉链，用临时拉链表覆盖旧的拉链表啊，不用看这个，再看这个。
18:04
啊，用户当日的全部数据，你说你数据库里面有什么数据，直接头一天的时候导入到这个用户拉列表里面，这只是建出仓的时候只允许导一次啊，只允许导一次初始嘛，初始的状态只导一次，好之后呢，第二天呢，这里面就会有新的用户发生变化。啊，那就MYQ里面发生变化，那我就把里面新增和变化的数据都给倒过来。还记得怎么导的吗？新增的时间是create是今天，修改的时间呢是op time是今天，那就新增和变化的数据都倒过来了，这是新的数据，这是历史的老的数据。那好。我取出老的数据和新的数据，进行一个噪音操作处理。哎，刚才说了新的数据呢，是在它后面加上开始时间和结束时间。然后呢，这个老的数据修改怎么抄修改呢？用它历史的数据去life噪音。
19:05
Life的赵云。如果招人的上，就说明需要修改。那需要修改的话，那你就把对应的字段给它修改上，修改上之后存到一张临时表里面。啊，临时表，然后干什么呢？把临时表里的数据override回来，你再写回到你原来的历史表里面，那这里面拿到的就是最新的数据。稍微捋一下，当然这块呢，你是没有不建这个临时表也行，你直接用这个数据和这个数据卡放在中间一个缓存里面直接过来。其实我们这个，呃，订单事时表和领用券实时表，就是采用这种中间临时的形式啊，比如说没有额外建这张表。啊，没有，你建额外这张表的话，相对来说可靠性会好一些，为什么可靠性好一些呢？你万一你这个往这里面override过程当中发生错误了。
20:00
那你家得回滚是吧，啊回滚那现在呢，你这里面哎，往这里面写成功之后用它去回滚，相对来说会更安全一些啊啊。那过来，那这个呢，就会产生是相当于是第二天之后的最新的拉链表，那再来那第三天的时候呢，MYSQL里面又有新增和变化的数据过来。又有新的变化数据，那好，那我就把新增和变化的数据跟你历史的拉链表，哎，再进行一个合并，产生新的，以此类推，再往下走啊，再往下覆盖啊，这样的一个不断的一个迭代的过程。啊，就形成了对应的一个拉链的一个状态哈。好，嗯。这是订单拉链表的一个理论上的一个分析。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷数仓项目实战V2.0

（69/300）

10分15秒

01_尚硅谷_课程介绍

430

2分27秒

02_尚硅谷_数仓概念_业务数据

470

3分32秒

03_尚硅谷_数仓概念_用户行为数据

430

10分43秒

04_尚硅谷_数仓概念_数仓概述

420

8分31秒

05_尚硅谷_数仓架构_项目需求

410

3分33秒

06_尚硅谷_数仓架构_技术选型考虑因素

410

9分24秒

07_尚硅谷_数仓架构_技术选型

440

9分58秒

08_尚硅谷_数仓架构_数仓架构

350

11分55秒

09_尚硅谷_数仓架构_框架版本选型

370

6分18秒

100_尚硅谷_数仓理论_函数依赖

350

7分46秒

101_尚硅谷_数仓理论_三范式

360

11分46秒

102_尚硅谷_数仓理论_关系建模和维度建模

450

4分43秒

103_尚硅谷_数仓理论_维度表

400

28分2秒

104_尚硅谷_数仓理论_事实表

380

10分46秒

105_尚硅谷_数仓建模_ODS层

290

10分22秒

106_尚硅谷_数仓建模_DWD层_选择业务过程

350

15分8秒

107_尚硅谷_数仓建模_DWD层_声明粒度

380

16分53秒

108_尚硅谷_数仓建模_DWD层_确定维度

350

11分38秒

109_尚硅谷_数仓建模_DWD层_确定事实

340

8分34秒

10_尚硅谷_数仓架构_服务器选型

350

19分5秒

110_尚硅谷_数仓建模_DWS层_DWT层_ADS层

350

6分21秒

111_尚硅谷_数仓建模_总结

370

3分43秒

112_尚硅谷_数仓搭建_ODS层_要做哪些事

350

3分22秒

113_尚硅谷_数仓搭建_ODS层_创建数据库

340

6分43秒

114_尚硅谷_数仓搭建_ODS层_启动日志处理分析

340

10分29秒

115_尚硅谷_数仓搭建_ODS层_启动日志处理实现

410

5分36秒

116_尚硅谷_数仓搭建_ODS层_事件日志处理

370

5分46秒

117_尚硅谷_数仓搭建_ODS层_单引号和双引号区别

440

11分28秒

118_尚硅谷_数仓搭建_ODS层_用户行为数据脚本编写

320

3分9秒

119_尚硅谷_数仓搭建_ODS层_脚本问题解决

270

7分56秒

11_尚硅谷_数仓架构_集群规模

370

10分14秒

120_尚硅谷_数仓搭建_ODS层_业务数据创建表

310

12分18秒

121_尚硅谷_数仓搭建_ODS层_业务数据脚本编写

320

15分3秒

122_尚硅谷_数仓搭建_DWD层_启动日志表

400

6分15秒

123_尚硅谷_数仓搭建_DWD层_启动日志表脚本

380

13分34秒

124_尚硅谷_数仓搭建_DWD层_事件日志表解析分析

410

59秒

125_尚硅谷_数仓搭建_DWD层_事件日志表建表

380

4分33秒

126_尚硅谷_数仓搭建_DWD层_自定义UDF函数分析

300

8分56秒

127_尚硅谷_数仓搭建_DWD层_自定义UDF函数_创建工程

360

15分28秒

128_尚硅谷_数仓搭建_DWD层_自定义UDF函数_代码编写

470

4分29秒

129_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_分析

330

8分26秒

12_尚硅谷_数仓架构_集群具体规划

360

16分28秒

130_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_实现（上）

370

8分31秒

131_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_实现（下）

400

10分57秒

132_尚硅谷_数仓搭建_DWD层_解析事件日志

360

9分37秒

133_尚硅谷_数仓搭建_DWD层_解析脚本

320

15分43秒

134_尚硅谷_数仓搭建_DWD层_事件日志（3月10日完成）

290

4分27秒

135_尚硅谷_数仓搭建_DWD层_事件日志脚本（3月11日完成）

330

14分1秒

136_尚硅谷_数仓搭建_DWD层_业务_商品维度（上）

350

10分39秒

137_尚硅谷_数仓搭建_DWD层_业务_商品维度（下）

320

1分46秒

138_尚硅谷_数仓搭建_DWD层_业务_优惠卷维度

350

8分59秒

139_尚硅谷_数仓搭建_DWD层_业务_活动维度

360

7分8秒

13_尚硅谷_用户行为采集_公共字段格式

260

2分7秒

140_尚硅谷_数仓搭建_DWD层_回顾

390

10分1秒

141_尚硅谷_数仓搭建_DWD层_地区维度

290

7分18秒

142_尚硅谷_数仓搭建_DWD层_时间维度

330

16分26秒

143_尚硅谷_数仓搭建_DWD层_订单明细事实表

370

11分58秒

144_尚硅谷_数仓搭建_DWD层_支付事实表

340

5分19秒

145_尚硅谷_数仓搭建_DWD层_退款事实表

380

3分58秒

146_尚硅谷_数仓搭建_DWD层_评论事实表

430

16分38秒

147_尚硅谷_数仓搭建_DWD层_加购事实表

300

3分35秒

148_尚硅谷_数仓搭建_DWD层_收藏事实表

310

29分16秒

149_尚硅谷_数仓搭建_DWD层_优惠卷事实表分析

330

8分1秒

14_尚硅谷_用户行为采集_事件字段格式

420

14分4秒

150_尚硅谷_数仓搭建_DWD层_优惠卷事实表完成

330

6分34秒

151_尚硅谷_数仓搭建_DWD层_基本函数

350

25分2秒

152_尚硅谷_数仓搭建_DWD层_订单事实表分析

320

19分23秒

153_尚硅谷_数仓搭建_DWD层_订单事实表完成

400

20分43秒

154_尚硅谷_数仓搭建_DWD层_拉链表理论

330

16分41秒

155_尚硅谷_数仓搭建_DWD层_拉链表实操

340

16分20秒

156_尚硅谷_数仓搭建_DWD层_脚本编写

410

9分34秒

157_尚硅谷_数仓搭建_DWS层_业务术语（上）

400

9分7秒

158_尚硅谷_数仓搭建_DWS层_业务术语（下）

320

13分48秒

159_尚硅谷_数仓搭建_DWS层_基本函数

360

10分9秒

15_尚硅谷_用户行为采集_事件日志（上）

380

5分41秒

160_尚硅谷_数仓搭建_DWS层_DWS_DWT_ADS介绍

300

17分43秒

161_尚硅谷_数仓搭建_DWS层_每日设备行为宽表

310

12分38秒

162_尚硅谷_数仓搭建_DWT层_设备主题_分析

310

23分17秒

163_尚硅谷_数仓搭建_DWT层_设备主题_实现

450

29分12秒

164_尚硅谷_数仓搭建_DWS层_会员行为宽表

360

28分2秒

165_尚硅谷_数仓搭建_DWT层_会员主题宽表

390

10分32秒

166_尚硅谷_数仓搭建_DWS层_商品主题宽表

330

14分33秒

167_尚硅谷_数仓搭建_DWT层_商品主题

370

10分4秒

168_尚硅谷_数仓搭建_DWS层_优惠卷及活动宽表

470

3分55秒

169_尚硅谷_数仓搭建_DWS层_每日购买行为宽表

320

10分19秒

16_尚硅谷_用户行为采集_事件日志（下）

360

29分22秒

170_尚硅谷_数仓搭建_数仓架构回顾

400

16分57秒

171_尚硅谷_数仓搭建_ADS_活跃设备数

340

1分58秒

172_尚硅谷_数仓搭建_ADS_新增设备数

330

3分4秒

173_尚硅谷_数仓搭建_ADS_沉默用户

360

18分6秒

174_尚硅谷_数仓搭建_ADS_活跃设备讲解

340

10分1秒

175_尚硅谷_数仓搭建_ADS_新增设备讲解

340

5分59秒

176_尚硅谷_数仓搭建_ADS_沉默设备讲解

270

3分44秒

177_尚硅谷_数仓搭建_ADS_本周回流设备需求分析

370

2分6秒

178_尚硅谷_数仓搭建_ADS_流失设备需求分析

430

5分42秒

179_尚硅谷_数仓搭建_ADS_留存率需求分析

260

2分42秒

17_尚硅谷_用户行为采集_启动日志

320

4分0秒

180_尚硅谷_数仓搭建_ADS_连续需求分析

430

6分50秒

181_尚硅谷_数仓搭建_ADS_dwt_sku_topic_纠错

340

100

21分59秒

182_尚硅谷_数仓搭建_ADS_本周回流用户

360

101

3分21秒

183_尚硅谷_数仓搭建_ADS_流失用户

380

102

8分40秒

184_尚硅谷_数仓搭建_ADS_留存率_思路分析

340

103

15分23秒

185_尚硅谷_数仓搭建_ADS_留存率_编码

390

104

11分52秒

186_尚硅谷_数仓搭建_ADS_连续三周活跃

280

105

2分51秒

187_尚硅谷_数仓搭建_ADS_本周回流_补充

350

106

21分9秒

188_尚硅谷_数仓搭建_ADS_最近7天连续3天_思路一

370

107

6分54秒

189_尚硅谷_数仓搭建_ADS_最近7天连续3天_思路二

340

108

14分42秒

18_尚硅谷_用户行为采集_日志生成_分析

370

109

3分33秒

190_尚硅谷_数仓搭建_ADS_会员主题信息_需求分析

350

110

3分27秒

191_尚硅谷_数仓搭建_ADS_漏斗分析_需求分析

330

111

3分9秒

192_尚硅谷_数仓搭建_ADS_商品销量TopN_需求分析

350

112

1分9秒

193_尚硅谷_数仓搭建_ADS_商品收藏TopN_需求分析

340

113

11分40秒

194_尚硅谷_数仓搭建_ADS_会员信息统计

400

114

18分56秒

195_尚硅谷_数仓搭建_ADS_漏斗分析

340

115

6分54秒

196_尚硅谷_数仓搭建_ADS_商品个数统计

410

116

7分4秒

197_尚硅谷_数仓搭建_ADS_销量_收藏_TopN

410

117

1分12秒

198_尚硅谷_数仓搭建_ADS_商品加购_需求分析

360

118

2分25秒

199_尚硅谷_数仓搭建_ADS_商品退款率_需求分析

370

119

14分4秒

19_尚硅谷_用户行为采集_日志生成_代码说明

310

120

1分43秒

200_尚硅谷_数仓搭建_ADS_商品差评率_需求分析

450

121

4分45秒

201_尚硅谷_数仓搭建_ADS_下单数目统计_需求分析

370

122

6分43秒

202_尚硅谷_数仓搭建_ADS_支付信息统计_需求分析

330

123

8分23秒

203_尚硅谷_数仓搭建_ADS_复购率_需求分析

370

124

5分24秒

204_尚硅谷_数仓搭建_ADS_画图软件

450

125

1分54秒

205_尚硅谷_数仓搭建_ADS_商品加购排行

380

126

8分8秒

206_尚硅谷_数仓搭建_ADS_商品退款率排行

390

127

3分5秒

207_尚硅谷_数仓搭建_ADS_商品差评率排行

340

128

6分2秒

208_尚硅谷_数仓搭建_ADS_下单信息统计

370

129

15分4秒

209_尚硅谷_数仓搭建_ADS_支付信息统计

370

130

7分10秒

20_尚硅谷_用户行为采集_日志生成_LogBack配置

410

131

18分48秒

210_尚硅谷_数仓搭建_ADS_复购率

390

132

9分38秒

211_尚硅谷_任务调度_Azkaban_工作流程分析

470

133

10分34秒

212_尚硅谷_任务调度_Azkaban_部署_准备

280

134

15分33秒

213_尚硅谷_任务调度_Azkaban_部署_配置

310

135

5分52秒

214_尚硅谷_任务调度_Azkaban_MySQL建库建表

420

136

14分41秒

215_尚硅谷_任务调度_Azkaban_Sqoop导出脚本

370

137

14分26秒

216_尚硅谷_任务调度_Azkaban_数据准备

350

138

10分20秒

217_尚硅谷_任务调度_Azkaban_Job文件

410

139

4分4秒

218_尚硅谷_任务调度_Azkaban_Shell脚本准备

420

140

5分54秒

219_尚硅谷_任务调度_Azkaban_定时调度

410

141

5分34秒

21_尚硅谷_用户行为采集_虚拟机克隆

410

142

4分13秒

220_尚硅谷_任务调度_Azkaban_调度结果

380

143

12分19秒

221_尚硅谷_任务调度_Azkaban_拉链表复习

380

144

7分12秒

222_尚硅谷_任务调度_Azkaban_商品主题宽表纠错

370

145

4分30秒

223_尚硅谷_任务调度_Azkaban_任务重跑问题

440

146

7分6秒

224_尚硅谷_数据可视化_Superset

400

147

6分28秒

225_尚硅谷_数据可视化_Superset_miniconda介绍

250

148

7分26秒

226_尚硅谷_数据可视化_Superset_miniconda安装

350

149

4分35秒

227_尚硅谷_数据可视化_Superset_Python环境创建

320

150

6分13秒

228_尚硅谷_数据可视化_Superset_安装

320

151

4分27秒

229_尚硅谷_数据可视化_Superset_配置

390

152

9分45秒

22_尚硅谷_用户行为采集_虚拟机配置

350

153

6分59秒

230_尚硅谷_数据可视化_Superset_启停

400

154

5分39秒

231_尚硅谷_数据可视化_Superset_对接MySQL安装依赖

330

155

5分50秒

232_尚硅谷_数据可视化_Superset_对接MySQL数据源配置

430

156

10分26秒

233_尚硅谷_数据可视化_Superset_对接MySQL配置仪表盘_图形

300

157

2分40秒

234_尚硅谷_数据可视化_Superset_对接MySQL配置仪表盘

370

158

3分50秒

235_尚硅谷_数据可视化_Superset_补充

300

159

6分54秒

236_尚硅谷_即席查询_概述

360

160

6分8秒

237_尚硅谷_即席查询_Kylin_概述

350

161

29分50秒

238_尚硅谷_即席查询_Kylin_前置知识

310

162

17分40秒

239_尚硅谷_即席查询_Kylin_架构_特点

360

163

5分59秒

23_尚硅谷_用户行为采集_JDK安装

260

164

11分19秒

240_尚硅谷_即席查询_Kylin_部署_HBase

420

165

5分26秒

241_尚硅谷_即席查询_Kylin_部署_解压

340

166

3分21秒

242_尚硅谷_即席查询_Kylin_部署_环境变量

320

167

4分41秒

243_尚硅谷_即席查询_Kylin_部署_启动准备

380

168

2分59秒

244_尚硅谷_即席查询_Kylin_部署_启动

290

169

5分56秒

245_尚硅谷_即席查询_Kylin_部署_启动错误_解决方案

350

170

17分7秒

246_尚硅谷_即席查询_Kylin_使用_定义model

380

171

14分49秒

247_尚硅谷_即席查询_Kylin_使用_定义cube

340

172

16分55秒

248_尚硅谷_即席查询_Kylin_使用_重复key问题解决

370

173

7分26秒

249_尚硅谷_即席查询_Kylin_Hadoop历史服务器问题原因

370

174

6分14秒

24_尚硅谷_用户行为采集_Hadoop安装及配置前准备

350

175

7分26秒

250_尚硅谷_即席查询_Kylin_查询

410

176

15分41秒

251_尚硅谷_即席查询_Kylin_定时调度脚本

380

177

10分37秒

252_尚硅谷_即席查询_Kylin_cube存储原理

310

178

13分33秒

253_尚硅谷_即席查询_Kylin_cube构建原理

310

179

13分53秒

254_尚硅谷_即席查询_Kylin_cube_优化_聚合组

420

180

11分52秒

255_尚硅谷_即席查询_Kylin_cube_优化_衍生维度

330

181

13分14秒

256_尚硅谷_即席查询_Kylin_cube_优化_Rowkey设计

450

182

5分32秒

257_尚硅谷_即席查询_Kylin_cube_优化_并发粒度优化

280

183

13分41秒

258_尚硅谷_即席查询_Kylin_cube_BI对接_JDBC

320

184

10分50秒

259_尚硅谷_即席查询_Kylin_cube_BI对接_Zeppelin

380

185

12分51秒

25_尚硅谷_用户行为采集_Hadoop集群配置

330

186

21分29秒

260_尚硅谷_即席查询_Presto_概念

440

187

16分38秒

261_尚硅谷_即席查询_Presto_部署_Server

340

188

2分15秒

262_尚硅谷_即席查询_Presto_启动_Server

370

189

14分26秒

263_尚硅谷_即席查询_Presto_部署_命令行客户端

370

190

7分39秒

264_尚硅谷_即席查询_Presto_部署_可视化客户端

380

191

17分52秒

265_尚硅谷_即席查询_Presto_使用注意事项

370

192

13分6秒

266_尚硅谷_即席查询_Druid_概述

370

193

14分24秒

267_尚硅谷_即席查询_Druid_对比

410

194

17分40秒

268_尚硅谷_即席查询_Druid_架构

340

195

5分8秒

269_尚硅谷_即席查询_Druid_数据结构

370

196

2分42秒

26_尚硅谷_用户行为采集_项目经验_HDFS多目录

410

197

9分17秒

270_尚硅谷_即席查询_Druid_部署

290

198

12分35秒

271_尚硅谷_即席查询_Druid_使用

370

199

5分23秒

272_尚硅谷_集群监控_Zabbix_概述

380

200

8分42秒

273_尚硅谷_集群监控_Zabbix_架构

350

201

2分15秒

274_尚硅谷_集群监控_Zabbix_部署_说明

340

202

4分18秒

275_尚硅谷_集群监控_Zabbix_部署_Server节点_准备

380

203

10分17秒

276_尚硅谷_集群监控_Zabbix_部署_Server节点_创建用户_建库建表

350

204

10分44秒

277_尚硅谷_集群监控_Zabbix_部署_Server节点_编译环境准备

360

205

3分52秒

278_尚硅谷_集群监控_Zabbix_部署_Server节点_编译及安装

340

206

3分50秒

279_尚硅谷_集群监控_Zabbix_部署_Server节点_配置

380

207

2分59秒

27_尚硅谷_用户行为采集_项目经验_节点间数据均衡

320

208

26分23秒

280_尚硅谷_集群监控_Zabbix_部署_Server节点_系统服务脚本编写

370

209

11分6秒

281_尚硅谷_集群监控_Zabbix_部署_Server节点_web部署

470

210

4分54秒

282_尚硅谷_集群监控_Zabbix_部署_Server节点_启动

390

211

7分17秒

283_尚硅谷_集群监控_Zabbix_部署_Server节点_web

390

212

8分14秒

284_尚硅谷_集群监控_Zabbix_部署_Agent_节点部署

350

213

7分54秒

285_尚硅谷_集群监控_Zabbix_使用_术语

310

214

8分16秒

286_尚硅谷_集群监控_Zabbix_使用_创建主机

340

215

14分38秒

287_尚硅谷_集群监控_Zabbix_使用_创建监控项

440

216

6分32秒

288_尚硅谷_集群监控_Zabbix_使用_创建触发器

340

217

8分56秒

289_尚硅谷_集群监控_Zabbix_使用_创建动作

310

218

9分12秒

28_尚硅谷_用户行为采集_项目经验_配置LZO压缩

400

219

15分13秒

290_尚硅谷_集群监控_Zabbix_使用_通知媒介配置

400

220

3分30秒

291_尚硅谷_集群监控_Zabbix_使用_全流程测试

290

221

14分10秒

292_尚硅谷_集群监控_Zabbix_使用_创建模板

360

222

3分52秒

293_尚硅谷_元数据管理_Atlas_课程背景

420

223

8分15秒

294_尚硅谷_元数据管理_Atlas_课程介绍

300

224

6分40秒

295_尚硅谷_元数据管理_Atlas_架构原理

380

225

13分15秒

296_尚硅谷_元数据管理_Atlas_辅助框架安装

390

226

19分33秒

297_尚硅谷_元数据管理_Atlas_登录后配置

310

227

25分9秒

298_尚硅谷_元数据管理_Atlas_配置并启动

400

228

3分3秒

299_尚硅谷_元数据管理_Atlas_执行效果

330

229

9分20秒

29_尚硅谷_用户行为采集_项目经验_LZO创建索引

320

230

1分15秒

300_尚硅谷_中午演唱会_班主任

310

231

8分19秒

30_尚硅谷_用户行为采集_项目经验_基准测试

400

232

2分46秒

31_尚硅谷_用户行为采集_项目经验_HDFS参数调优

290

233

10分34秒

32_尚硅谷_用户行为采集_项目经验_Yarn参数调优

360

234

9分41秒

33_尚硅谷_用户行为采集_Zookeeper安装

340

235

9分27秒

34_尚硅谷_用户行为采集_Zookeeper启动停止脚本

380

236

5分10秒

35_尚硅谷_用户行为采集_项目经验_登录式Shell和非登录式Shell

290

237

8分44秒

36_尚硅谷_用户行为采集_日志生成（上）

350

238

6分42秒

37_尚硅谷_用户行为采集_日志生成（下）

400

239

5分31秒

38_尚硅谷_用户行为采集_集群日志生成启动脚本

350

240

6分33秒

39_尚硅谷_用户行为采集_集群时间同步修改脚本

330

241

3分30秒

40_尚硅谷_用户行为采集_集群所有进程查看脚本

350

242

3分54秒

41_尚硅谷_用户行为采集_Flume安装

280

243

9分17秒

42_尚硅谷_用户行为采集_项目经验_Flume组成

370

244

12分11秒

43_尚硅谷_用户行为采集_Flume采集配置（上）

360

245

11分49秒

44_尚硅谷_用户行为采集_Flume采集配置（下）

400

246

2分23秒

45_尚硅谷_用户行为采集_Flume拦截器_回顾

370

247

8分21秒

46_尚硅谷_用户行为采集_Flume拦截器_单Event

400

248

3分20秒

47_尚硅谷_用户行为采集_Flume拦截器_启动日志校验

430

249

7分32秒

48_尚硅谷_用户行为采集_Flume拦截器_事件日志校验

310

250

4分22秒

49_尚硅谷_用户行为采集_Flume拦截器_多Event

300

251

8分50秒

50_尚硅谷_用户行为采集_Flume拦截器_分类型拦截器

320

252

5分55秒

51_尚硅谷_用户行为采集_Flume手动启动

420

253

7分25秒

52_尚硅谷_用户行为采集_Flume脚本启动

380

254

7分33秒

53_尚硅谷_用户行为采集_Flume脚本停止

410

255

7分1秒

54_尚硅谷_用户行为采集_Kafka安装

250

256

5分34秒

55_尚硅谷_用户行为采集_Kafka启动停止脚本

330

257

4分52秒

56_尚硅谷_用户行为采集_Flume_Kafka通道打通

350

258

6分54秒

57_尚硅谷_用户行为采集_项目经验_Kafka压力测试

420

259

3分0秒

58_尚硅谷_用户行为采集_项目经验_Kafka机器数量计算

330

260

6分35秒

59_尚硅谷_用户行为采集_消费Flume_组件选型

280

261

13分32秒

60_尚硅谷_用户行为采集_消费Flume_配置文件说明

330

262

5分24秒

61_尚硅谷_用户行为采集_消费Flume_启动脚本小文件演示

370

263

6分21秒

62_尚硅谷_用户行为采集_消费Flume_小文件解决

340

264

3分38秒

63_尚硅谷_用户行为采集_项目经验_内存优化

390

265

9分12秒

64_尚硅谷_用户行为采集_采集通道脚本

370

266

7分29秒

65_尚硅谷_用户行为采集_生成测试数据

440

267

3分8秒

66_尚硅谷_业务数据采集_简介

320

268

7分26秒

67_尚硅谷_业务数据采集_电商理论_电商业务流程

420

269

3分30秒

68_尚硅谷_业务数据采集_电商理论_Spu_Sku

340

270

6分48秒

69_尚硅谷_业务数据采集_电商理论_电商表结构

360

271

8分31秒

70_尚硅谷_业务数据采集_电商理论_电商表详解

430

272

12分47秒

71_尚硅谷_业务数据采集_MySQL安装

380

273

5分37秒

72_尚硅谷_业务数据采集_Sqoop官网说明

340

274

8分59秒

73_尚硅谷_业务数据采集_Sqoop安装

370

275

5分29秒

74_尚硅谷_业务数据采集_MySQL中初始化表

370

276

6分39秒

75_尚硅谷_业务数据采集_业务数据生成_配置文件说明

330

277

3分32秒

76_尚硅谷_业务数据采集_生成2天业务数据

390

278

14分21秒

77_尚硅谷_业务数据采集_同步策略（上）

390

279

17分25秒

78_尚硅谷_业务数据采集_同步策略（下）

330

280

4分24秒

79_尚硅谷_业务数据采集_分析表同步策略

390

281

11分35秒

80_尚硅谷_业务数据采集_脚本中前一天时间获取

380

282

16分46秒

81_尚硅谷_业务数据采集_Sqoop参数说明

330

283

6分21秒

82_尚硅谷_业务数据采集_Sqoop参数说明_回顾

340

284

9分18秒

83_尚硅谷_业务数据采集_Sqoop脚本_具体表同步策略

380

285

10分23秒

84_尚硅谷_业务数据采集_Sqoop脚本完成

340

286

2分31秒

85_尚硅谷_业务数据采集_Sqoop脚本执行

330

287

29分2秒

86_尚硅谷_业务数据采集_20200310数据导入过程

400

288

24分11秒

87_尚硅谷_业务数据采集_20200311数据导入过程

360

289

2分1秒

88_尚硅谷_业务数据采集_数据导入成功后查看

330

290

7分48秒

89_尚硅谷_业务数据采集_Hive安装

370

291

3分11秒

90_尚硅谷_业务数据采集_Tez框架原理

320

292

3分58秒

91_尚硅谷_业务数据采集_Tez解压安装

310

293

8分0秒

92_尚硅谷_业务数据采集_Tez集成Hive

390

294

6分41秒

93_尚硅谷_业务数据采集_Tez注意事项

390

295

8分57秒

94_尚硅谷_数仓理论_课程介绍

340

296

13分57秒

95_尚硅谷_数仓理论_数仓分层及好处（上）

330

297

7分54秒

96_尚硅谷_数仓理论_数仓分层及好处（下）

360

298

3分43秒

97_尚硅谷_数仓理论_数据集市与数据仓库概念

340

299

4分14秒

98_尚硅谷_数仓理论_命名规范

450

300

8分39秒

99_尚硅谷_数仓理论_范式概念

350

154_尚硅谷_数仓搭建_DWD层_拉链表理论

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐