文章/答案/技术大牛

发布

首页视频253_尚硅谷_即席查询_Kylin_cube构建原理

253_尚硅谷_即席查询_Kylin_cube构建原理

2022-12-022022-12-02 16:02:23播放31

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商数仓项目（含2.0、3.0版本）/尚硅谷数仓项目实战V2.0/视频/253_尚硅谷_即席查询_Kylin_cube构建原理.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
OK，那接下来咱们去看一下这个，呃，所谓的这个构建算法啊，呃，其实所谓构建算法其实就是这个MR到底是怎么回事，其实说白了就是它啊，那这个构建算法里边呢，咱这分了两小节，一个是这个逐层构建算法，还有一个是什么呢？还有一个是下边啊下边在哪我找一下。呃，还有一个叫做呃快速构建算法，那这两种算法，首先呃他们俩的这个最主要的区别是什么呢？诶第一个区别就是我们逐层高级算法呀，诶它是我们这个经典的mmr，就是咱们经典的MR就是而且是一串MR，一串MR就是咱们逐层高级算法。那快速关键算法呢，这边它有一个有一个那个关键字啊叫什么叫in memory，也就是in memory是不是就是在内存当中计算啊，对吧，那这其其实这个呢，其实也是MR也是MR，只不过呢，他对我们这个传统的MR呢，就是说诶这个做了一个，呃，做了一个改动，做了一个改进，做了一个改进啊然后他干什么呢？充分利用内存。充分利用，利用哪儿的内存呢？利用map端的内存，利用map端的内存啊，利用map的内存，然后也就是我所有的计算任务呢，诶，基本上都在这个map完成完了之后呢，再给他到reduce，再进行最终的汇总，呃，也就是说快速管理算法这边呢，只需要一层来玩。
01:17
只需要一层，就是只需要一个mmr，只要一个MR啊，那我们前面那些东西需要一串mmr，这是他俩一个最本质上的一个区别，但是呢，呃，虽然有这个区别，但是其实他们俩这个，呃，说白了这个算法啊，其实那也就是那个计算的逻辑啊，其实是一样的。他们俩的逻辑是一样的，而且这个逻辑呢，其实我们自己也能想到，我们也自己也能想到啊，那他的逻辑是什么样的呢？我们来看一下，看一下我之前给大家看的那个P那个PPT啊，来打开这个东西。大家看看这个地方啊，看这。大家还记得我画这个图吗？当咱们讲这个图的时候啊，咱们简单的给大家那个提过一嘴是吧，就是说我要想得到这个两种维度的，我怎么去得，是不是以这个三种维度的为基础，对不对，诶以它为基础，然后呢，你你不需要哪个维度，那我就对哪个维度进行降维，也就进行聚合，是不是啊，哎，咱是这么去做的，那同理，我要想得到一个维度怎么来，是不是以两个维度的为基础，给它进行进一步的这个降维或者聚合呀？
02:16
诶是这样的，其实那这个麒麟呢，它底层计算的时候，它它就是这么算的，它也是这么算的，就是先怎么样，先从原始数据当中，把所有维度的这种这个数据先给算出来，也就先得到最高维的这个qbo，然后呢再以最高维的qbod为基础，然后呢，继续往下进行降维，一层一层的降，然后降到两维，降到一维，那最后就完事了。这就是麒麟，就是甭管是什么逐层构建算法，还是刚才那个快速构建算法，他俩的思想都是这个思想，哎，只不过就是它那个实施的是不一样的，好，那我们现在去看一看这个，呃，两种算法，先看这个逐层。呃，构构建算法，先看逐层啊，来来看这个地方。
03:00
这个地方啊，来我们看看，那这边就是这个所谓的这个逐层构建算法，逐层构建算法，那这边画出来的是一个什么呢？画出来的就是一个完整的Q吧。这是一个Q吧cub，这是一个完整的Q吧，那这个完整的吧呢，它当中有什么东西，我们来看一看啊来我们来看一下。首先。这地方。这什么，这是这个，呃，第一层，第一层也是什么，这是那个最高维的那个q boy的。这里边的每一个小圈啊，每一个小圈都是一个q boy的，这是最高维的那个q boy的，那这边其实也对着呢，它最高是几维，最高是四维对吧，那也是我们去进行逐层构建的时候，我先算谁，我先从原始数据当中先算出来最高位的。对不对，也就算算出来这层，那这层完之后呢，我逐层往上算对不对，以它为基础算三维的，那三维里边有几个呢？是不是应该是C43 C3应该是四个吧，对不对，1234对不对，那上面呢，C42这是六个，然后C41这是四个，然后然后呢，它就这么一层一层的逐层往上算，逐层往上算，然后这个算的时候大家要注意了啊，就是说我们你看是不是每一层我都需要有一个M。
04:12
对不对，你看从原始数据到这一个mmr，四维到三维，一个三维到二维，一个是每一层都是一个mmr啊对吧，那这个其实是一个经典的mmr，一层一层的去算，一层去算，那这种算法它的特点是什么呢？特点很明显，特点就是稳定，是不是就是咱们因为这个mmr这个这个架构呢，已经非常的这个稳定了，已经非常稳定了啊但是它的缺点是什么呢？缺点就是诶慢呗，对不对，那慢体现在什么地方呢？111看，首先一大串的MR，那这个首先呃，我这个map结束要落盘，Reduce结束要落盘，对不对，那也就是它这个磁盘IO和网络IO时间会比较长，那其次还有什么呢？你你想一想啊，咱们这个map reduce。你是不是这个初始化一个任务也是需要一定的时间的呀，对不对，你初始化一个MR也要一定的时间的，所以说你MR越多，那我这个初始化所耗费的时间也会越多，那所以说这个呢，综合诶呃来说呢，它就特点就是慢，但是它比较稳定，比较稳定啊，这是咱们第一种这个所谓的逐层构建算法，然后在逐层构建算法里边呢，这边咱们还有一个这个零维的。
05:16
就是零维的这个东西啊，可能大家那个呃，想象不到它有什么意义，实际上呢，这个零维呢，确实也没有什么意义，这个所谓的零维是什么？所谓零维，所谓零维其实就是对这个原始数据的一个一个总的一个聚合吧，就是没有对任何字段进行分组，没有格入外任何字段，直接就是一个聚合函数，这就是所谓的零为。所谓的零围啊，那这个零围呢，我们就是说你可以把它算在这个QQB当中，诶你如果算在这里边呢，那咱们这个B就一共有多少个呀，是不是有一共有二的N次方个QY呀，对不对，如果你不考虑这个零为的话，那就是多少，那就二的N，二的二的N次方减一。是这样的，就是这边呢，跟大家说明一下这个情况，这个零维你考虑，那你就给他算上，其实它是一个什么东西，实际上就是一个最终完整的一个聚合值，没有任何的这个维度，那其实他也没有什么太多的意义，所以我们通常呢，也就不考虑它了，不考虑它那我们q boy的个数呢，就N2的N次方减一。
06:10
是这样的啊好，那也就是咱们逐层构计算法，就是一层以MR逐层的去算，呃逐层计算，那它这个MR里边的计算逻辑怎么样的呢？我们往下看啊给来看一下，我这呢画了一个PPT，咱看一看这个PPT就就明白了啊来。打开这个MR，打开这个PT啊，然后大家回忆一下我刚才说的那句话啊，我们那个什么东西呢？我们那个是不是在那个刚才讲一下那个，呃，麒麟的那个维度资源表啊，对不对，那维度资源表我什么时候用，我计算的时候其实用的就是维度资源表里边那些数字了，包括什么，包括我那个在麒麟当中，我存在那HP当中，我去存储存的也是那个，诶数字是这样，但计算用的也是数字。那我们来看一下这个计算的时候到底怎么算的啊，大家来看一下咱们这个MR1，这个二一呢，来来，那二一首先看一下它的输入啊，它卖不出的输入是什么？是KV，那K是什么？K其实就跟我们h base当跟跟跟我们h base当那个ROK其实就一样了。
07:08
跟那个rie其实就一样了啊，那你看一看我们这个rie怎么样的啊，我这个黄色部分呢，代表的是它的那个，呃，Q Bo的ID，那红色部分呢，代表它的维度值，那这个后边呢，就是它的value，就是它的value啊那我们现在要干什么，现在是不是要降维，它是不是要降维，那降维的时候怎么降？是不是以它为基主进行降维啊，怎么降怎么降。来，那我所谓的降维呢，是不是，哎，咱们可以把第一个维度去掉，那就得到了它，第二维度去掉得到它，第三个维度去掉它，得到它。是不是就完事了呀，就是这样了，那只需要这么去降就行，那这个value用不用改呢？值用不用变呢？值它是不用变的，值为什么不用变呢？你想一想我这条数据它属不属于这种，哎，这种维度组合里边的一元属于吧，那属于，那也就说这个值呢，它就不用变，它属于就不用变，就不用变了，那我其他这个降完维之后，跟他一样的东西，就是跟跟谁跟那个K一样的，是不是会跑到同一个reduce里边来呀，那我把这个value呢，我再进行聚合就可以了。
08:10
也Y6是不用变的啊，只需要直接降维就行，降维就行好，那也就是咱们这样一来的话，我就把三维的是不是降到两维了呀，对不对，那我两维的之后干什么？因为咱们是逐层构建一层一个MR对不对，那也就是reduce这边呢，我需要输出，那需要落盘，落完盘之后，那结果是不是还会被下一个MR读取到啊，对吧，那读进来的就是两维的数据了，两维的那两维之后要干什么，要降成一维，要降一维。那最终我们就得到了一维的数据了，那得到一维数据之后呢，那你想一想，我们现在是不是，诶是不是咱们现在已经有这个三维的有了，那两维的也有了，那一维的咱们也有了，对不对，那都有了之后，那剩下就容易了，我们把这个所有维度的组合这个结果呢，最终给它存到h base当中就可以了。最终给它存到h base当中就行了，那这样一来，那数据呢，就被跑到h base里边去了，那我们后续咱们再去这个查询的时候呢，去HP里查就行了，这就咱们所谓的逐层构建算法，那思想就是高维到低维，这一层一层去算，然后一层emr。
09:15
啊，这是逐层，那我们接下来看这个所谓的快速构建算法，那快速构建算法呀，跟逐层构建算法其实原理是一样的，原理一样啊，咱们打开。来看一下这个map，看这个map啊来，那咱这个map首先我们的输入是什么呢？输入是这个，也是以这个最高维为例啊，那咱们得到是最高维，得到是最高维，那OK，那最高维之后要干什么，要降维，那降维的时候跟前面的思想是一样的，跟前面的思想是一样的啊。就是说只要降为Y6是不用变的，那由它可以降到这样，那由它呢，可以降到这个。对不对，那这时候，呃，如果说我们要是按照刚才那个逐层高清算法来说呢，那这一部分要干什么，这这会去哪，这是不会进进到reduce。
10:01
对不对，那进到reduce，那你会干什么，什么样的会接接到同一个reduce，是不是你这个K相同呢，比如说他俩。这是不是K相同的，K相同的基本上一个reduce，然后我得干什么，我得聚合呀，因为2K相同我得聚合，那但是我现在。逐层这个快速惯性算法呢，我这边我不会进入到re，我仍然是在map当中，它充分利用map内存。他没有进入到reduce，那没有进入reduce，我这怎么办，我是不是就得在map这边进行这个聚合呀，就得在内存当中聚合了，OK，这时候呢，我们开始聚合，他俩进行聚合。好，那得到了一个这个最终的一个聚合值，那我从相同的K呢，我都会进行聚合的啊，我这只是画了一个延示一下，好，那聚合完之后，我就得到了两维的了，之后呢，诶是不是还得在以两维为基础进行降维得到三得到一维的呀，对不对，那同理一维里边相同的K也会在这儿进行聚合，也会进行聚合，那这样一来大家看一看啊，我不是在这一个map当中，我现在就既有三维的，也有两维的，也有一维的量，那咱们都有了，那都有之后，那你说我是不是就已经得到了这个最终的cube了呢？
11:11
对，因为我现在看似是我所有的维度组合我都有了，都有之后我是不是就可以直接把数据给他写到h base里边去了呢？其实还不行，为什么呢？我们这边还需要再来一个reduce。那诶有同学可能会疑问了，你这还有什么reduce啊，我这边是不是已经把这个把什么东西，我把我这个里边就是该聚合的东西，我已经在map端已经聚合完了，对不对，都聚合完了，为什么还要进行reduce呢？对不对，我map直接把这个结果，这个结果这个结果都输出不就完事了吗？为什么还要聚合这个可以想一想为什么。因为我们这边不可能只有一个map吧。对不对，因为读数去的时候，我可能还会有其他的map。对吧，那咱们这聚合，我只是把一个map当中相同的K聚合到一起了，对不对？那多个map之间是不是也可能会有相同的K啊，对吧？那它们之间怎么聚合，它们之间就只能是放到一个reduce里边去聚合了，那也就是咱们最后一层reduce，它的意义是干什么呢？是把多个map中的这个相同的K聚合到一起，那最终reduce这边它的输出才是最终的结果。
12:15
这才是最终结果啊，那这个结果输出完之后，也就是说咱们所有维度组合数据全部都有了，存到HP当中就完事了。这就是咱这个所谓的诶快速构建算法，那快速构建算法它的特点是什么呢？特点就是我是不是基于内存计算啊，诶那要求我这个资源是不是得充足，那其次呢，这种算法呢，它显然是没有咱们那个MR是稳定的，没有MR稳定是这样的啊，那这就是快速个性算法它的特点，那我们再去使用的时候，我们到底应该选用哪种构建算法呢？诶这边其实麒麟做的还是比较不错的啊它诶方便我们去使用。怎么方便呢？就是说我们是不需要去配置，我到底采用快速个算法还是逐层观算法，不需要配置，那我们麒麟再去计算的时候呢，它是智能的，自动的，根据咱们数据的计算量，因为他知道咱们有多少数据，对不对，然后呢，再结合集群当中现有的资源，它自己去权衡我到底应该采用哪种构建算法，如果适合快速，那我就用快速，适合那个咱们那个逐层，那我就用逐层。
13:19
实际上是自动去选择的，所以这边呢还是不错的，那我们要做的是什么，我们就是说我们了解这两种算法就可以了，咱们知道有这样的两种共应算法就可以了，那我们也不需要去配置了，好，那这边咱们就说完了啊，然后把视频录一下。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷数仓项目实战V2.0

（178/300）

10分15秒

01_尚硅谷_课程介绍

430

2分27秒

02_尚硅谷_数仓概念_业务数据

470

3分32秒

03_尚硅谷_数仓概念_用户行为数据

430

10分43秒

04_尚硅谷_数仓概念_数仓概述

420

8分31秒

05_尚硅谷_数仓架构_项目需求

410

3分33秒

06_尚硅谷_数仓架构_技术选型考虑因素

410

9分24秒

07_尚硅谷_数仓架构_技术选型

440

9分58秒

08_尚硅谷_数仓架构_数仓架构

350

11分55秒

09_尚硅谷_数仓架构_框架版本选型

370

6分18秒

100_尚硅谷_数仓理论_函数依赖

350

7分46秒

101_尚硅谷_数仓理论_三范式

360

11分46秒

102_尚硅谷_数仓理论_关系建模和维度建模

450

4分43秒

103_尚硅谷_数仓理论_维度表

400

28分2秒

104_尚硅谷_数仓理论_事实表

380

10分46秒

105_尚硅谷_数仓建模_ODS层

290

10分22秒

106_尚硅谷_数仓建模_DWD层_选择业务过程

350

15分8秒

107_尚硅谷_数仓建模_DWD层_声明粒度

380

16分53秒

108_尚硅谷_数仓建模_DWD层_确定维度

350

11分38秒

109_尚硅谷_数仓建模_DWD层_确定事实

340

8分34秒

10_尚硅谷_数仓架构_服务器选型

350

19分5秒

110_尚硅谷_数仓建模_DWS层_DWT层_ADS层

350

6分21秒

111_尚硅谷_数仓建模_总结

370

3分43秒

112_尚硅谷_数仓搭建_ODS层_要做哪些事

350

3分22秒

113_尚硅谷_数仓搭建_ODS层_创建数据库

340

6分43秒

114_尚硅谷_数仓搭建_ODS层_启动日志处理分析

340

10分29秒

115_尚硅谷_数仓搭建_ODS层_启动日志处理实现

410

5分36秒

116_尚硅谷_数仓搭建_ODS层_事件日志处理

370

5分46秒

117_尚硅谷_数仓搭建_ODS层_单引号和双引号区别

440

11分28秒

118_尚硅谷_数仓搭建_ODS层_用户行为数据脚本编写

320

3分9秒

119_尚硅谷_数仓搭建_ODS层_脚本问题解决

270

7分56秒

11_尚硅谷_数仓架构_集群规模

370

10分14秒

120_尚硅谷_数仓搭建_ODS层_业务数据创建表

310

12分18秒

121_尚硅谷_数仓搭建_ODS层_业务数据脚本编写

320

15分3秒

122_尚硅谷_数仓搭建_DWD层_启动日志表

400

6分15秒

123_尚硅谷_数仓搭建_DWD层_启动日志表脚本

380

13分34秒

124_尚硅谷_数仓搭建_DWD层_事件日志表解析分析

410

59秒

125_尚硅谷_数仓搭建_DWD层_事件日志表建表

380

4分33秒

126_尚硅谷_数仓搭建_DWD层_自定义UDF函数分析

300

8分56秒

127_尚硅谷_数仓搭建_DWD层_自定义UDF函数_创建工程

360

15分28秒

128_尚硅谷_数仓搭建_DWD层_自定义UDF函数_代码编写

470

4分29秒

129_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_分析

330

8分26秒

12_尚硅谷_数仓架构_集群具体规划

360

16分28秒

130_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_实现（上）

370

8分31秒

131_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_实现（下）

400

10分57秒

132_尚硅谷_数仓搭建_DWD层_解析事件日志

360

9分37秒

133_尚硅谷_数仓搭建_DWD层_解析脚本

320

15分43秒

134_尚硅谷_数仓搭建_DWD层_事件日志（3月10日完成）

290

4分27秒

135_尚硅谷_数仓搭建_DWD层_事件日志脚本（3月11日完成）

330

14分1秒

136_尚硅谷_数仓搭建_DWD层_业务_商品维度（上）

350

10分39秒

137_尚硅谷_数仓搭建_DWD层_业务_商品维度（下）

320

1分46秒

138_尚硅谷_数仓搭建_DWD层_业务_优惠卷维度

350

8分59秒

139_尚硅谷_数仓搭建_DWD层_业务_活动维度

360

7分8秒

13_尚硅谷_用户行为采集_公共字段格式

260

2分7秒

140_尚硅谷_数仓搭建_DWD层_回顾

390

10分1秒

141_尚硅谷_数仓搭建_DWD层_地区维度

290

7分18秒

142_尚硅谷_数仓搭建_DWD层_时间维度

330

16分26秒

143_尚硅谷_数仓搭建_DWD层_订单明细事实表

370

11分58秒

144_尚硅谷_数仓搭建_DWD层_支付事实表

340

5分19秒

145_尚硅谷_数仓搭建_DWD层_退款事实表

380

3分58秒

146_尚硅谷_数仓搭建_DWD层_评论事实表

430

16分38秒

147_尚硅谷_数仓搭建_DWD层_加购事实表

300

3分35秒

148_尚硅谷_数仓搭建_DWD层_收藏事实表

310

29分16秒

149_尚硅谷_数仓搭建_DWD层_优惠卷事实表分析

330

8分1秒

14_尚硅谷_用户行为采集_事件字段格式

420

14分4秒

150_尚硅谷_数仓搭建_DWD层_优惠卷事实表完成

330

6分34秒

151_尚硅谷_数仓搭建_DWD层_基本函数

350

25分2秒

152_尚硅谷_数仓搭建_DWD层_订单事实表分析

320

19分23秒

153_尚硅谷_数仓搭建_DWD层_订单事实表完成

400

20分43秒

154_尚硅谷_数仓搭建_DWD层_拉链表理论

330

16分41秒

155_尚硅谷_数仓搭建_DWD层_拉链表实操

340

16分20秒

156_尚硅谷_数仓搭建_DWD层_脚本编写

410

9分34秒

157_尚硅谷_数仓搭建_DWS层_业务术语（上）

400

9分7秒

158_尚硅谷_数仓搭建_DWS层_业务术语（下）

320

13分48秒

159_尚硅谷_数仓搭建_DWS层_基本函数

360

10分9秒

15_尚硅谷_用户行为采集_事件日志（上）

380

5分41秒

160_尚硅谷_数仓搭建_DWS层_DWS_DWT_ADS介绍

300

17分43秒

161_尚硅谷_数仓搭建_DWS层_每日设备行为宽表

310

12分38秒

162_尚硅谷_数仓搭建_DWT层_设备主题_分析

310

23分17秒

163_尚硅谷_数仓搭建_DWT层_设备主题_实现

450

29分12秒

164_尚硅谷_数仓搭建_DWS层_会员行为宽表

360

28分2秒

165_尚硅谷_数仓搭建_DWT层_会员主题宽表

390

10分32秒

166_尚硅谷_数仓搭建_DWS层_商品主题宽表

330

14分33秒

167_尚硅谷_数仓搭建_DWT层_商品主题

370

10分4秒

168_尚硅谷_数仓搭建_DWS层_优惠卷及活动宽表

470

3分55秒

169_尚硅谷_数仓搭建_DWS层_每日购买行为宽表

320

10分19秒

16_尚硅谷_用户行为采集_事件日志（下）

360

29分22秒

170_尚硅谷_数仓搭建_数仓架构回顾

400

16分57秒

171_尚硅谷_数仓搭建_ADS_活跃设备数

340

1分58秒

172_尚硅谷_数仓搭建_ADS_新增设备数

330

3分4秒

173_尚硅谷_数仓搭建_ADS_沉默用户

360

18分6秒

174_尚硅谷_数仓搭建_ADS_活跃设备讲解

340

10分1秒

175_尚硅谷_数仓搭建_ADS_新增设备讲解

340

5分59秒

176_尚硅谷_数仓搭建_ADS_沉默设备讲解

270

3分44秒

177_尚硅谷_数仓搭建_ADS_本周回流设备需求分析

370

2分6秒

178_尚硅谷_数仓搭建_ADS_流失设备需求分析

430

5分42秒

179_尚硅谷_数仓搭建_ADS_留存率需求分析

260

2分42秒

17_尚硅谷_用户行为采集_启动日志

320

4分0秒

180_尚硅谷_数仓搭建_ADS_连续需求分析

430

6分50秒

181_尚硅谷_数仓搭建_ADS_dwt_sku_topic_纠错

340

100

21分59秒

182_尚硅谷_数仓搭建_ADS_本周回流用户

360

101

3分21秒

183_尚硅谷_数仓搭建_ADS_流失用户

380

102

8分40秒

184_尚硅谷_数仓搭建_ADS_留存率_思路分析

340

103

15分23秒

185_尚硅谷_数仓搭建_ADS_留存率_编码

390

104

11分52秒

186_尚硅谷_数仓搭建_ADS_连续三周活跃

280

105

2分51秒

187_尚硅谷_数仓搭建_ADS_本周回流_补充

350

106

21分9秒

188_尚硅谷_数仓搭建_ADS_最近7天连续3天_思路一

370

107

6分54秒

189_尚硅谷_数仓搭建_ADS_最近7天连续3天_思路二

340

108

14分42秒

18_尚硅谷_用户行为采集_日志生成_分析

370

109

3分33秒

190_尚硅谷_数仓搭建_ADS_会员主题信息_需求分析

350

110

3分27秒

191_尚硅谷_数仓搭建_ADS_漏斗分析_需求分析

330

111

3分9秒

192_尚硅谷_数仓搭建_ADS_商品销量TopN_需求分析

350

112

1分9秒

193_尚硅谷_数仓搭建_ADS_商品收藏TopN_需求分析

340

113

11分40秒

194_尚硅谷_数仓搭建_ADS_会员信息统计

400

114

18分56秒

195_尚硅谷_数仓搭建_ADS_漏斗分析

340

115

6分54秒

196_尚硅谷_数仓搭建_ADS_商品个数统计

410

116

7分4秒

197_尚硅谷_数仓搭建_ADS_销量_收藏_TopN

410

117

1分12秒

198_尚硅谷_数仓搭建_ADS_商品加购_需求分析

360

118

2分25秒

199_尚硅谷_数仓搭建_ADS_商品退款率_需求分析

370

119

14分4秒

19_尚硅谷_用户行为采集_日志生成_代码说明

310

120

1分43秒

200_尚硅谷_数仓搭建_ADS_商品差评率_需求分析

450

121

4分45秒

201_尚硅谷_数仓搭建_ADS_下单数目统计_需求分析

370

122

6分43秒

202_尚硅谷_数仓搭建_ADS_支付信息统计_需求分析

330

123

8分23秒

203_尚硅谷_数仓搭建_ADS_复购率_需求分析

370

124

5分24秒

204_尚硅谷_数仓搭建_ADS_画图软件

450

125

1分54秒

205_尚硅谷_数仓搭建_ADS_商品加购排行

380

126

8分8秒

206_尚硅谷_数仓搭建_ADS_商品退款率排行

390

127

3分5秒

207_尚硅谷_数仓搭建_ADS_商品差评率排行

340

128

6分2秒

208_尚硅谷_数仓搭建_ADS_下单信息统计

370

129

15分4秒

209_尚硅谷_数仓搭建_ADS_支付信息统计

370

130

7分10秒

20_尚硅谷_用户行为采集_日志生成_LogBack配置

410

131

18分48秒

210_尚硅谷_数仓搭建_ADS_复购率

390

132

9分38秒

211_尚硅谷_任务调度_Azkaban_工作流程分析

470

133

10分34秒

212_尚硅谷_任务调度_Azkaban_部署_准备

280

134

15分33秒

213_尚硅谷_任务调度_Azkaban_部署_配置

310

135

5分52秒

214_尚硅谷_任务调度_Azkaban_MySQL建库建表

420

136

14分41秒

215_尚硅谷_任务调度_Azkaban_Sqoop导出脚本

370

137

14分26秒

216_尚硅谷_任务调度_Azkaban_数据准备

350

138

10分20秒

217_尚硅谷_任务调度_Azkaban_Job文件

410

139

4分4秒

218_尚硅谷_任务调度_Azkaban_Shell脚本准备

420

140

5分54秒

219_尚硅谷_任务调度_Azkaban_定时调度

410

141

5分34秒

21_尚硅谷_用户行为采集_虚拟机克隆

410

142

4分13秒

220_尚硅谷_任务调度_Azkaban_调度结果

380

143

12分19秒

221_尚硅谷_任务调度_Azkaban_拉链表复习

380

144

7分12秒

222_尚硅谷_任务调度_Azkaban_商品主题宽表纠错

370

145

4分30秒

223_尚硅谷_任务调度_Azkaban_任务重跑问题

440

146

7分6秒

224_尚硅谷_数据可视化_Superset

400

147

6分28秒

225_尚硅谷_数据可视化_Superset_miniconda介绍

250

148

7分26秒

226_尚硅谷_数据可视化_Superset_miniconda安装

350

149

4分35秒

227_尚硅谷_数据可视化_Superset_Python环境创建

320

150

6分13秒

228_尚硅谷_数据可视化_Superset_安装

320

151

4分27秒

229_尚硅谷_数据可视化_Superset_配置

390

152

9分45秒

22_尚硅谷_用户行为采集_虚拟机配置

350

153

6分59秒

230_尚硅谷_数据可视化_Superset_启停

400

154

5分39秒

231_尚硅谷_数据可视化_Superset_对接MySQL安装依赖

330

155

5分50秒

232_尚硅谷_数据可视化_Superset_对接MySQL数据源配置

430

156

10分26秒

233_尚硅谷_数据可视化_Superset_对接MySQL配置仪表盘_图形

300

157

2分40秒

234_尚硅谷_数据可视化_Superset_对接MySQL配置仪表盘

370

158

3分50秒

235_尚硅谷_数据可视化_Superset_补充

300

159

6分54秒

236_尚硅谷_即席查询_概述

360

160

6分8秒

237_尚硅谷_即席查询_Kylin_概述

350

161

29分50秒

238_尚硅谷_即席查询_Kylin_前置知识

310

162

17分40秒

239_尚硅谷_即席查询_Kylin_架构_特点

360

163

5分59秒

23_尚硅谷_用户行为采集_JDK安装

260

164

11分19秒

240_尚硅谷_即席查询_Kylin_部署_HBase

420

165

5分26秒

241_尚硅谷_即席查询_Kylin_部署_解压

340

166

3分21秒

242_尚硅谷_即席查询_Kylin_部署_环境变量

320

167

4分41秒

243_尚硅谷_即席查询_Kylin_部署_启动准备

380

168

2分59秒

244_尚硅谷_即席查询_Kylin_部署_启动

290

169

5分56秒

245_尚硅谷_即席查询_Kylin_部署_启动错误_解决方案

350

170

17分7秒

246_尚硅谷_即席查询_Kylin_使用_定义model

380

171

14分49秒

247_尚硅谷_即席查询_Kylin_使用_定义cube

340

172

16分55秒

248_尚硅谷_即席查询_Kylin_使用_重复key问题解决

370

173

7分26秒

249_尚硅谷_即席查询_Kylin_Hadoop历史服务器问题原因

370

174

6分14秒

24_尚硅谷_用户行为采集_Hadoop安装及配置前准备

350

175

7分26秒

250_尚硅谷_即席查询_Kylin_查询

410

176

15分41秒

251_尚硅谷_即席查询_Kylin_定时调度脚本

380

177

10分37秒

252_尚硅谷_即席查询_Kylin_cube存储原理

310

178

13分33秒

253_尚硅谷_即席查询_Kylin_cube构建原理

310

179

13分53秒

254_尚硅谷_即席查询_Kylin_cube_优化_聚合组

420

180

11分52秒

255_尚硅谷_即席查询_Kylin_cube_优化_衍生维度

330

181

13分14秒

256_尚硅谷_即席查询_Kylin_cube_优化_Rowkey设计

450

182

5分32秒

257_尚硅谷_即席查询_Kylin_cube_优化_并发粒度优化

280

183

13分41秒

258_尚硅谷_即席查询_Kylin_cube_BI对接_JDBC

320

184

10分50秒

259_尚硅谷_即席查询_Kylin_cube_BI对接_Zeppelin

380

185

12分51秒

25_尚硅谷_用户行为采集_Hadoop集群配置

330

186

21分29秒

260_尚硅谷_即席查询_Presto_概念

440

187

16分38秒

261_尚硅谷_即席查询_Presto_部署_Server

340

188

2分15秒

262_尚硅谷_即席查询_Presto_启动_Server

370

189

14分26秒

263_尚硅谷_即席查询_Presto_部署_命令行客户端

370

190

7分39秒

264_尚硅谷_即席查询_Presto_部署_可视化客户端

380

191

17分52秒

265_尚硅谷_即席查询_Presto_使用注意事项

370

192

13分6秒

266_尚硅谷_即席查询_Druid_概述

370

193

14分24秒

267_尚硅谷_即席查询_Druid_对比

410

194

17分40秒

268_尚硅谷_即席查询_Druid_架构

340

195

5分8秒

269_尚硅谷_即席查询_Druid_数据结构

370

196

2分42秒

26_尚硅谷_用户行为采集_项目经验_HDFS多目录

410

197

9分17秒

270_尚硅谷_即席查询_Druid_部署

290

198

12分35秒

271_尚硅谷_即席查询_Druid_使用

370

199

5分23秒

272_尚硅谷_集群监控_Zabbix_概述

380

200

8分42秒

273_尚硅谷_集群监控_Zabbix_架构

350

201

2分15秒

274_尚硅谷_集群监控_Zabbix_部署_说明

340

202

4分18秒

275_尚硅谷_集群监控_Zabbix_部署_Server节点_准备

380

203

10分17秒

276_尚硅谷_集群监控_Zabbix_部署_Server节点_创建用户_建库建表

350

204

10分44秒

277_尚硅谷_集群监控_Zabbix_部署_Server节点_编译环境准备

360

205

3分52秒

278_尚硅谷_集群监控_Zabbix_部署_Server节点_编译及安装

340

206

3分50秒

279_尚硅谷_集群监控_Zabbix_部署_Server节点_配置

380

207

2分59秒

27_尚硅谷_用户行为采集_项目经验_节点间数据均衡

320

208

26分23秒

280_尚硅谷_集群监控_Zabbix_部署_Server节点_系统服务脚本编写

370

209

11分6秒

281_尚硅谷_集群监控_Zabbix_部署_Server节点_web部署

470

210

4分54秒

282_尚硅谷_集群监控_Zabbix_部署_Server节点_启动

390

211

7分17秒

283_尚硅谷_集群监控_Zabbix_部署_Server节点_web

390

212

8分14秒

284_尚硅谷_集群监控_Zabbix_部署_Agent_节点部署

350

213

7分54秒

285_尚硅谷_集群监控_Zabbix_使用_术语

310

214

8分16秒

286_尚硅谷_集群监控_Zabbix_使用_创建主机

340

215

14分38秒

287_尚硅谷_集群监控_Zabbix_使用_创建监控项

440

216

6分32秒

288_尚硅谷_集群监控_Zabbix_使用_创建触发器

340

217

8分56秒

289_尚硅谷_集群监控_Zabbix_使用_创建动作

310

218

9分12秒

28_尚硅谷_用户行为采集_项目经验_配置LZO压缩

400

219

15分13秒

290_尚硅谷_集群监控_Zabbix_使用_通知媒介配置

400

220

3分30秒

291_尚硅谷_集群监控_Zabbix_使用_全流程测试

290

221

14分10秒

292_尚硅谷_集群监控_Zabbix_使用_创建模板

360

222

3分52秒

293_尚硅谷_元数据管理_Atlas_课程背景

420

223

8分15秒

294_尚硅谷_元数据管理_Atlas_课程介绍

300

224

6分40秒

295_尚硅谷_元数据管理_Atlas_架构原理

380

225

13分15秒

296_尚硅谷_元数据管理_Atlas_辅助框架安装

390

226

19分33秒

297_尚硅谷_元数据管理_Atlas_登录后配置

310

227

25分9秒

298_尚硅谷_元数据管理_Atlas_配置并启动

400

228

3分3秒

299_尚硅谷_元数据管理_Atlas_执行效果

330

229

9分20秒

29_尚硅谷_用户行为采集_项目经验_LZO创建索引

320

230

1分15秒

300_尚硅谷_中午演唱会_班主任

310

231

8分19秒

30_尚硅谷_用户行为采集_项目经验_基准测试

400

232

2分46秒

31_尚硅谷_用户行为采集_项目经验_HDFS参数调优

290

233

10分34秒

32_尚硅谷_用户行为采集_项目经验_Yarn参数调优

360

234

9分41秒

33_尚硅谷_用户行为采集_Zookeeper安装

340

235

9分27秒

34_尚硅谷_用户行为采集_Zookeeper启动停止脚本

380

236

5分10秒

35_尚硅谷_用户行为采集_项目经验_登录式Shell和非登录式Shell

290

237

8分44秒

36_尚硅谷_用户行为采集_日志生成（上）

350

238

6分42秒

37_尚硅谷_用户行为采集_日志生成（下）

400

239

5分31秒

38_尚硅谷_用户行为采集_集群日志生成启动脚本

350

240

6分33秒

39_尚硅谷_用户行为采集_集群时间同步修改脚本

330

241

3分30秒

40_尚硅谷_用户行为采集_集群所有进程查看脚本

350

242

3分54秒

41_尚硅谷_用户行为采集_Flume安装

280

243

9分17秒

42_尚硅谷_用户行为采集_项目经验_Flume组成

370

244

12分11秒

43_尚硅谷_用户行为采集_Flume采集配置（上）

360

245

11分49秒

44_尚硅谷_用户行为采集_Flume采集配置（下）

400

246

2分23秒

45_尚硅谷_用户行为采集_Flume拦截器_回顾

370

247

8分21秒

46_尚硅谷_用户行为采集_Flume拦截器_单Event

400

248

3分20秒

47_尚硅谷_用户行为采集_Flume拦截器_启动日志校验

430

249

7分32秒

48_尚硅谷_用户行为采集_Flume拦截器_事件日志校验

310

250

4分22秒

49_尚硅谷_用户行为采集_Flume拦截器_多Event

300

251

8分50秒

50_尚硅谷_用户行为采集_Flume拦截器_分类型拦截器

320

252

5分55秒

51_尚硅谷_用户行为采集_Flume手动启动

420

253

7分25秒

52_尚硅谷_用户行为采集_Flume脚本启动

380

254

7分33秒

53_尚硅谷_用户行为采集_Flume脚本停止

410

255

7分1秒

54_尚硅谷_用户行为采集_Kafka安装

250

256

5分34秒

55_尚硅谷_用户行为采集_Kafka启动停止脚本

330

257

4分52秒

56_尚硅谷_用户行为采集_Flume_Kafka通道打通

350

258

6分54秒

57_尚硅谷_用户行为采集_项目经验_Kafka压力测试

420

259

3分0秒

58_尚硅谷_用户行为采集_项目经验_Kafka机器数量计算

330

260

6分35秒

59_尚硅谷_用户行为采集_消费Flume_组件选型

280

261

13分32秒

60_尚硅谷_用户行为采集_消费Flume_配置文件说明

330

262

5分24秒

61_尚硅谷_用户行为采集_消费Flume_启动脚本小文件演示

370

263

6分21秒

62_尚硅谷_用户行为采集_消费Flume_小文件解决

340

264

3分38秒

63_尚硅谷_用户行为采集_项目经验_内存优化

390

265

9分12秒

64_尚硅谷_用户行为采集_采集通道脚本

370

266

7分29秒

65_尚硅谷_用户行为采集_生成测试数据

440

267

3分8秒

66_尚硅谷_业务数据采集_简介

320

268

7分26秒

67_尚硅谷_业务数据采集_电商理论_电商业务流程

420

269

3分30秒

68_尚硅谷_业务数据采集_电商理论_Spu_Sku

340

270

6分48秒

69_尚硅谷_业务数据采集_电商理论_电商表结构

360

271

8分31秒

70_尚硅谷_业务数据采集_电商理论_电商表详解

430

272

12分47秒

71_尚硅谷_业务数据采集_MySQL安装

380

273

5分37秒

72_尚硅谷_业务数据采集_Sqoop官网说明

340

274

8分59秒

73_尚硅谷_业务数据采集_Sqoop安装

370

275

5分29秒

74_尚硅谷_业务数据采集_MySQL中初始化表

370

276

6分39秒

75_尚硅谷_业务数据采集_业务数据生成_配置文件说明

330

277

3分32秒

76_尚硅谷_业务数据采集_生成2天业务数据

390

278

14分21秒

77_尚硅谷_业务数据采集_同步策略（上）

390

279

17分25秒

78_尚硅谷_业务数据采集_同步策略（下）

330

280

4分24秒

79_尚硅谷_业务数据采集_分析表同步策略

390

281

11分35秒

80_尚硅谷_业务数据采集_脚本中前一天时间获取

380

282

16分46秒

81_尚硅谷_业务数据采集_Sqoop参数说明

330

283

6分21秒

82_尚硅谷_业务数据采集_Sqoop参数说明_回顾

340

284

9分18秒

83_尚硅谷_业务数据采集_Sqoop脚本_具体表同步策略

380

285

10分23秒

84_尚硅谷_业务数据采集_Sqoop脚本完成

340

286

2分31秒

85_尚硅谷_业务数据采集_Sqoop脚本执行

330

287

29分2秒

86_尚硅谷_业务数据采集_20200310数据导入过程

400

288

24分11秒

87_尚硅谷_业务数据采集_20200311数据导入过程

360

289

2分1秒

88_尚硅谷_业务数据采集_数据导入成功后查看

330

290

7分48秒

89_尚硅谷_业务数据采集_Hive安装

370

291

3分11秒

90_尚硅谷_业务数据采集_Tez框架原理

320

292

3分58秒

91_尚硅谷_业务数据采集_Tez解压安装

310

293

8分0秒

92_尚硅谷_业务数据采集_Tez集成Hive

390

294

6分41秒

93_尚硅谷_业务数据采集_Tez注意事项

390

295

8分57秒

94_尚硅谷_数仓理论_课程介绍

340

296

13分57秒

95_尚硅谷_数仓理论_数仓分层及好处（上）

330

297

7分54秒

96_尚硅谷_数仓理论_数仓分层及好处（下）

360

298

3分43秒

97_尚硅谷_数仓理论_数据集市与数据仓库概念

340

299

4分14秒

98_尚硅谷_数仓理论_命名规范

450

300

8分39秒

99_尚硅谷_数仓理论_范式概念

350

253_尚硅谷_即席查询_Kylin_cube构建原理

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐