文章/答案/技术大牛

发布

首页视频267-尚硅谷-即席查询-Kylin原理之Cube构建原理

267-尚硅谷-即席查询-Kylin原理之Cube构建原理

2022-12-022022-12-02 16:02:24播放32

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商数仓项目（含2.0、3.0版本）/尚硅谷数仓项目实战V3.0/视频/267-尚硅谷-即席查询-Kylin原理之Cube构建原理.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们看这个cube的构建算法，Cube的构建算法呢，在秦岭里边拥有两种啊，一种叫做逐层构建算法by layer啊layer是不是逐层啊，那还有一种呢，叫做往下拉。叫做快速构建算法，那小括号呢，是in memory in memory啊啊in memory，那in memory就是相应该是啥呀，是不是基于内存呀，对吧，有这样的两种构建算法啊，那这两种做的算法呢，我们来分别来看一下啊，我们先看上面那个。啊，这是它逐层构建算法的这个示意图。啊，这个所谓的逐层，这个层指的是什么呀。层指的就是维啊，我一维有四维的就是一层，三维是另一层，在二维是不是另一层呀，对吧，那他算的时候你看他怎么算呢？啊，这是不是原始数据，原数据就是从还有当中那边直接对接过来的明细数据，对吧？星型啊，那个模型或者是群号模型啊，这是最明细的数据，然后呢，我是不是得先算最高维，之前咱们分析过，要算的话得先算最高最高维嘛，OK，最高位算出来了，那完之后呢算。
01:07
降维降维降是不是这是这样的一个过程啊，对吧，然后你注意观察他每次降维那都是跑了一个啥。都是一个M6是吧，对不对，这就是所谓的逐层构计算法，就是每降一维就跑一个MR，每降一维就跑一个MR。啊，那所以说这种算法它的特点很显然就是啥呀。第一个特点就是慢，肯定会比较慢，对吧，那这个是不是我有几维我就得跑几个跑跑几个M码啊，对吧，那我现在是四维，四维跑了几个呀，12345个啊，那如果说我要是十维呢，我就得跑十个11个MR对吧？那11个MR它是怎么提交的是不是。依次提交啊，因为是不是每个MR之间是有前后的依赖关系的呀，你不能并行的跑啊，你不能避了，所以说这个速度肯定会比较慢，但是呢，它肯定会比较稳定啊，算法肯定比较稳定，为啥呀。
02:02
你想一想啊，那我每一层实际上我所执行的逻辑都是相同的，只不过这是从四维降到三维，这个三维降到二维，其实每一层的逻辑都是相同的，对不对啊，而且每一层我这个MR所负责的工作呢，也没有那么多啊，我不会占用太多的内存资源，这个跑起来呢，相对稳定啊，无需太多的资源。啊，这是逐层构建算法啊，它的特点就是慢，但是稳定，那下边这一种呢，快速构建，那快速构建in memory，它显然就是比较快，然后呢，它的特点就是基于内存啊，基于内存。啊，那那大家看这个示意图啊，你会发现啊，实际上那这个逐层这个快速段算法呀，你会发现啊，这个是什么？呃，这边应该是有一个原始的数据啊，是咱们对原始数据对不对，对原始数据之后呢，然后直接怎么办？是不是通过咱们买MR，是不是也是跑MR啊，那通过首先是不是map去读取咱们原始数据，一个map一部分对吧，那之后呢，是不是下边经过。
03:05
Cube。不的，同时在cube在在构建对吧，在构建，那构建完之后呢，这是不是有一个最终的一个more salt，这相当就是啥呀，是沙啊，就是沙Le，那也就相当于这个过程就是一个什么，就是一轮MR，或是不是map，这会是不是reduce map reduce最终得到最终的结果，也就是你会发现啊，那这个in memory快速构建算法呢，只跑了一轮MR。对不对啊，那一轮MR我是不是需要去进行降维啊，对吧，你看啊。就是甭管它是逐层的还是快速构建算法，它这个核心的计算思想是其上是一样的，我到底怎么做，是不是都得先算最高维，再依次降维，都是这么做的，核心思想都一样，只不过呢，咱们逐层我是每降一维，我就用一个mmr，那这个in memory，这个快速构建呢，我降维的时候怎么降的呀？我相当于是在哪儿啊，在map端。
04:02
在map端进行数据的降维。啊在map端在卖，当然你要价位得怎么办呀，是不是得基于内存呀，对吧，那所以说呢，这个快速构建算法呢，它所占用的内存是比较多的，哪一端占用内存是比较多的呢？是map端。啊，Map端占用内存是比较多的啊，是这样的，也是果大部分的计算工作呢，是在map端完成的啊，那这种算法的特点呢，就是快啊，它不用提交那么多的MR对不对啊，那它的特缺点就是啥呀，就是我需要大量的内存资源，我相对呢没有那么稳定啊，这两种对比啊，那咱们刚刚简单对比了一下两种这个算法的一个特点啊，那这时候呢，我们通过一个PPT啊，去了解一下这两种算法底层的逻辑是怎么样的啊。先看第一种逐层构进算法啊，这就一层1MR那种啊，好，那大家看一下，那这个我画了两个mmr啊，这不是两层对吧，两层，那我们先看第一个mmr，它得到的数据是啥啊，那他得到的数据呢是。
05:03
这是这是什么呀？这是三维的吧，能看懂吧，黄色的是Q的ID，那是维度值啊，这是三维的，那三维我需要怎么做。无效怎么做，我是不是要降到两维啊，对吧？那这个怎么降维，这个所谓的降维在MR当中具体应该怎么实现呢？所谓的降维。怎么降啊？其实所谓的降维就是干啥？所以降干啥，比如说我三维是不是要得到两维啊，对不对，那你三维得到两维，那你两维的有几种情况。三种情况对吧，你可以什么，可以是110也可以啥。101还可以什么011，是不是这三种情况对不对，那你所谓的降维就是干什么呀。所以结尾就是啥。所以比如说我要从三维，我要得到这个二维的数据，对吧，那你就是把把把把什么样的数据聚合到，是不是得肯定得聚合对不对，把什么样的聚合到一起，是不是把前两个维度相同的数据是不是聚合到一起，对不对，我是不是不管你第三个维度是啥，你只要前两个维度相同，我是不是就要聚合到一起，这是不是就是进行所谓的降维，没错吧，对不对啊，那我问一下大家啊，我们这个map，我怎么能够将前两个维度相同的数据聚合到一起呢？
06:28
怎么能聚合到一起？你要想让它聚合到一起，是不是首先得保证它能够进入到同一个reduce才行？没错吧，那他怎么样能进到同一个reduce呢？K相同的数据是不是会进到一个reduce，对不对，那所以说我们要想将这个前两个维度相同的数据聚合到一起，我们首先得保证那前两个维度相同的数据啊，我得把它的K先给它变成一样的，对不对，那谁是K啊？这是不是就是K，这这是不是就是Y6，因为M2当中是不是就是K和Y6啊，对吧，这就是Y，这就是K，这是Y6，那你说这个怎么把它这个K相，就是前两个维度相同的数据，怎么样能够把它的K变成一样的呀。
07:08
怎么变成一样，是不是把第三个维度给它去掉就行了。对不对，第三个维度去掉，是不是就剩下前两个维度了，那前两个维度相同的数据是不是就跑到同样的reduce里边去了呀，是不是就这样一个逻辑啊，那怎么去掉啊，很简单啊，那这边你就相当于去一个维度怎么去啊，是不是留下一。一这个是几了？第三维度去掉是不是就是零了呀，第三维度没有了嘛，对吧，那后边是啥呀，是不是就是零零。没错吧，啊，那这样一来，我这个数据呢，诶就能够进入到相同的这个诶里边了啊进入下相同里边了，当然这个呢，我是哎011啊，那这个是101，这个是110啊那这样一来的话，你把每个三维的数据我都给它分别去掉一个，呃，分别去掉第一个第二个第三个维度，那他们是不是相同的这个数据就跑到同样的一个组里边去了呀，啊实际上就这样的一个逻辑啊，就是你降维的时候呢，就是把每一条数据都分别去给它去掉一个维度，去掉第一个，去掉第二个，去掉第三个，然后每条数据我是不是都这样去做呀，每条都样去做，那相同的这个这个这个K的数据是不是跑到同样的reduce里边去了呀，对不对，那你跑到同样的reduce，你就进行聚合就可以了，那这个诶就是相当于就是咱们这个所谓的降维啊，所谓的降维就是去掉一个维度，去掉一个维度之后，我K相同的，那就是放在一块给它聚合就行了，那你就得到二维的数据了。
08:36
这就是所谓的降维啊，这个Y6呢是不用变的啊，Y6是不用变的啊，Y6呢，你聚合就可以了啊，这就是所谓的降维啊，啊，那这个相当于是从三维是不是降到两维了，那三维降到两维之后，我还得怎么做，我还从二维是不是降到一维啊对吧？那我因为逐层构建算法，一层一个mmr，那这时候两维的数据需要怎么做，需要落盘嘛，啊落盘之后下一个MR是不是再从HD上读取这个文件再去进行计算呀，对吧？那相当于下一个MR呢，我得到的就是两维的数据了，那两维的数据得到之后，我是不是也要降维，那降维其实也是一样的做法，是不是还是在继续去掉维度就行了呀，那两维再去维度是不是两种情况，去掉这个或者去掉这个。
09:18
OK，那得到，哎他们那当然呢，同样一维一维数据相同的，是不是也要放在一组里边进行聚合呀，对吧？那所以说我经过一层一层的计算呢，我会发现啊，三维的得到的，两维的得到的，一维的也得到了，那得到之后呢，那这些结果最终啊会写到哪儿啊。会写到HDSS的一个文件里边啊，其实它最终要写到哪，最终是不是要写在h base啊，对不对，但是呢，我们这块它并不是通过h base api1条一条的写到h base的表里边了，因为那个效率太慢了，相对于其实来说太慢了啊，它是怎么把数据最终导到h base当中去的呢？啊，怎么去导导进去的呀。
10:02
哎，它使用了我们h base当中啊，给我们提供的一个导数据的方式啊，那个导数据的方式叫什么？叫做booklo book book什么意思，就是批量的意思，对吧，也是批量导入，那这个批量导入的核心原理是什么？给大家解释一下啊，它的核心原理就是这样的啊，那你是不是这边进行计算之后，会把结果存在H发一个文件呀，对吧，那这个文件就是普通的文件。啊，那h file就是那个h base1张表下面的文件是什么格式啊，是不是h file对吧？那这边它是相当于直接怎么做啊，直接将你这个文件转成了HL的格式。然后呢，把这个文件放到h base的表的路径下，那这样一来我们h base是不是就能够识别这张表了呀，它是这样去做的，这个效率呢，要比你通过h base api1条一条的往里边写要快得多啊，所以说这个就是我们HS提供的一种批量导入数据的方式，那麒麟就用了这个方式。
11:00
那这就是我们逐层构建算法啊，啊，这个简单了解一下，那接下来呢，我们再看快速构建算法啊，这也有一个PPT，那这个快速构建算法怎么做的呀，看一下。啊，前面说了快速构建算法，它其实计算的思想跟我们逐层也是一样的，是不是也得降维啊，先算最高维意思降维对吧？啊，只不过呢，它实现是不同的，我所有的降维都在map端完成，那这个就是我画的一个大map啊好，那这个map呢，它读到的也是最高维的数据，三维的数据是不是得到了，那你看得到之后它怎么进行降维的啊，看一下。三维是不是需要这样去降啊，三维是不是降到两维啊，是不是各自去掉一个一个的维度就行了呀，对不对，然后你你要注意观察，因为我们现在是不是都在脉步端，正常来说，你要是逐层构建算法，这些数据是不是会写到reduce里边啊啊写reduce相同的K会聚合到一起。对，不但是咱们现在没有往出丢起，还在Mac端，那这俩数据你看它俩是不是K相同，K相同我应该怎么做呀。我是不是要聚合到一起啊，但是他这边怎么聚合呀，没有reduce了，怎么聚合呀，在内存当中聚合啊好，那它俩相同相同的话呢，我聚合。
12:10
哎，是不是聚合到一起了呀，那所有相同的K呢，都得在这儿聚合，聚合完毕之后呢，那我们再进行进一步的降维，从二维的再得到一维，当然这个太多了，我没写啊，没写看这个意思就行啊，那也就是在这一个map当中呢，我就完成了数据从最高维到最低维的这个所有的计算啊，那这里边儿是不是已经有了咱们所有的结果了呀，而且该聚合的是不是已经聚合了。啊，那最终呢，我们是不是它所输出的结果应该包含什么，这个map所出的结果应该包含啥？包含三维的，包含两维的，包含一维的是不是都有啊，哎，都有啊，那都有，那都有的话，那诶可以思考一个问题啊，你说我这个map结束之后，我说本来是不是就已经得到了最终结果了，因为该聚合的是不是已经聚合了，有三维有二维有一位是不是已经得到最终结果了呀，对不对，但是你看啊。
13:00
咱后边还有reduce。还reduce，诶为什么还要reduce呢？咱现在是不是该聚合的已经在map当中已经聚合了呀，那为什么还要reduce呢？为啥呀？这很简单呀，因为你聚合是不是前面聚合只能在同一个map里边聚合吧，那我map是不是可能有多个，那多个map之间相同的K，是不是必须得通过reduce进行进一步的聚合呀，因为你不同的map是不是可能在不同的节点，对不对啊，那所以说你得通过reduce做一个最终的聚合，把不同map之间的数据给它聚合到一起，那这样一来就能得到我们最终的结果了。啊，这就是咱们这个所谓的逐层啊，这个快速构进算法，快速高进算法，也就是所有的计算逻辑呢，都是在map步端完成的啊，啊这就是跟逐层高进算法的一个区别啊，但是其实核心思想是相同的啊，核心思想相同的行，那这就是这两种算法啊，咱们大致了解一下就行了，知道他们的特点就可以了，然后呢，这两种算法我们选的时候到底怎么选呢？
14:01
咱们喜欢用哪个呀。啊，其实用哪个这个不太好选啊，你选哪种算法，那你必须得了解啥，必须得了解你这个计算量是多少，你得了解咱们基金当中目前的空余资源有多少，是不是得根据这两者去判断，咱们用哪种算法是比较合适的呀，对吧？啊，那当然这个不是那么好判断的啊，不是那么好判断的，那所以说麒麟在这边呢，他做的还是比较好的啊，就是他给我们提供了第三种策略，你这构建算法呢，其实配置的时候有仨参数，一个呢是逐层，一个是快速，还有一个呢是auto是自动，是自动，因为它会自动判断。啊，它会自动的去获取集群当中空余的资源，以及你的计算量，你的数据量，然后他帮你选择一个最合适的这个算法去帮你计算啊，那所以说它默认值呢，也是al，所以说这个呢，我们其实不用自己去选，让他自己去判断就行了，他会选择一个最合适的算法了，啊是这样的啊，这就是咱们这两种图件的算法啊好，那我把这个视频录一下啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷数仓项目实战V3.0

（264/291）

7分1秒

001-尚硅谷-数据仓库-课程介绍

390

19分57秒

002-尚硅谷-数据仓库-项目概述

350

15分4秒

003-尚硅谷-项目分析-需求分析

300

17分26秒

004-尚硅谷-项目分析-技术选型

420

11分48秒

005-尚硅谷-项目分析-数据流程设计图

370

13分25秒

006-尚硅谷-项目分析-框架版本选择

380

10分2秒

007-尚硅谷-项目分析-服务器选型

270

11分59秒

008-尚硅谷-项目分析-集群规模规划

370

20分1秒

009-尚硅谷-日志采集-埋点目标数据

560

9分50秒

010-尚硅谷-日志采集-主流埋点方式(了解)

460

12分31秒

011-尚硅谷-日志采集-日志数据结构

400

4分42秒

012-尚硅谷-日志采集-埋点数据上报时机

340

14分25秒

013-尚硅谷-日志采集-服务器准备

420

8分40秒

017-尚硅谷-日志采集-JDK配置及免密配置

370

1分48秒

018-尚硅谷-日志采集-JDK分发

370

7分30秒

019-尚硅谷-日志采集-Linux环境变量说明

420

10分24秒

020-尚硅谷-日志采集-模拟生成日志

380

7分37秒

021-尚硅谷-日志采集-模拟日志脚本

380

5分25秒

022-尚硅谷-日志采集-Hadoop部署之环境变量配置

340

19分0秒

023-尚硅谷-日志采集-Hadoop部署之核心配置

520

12分27秒

024-尚硅谷-日志采集-Hadoop部署之其余配置

370

2分43秒

025-尚硅谷-日志采集-Hadoop部署之历史服务器和日志聚集配置

390

4分23秒

026-尚硅谷-日志采集-Hadoop部署之启动及测试

470

9分17秒

027-尚硅谷-日志采集-Hadoop项目经验之多目录存储

360

8分27秒

028-尚硅谷-日志采集-Hadoop项目经验之数据均衡

300

7分30秒

029-尚硅谷-日志采集-Hadoop项目经验之LZO压缩配置

330

5分21秒

030-尚硅谷-日志采集-Hadoop项目经验之LZO压缩测试

380

9分0秒

031-尚硅谷-日志采集-Hadoop项目经验之LZO切片说明

340

8分39秒

032-尚硅谷-日志采集-Hadoop项目经验之参数调优

290

27分28秒

033-尚硅谷-日志采集-Hadoop项目经验之基准测试

360

7分39秒

034-尚硅谷-日志采集-通道设计规划

440

9分38秒

035-尚硅谷-日志采集-Zookeeper部署

270

10分52秒

036-尚硅谷-日志采集-Kafka安装

360

20分5秒

037-尚硅谷-日志采集-Kafka常用脚本

340

5分16秒

038-尚硅谷-日志采集-Kafka常用脚本补充

240

12分51秒

039-尚硅谷-日志采集-Kafka压力测试

330

9分17秒

040-尚硅谷-日志采集-Kafka机器数量与分区数量计算

430

4分31秒

041-尚硅谷-日志采集-Flume安装

400

5分21秒

042-尚硅谷-日志采集-日志采集配置方案对比

340

8分42秒

043-尚硅谷-日志采集-监控日志Flume组件选择

420

23分13秒

044-尚硅谷-日志采集-监控日志Flume配置文件

340

17分57秒

045-尚硅谷-日志采集-监控日志Flume拦截器编码

430

12分7秒

046-尚硅谷-日志采集-监控日志Flume测试

400

28分24秒

047-尚硅谷-日志采集-Flume启停脚本

360

10分31秒

048-尚硅谷-日志采集-消费KafkaFlume功能分析

340

2分18秒

049-尚硅谷-日志采集-消费KafkaFlume中KafkaChannel注意事项

420

37分35秒

050-尚硅谷-日志采集-消费KafkaFlume配置文件

380

9分2秒

051-尚硅谷-日志采集-消费KafkaFlume时间戳拦截器

440

9分26秒

052-尚硅谷-日志采集-消费KafkaFlume测试

390

1分21秒

053-尚硅谷-日志采集-消费KafkaFlume启停脚本

390

4分38秒

054-尚硅谷-日志采集-消费KafkaFlume内存调整

320

3分23秒

055-尚硅谷-日志采集-小结

310

12分12秒

056-尚硅谷-业务数据采集-电商系统概述

370

7分7秒

057-尚硅谷-业务数据采集-电商系统基本概念

340

7分44秒

058-尚硅谷-业务数据采集-电商系统表结构说明

370

25分1秒

059-尚硅谷-业务数据采集-电商系统核心表概述

340

15分55秒

060-尚硅谷-业务数据采集-电商系统表结构讲解

410

7分58秒

061-尚硅谷-业务数据采集-电商系统表字段说明

380

9分27秒

062-尚硅谷-业务数据采集-模拟数据生成之mysql部署

370

3分40秒

063-尚硅谷-业务数据采集-模拟数据生成之建表

350

10分23秒

064-尚硅谷-业务数据采集-模拟数据生成之EZDM使用简明介绍

410

9分39秒

065-尚硅谷-业务数据采集-模拟数据生成之测试

470

7分11秒

066-尚硅谷-业务数据采集-Sqoop概述

400

7分12秒

067-尚硅谷-业务数据采集-Sqoop安装

370

4分53秒

068-尚硅谷-业务数据采集-Sqoop测试

360

26分13秒

069-尚硅谷-业务数据采集-Sqoop基础使用

440

7分4秒

070-尚硅谷-业务数据采集-Sqoop使用之SQL形式导入

350

23分40秒

071-尚硅谷-业务数据采集-数据同步策略

340

14分33秒

072-尚硅谷-业务数据采集-业务数据表同步策略划分

360

40分18秒

073-尚硅谷-业务数据采集-Sqoop导入脚本之基础说明

310

7分33秒

074-尚硅谷-业务数据采集-Sqoop导入脚本之同步策略说明

450

2分40秒

075-尚硅谷-业务数据采集-Sqoop导入脚本之测试

350

1分35秒

076-尚硅谷-业务数据采集-Sqoop导入脚本之存在问题分析

380

3分57秒

077-尚硅谷-业务数据采集-Sqoop导入脚本之数据验证

420

34分16秒

078-尚硅谷-数仓建模理论-分层概述

440

5分48秒

079-尚硅谷-数仓建模理论-数据集市

300

7分43秒

080-尚硅谷-数仓建模理论-命名规范

390

17分1秒

081-尚硅谷-数仓建模理论-范式理论之概述

370

8分27秒

082-尚硅谷-数仓建模理论-范式理论之函数依赖

380

13分9秒

083-尚硅谷-数仓建模理论-范式理论之三范式

420

12分35秒

084-尚硅谷-数仓建模理论-OLTP与OLAP概述

420

18分6秒

085-尚硅谷-数仓建模理论-关系建模与维度建模

520

15分2秒

086-尚硅谷-数仓建模理论-维度模型之事实表与维度表

500

17分0秒

087-尚硅谷-数仓建模理论-维度模型之事实表分类

380

9分27秒

088-尚硅谷-数仓建模理论-维度模型之模型分类

490

13分41秒

089-尚硅谷-数仓建模理论-数仓分层模型之整体概述

380

4分33秒

090-尚硅谷-数仓建模理论-数仓分层模型之ODS层

380

26分1秒

091-尚硅谷-数仓建模理论-数仓分层模型之DWD层

310

30分51秒

092-尚硅谷-数仓建模理论-数仓分层模型之DWD层维度建模演示

400

11分2秒

093-尚硅谷-数仓建模理论-数仓分层模型之DWS层与DWT层

370

2分10秒

094-尚硅谷-数仓建模理论-数仓分层模型之建模驱动

430

10分34秒

095-尚硅谷-数仓环境准备-Hive安装

400

4分30秒

096-尚硅谷-数仓环境准备-Hive引擎说明

410

8分35秒

097-尚硅谷-数仓环境准备-框架兼容性问题说明

330

23分32秒

098-尚硅谷-数仓环境准备-HiveOnSpark配置

590

10分7秒

099-尚硅谷-数仓环境准备-HiveOnSpark测试

480

17分14秒

100-尚硅谷-数仓环境准备-Yarn容量调度器之并发度问题演示

400

19分38秒

101-尚硅谷-数仓环境准备-Yarn容量调度器之多队列配置

350

8分21秒

102-尚硅谷-数仓环境准备-Yarn容量调度器之提交任务指定队列

380

100

8分24秒

103-尚硅谷-数仓环境准备-DataGrip使用介绍

380

101

16分43秒

104-尚硅谷-数仓环境准备-新数据准备

350

102

11分4秒

105-尚硅谷-数仓搭建-ODS层日志表之建表语句

380

103

5分32秒

106-尚硅谷-数仓搭建-ODS层日志表之数据装载

360

104

7分58秒

107-尚硅谷-数仓搭建-ODS层日志表之装载脚本

330

105

4分33秒

108-尚硅谷-数仓搭建-扩展之Shell脚本引号总结

370

106

6分18秒

109-尚硅谷-数仓搭建-ODS层业务表之建表语句

340

107

4分28秒

110-尚硅谷-数仓搭建-ODS层业务表之装载脚本

420

108

8分8秒

111-尚硅谷-数仓搭建-DWD层日志表之数据结构回顾

400

109

7分34秒

112-尚硅谷-数仓搭建-DWD层日志表之Hive解析JSON函数说明

450

110

6分3秒

113-尚硅谷-数仓搭建-DWD层日志表之日志解析思路分析

340

111

7分26秒

114-尚硅谷-数仓搭建-DWD层日志表之启动表建表语句

330

112

9分0秒

115-尚硅谷-数仓搭建-DWD层日志表之启动表数据装载

360

113

4分28秒

116-尚硅谷-数仓搭建-DWD层日志表之页面表

380

114

9分14秒

117-尚硅谷-数仓搭建-DWD层日志表之动作表解析思路

360

115

5分42秒

118-尚硅谷-数仓搭建-回顾之explode函数使用说明

340

116

3分16秒

119-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数设计

270

117

11分16秒

120-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数说明

420

118

27分6秒

121-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(一)

380

119

8分49秒

122-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(二)

390

120

3分38秒

123-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数注意事项

300

121

6分10秒

124-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数创建

360

122

8分6秒

125-尚硅谷-数仓搭建-DWD层日志表之动作表数据装载

420

123

4分47秒

126-尚硅谷-数仓搭建-DWD层日志表之曝光表

450

124

9分8秒

127-尚硅谷-数仓搭建-DWD层日志表之错误表

400

125

9分57秒

128-尚硅谷-数仓搭建-DWD层数据装载之lzo索引文件识别问题

340

126

5分46秒

129-尚硅谷-数仓搭建-DWD层日志表之数据装载脚本

370

127

4分54秒

130-尚硅谷-数仓搭建-DWD层业务表之维度模型概述

340

128

11分5秒

131-尚硅谷-数仓搭建-DWD层业务表之商品维度表

330

129

1分50秒

132-尚硅谷-数仓搭建-DWD层业务表之优惠券维度表

430

130

11分44秒

133-尚硅谷-数仓搭建-DWD层业务表之活动维度表

350

131

3分40秒

134-尚硅谷-数仓搭建-DWD层业务表之地区维度表

450

132

16分34秒

135-尚硅谷-数仓搭建-DWD层业务表之时间维度表

340

133

19分22秒

136-尚硅谷-数仓搭建-DWD层业务表之支付事实表

380

134

7分22秒

137-尚硅谷-数仓搭建-DWD层业务表之退款事实表

300

135

9分45秒

138-尚硅谷-数仓搭建-DWD层业务表之评价事实表

390

136

7分8秒

139-尚硅谷-数仓搭建-DWD层业务表之订单明细实表建表语句

380

137

14分1秒

140-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(一)

310

138

9分26秒

141-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(二)

300

139

10分46秒

142-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(三)

290

140

7分56秒

143-尚硅谷-数仓搭建-DWD层业务表之加购与收藏事实表

390

141

10分16秒

144-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分析

390

142

7分48秒

145-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分区规划

380

143

9分35秒

146-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载思路

320

144

16分4秒

147-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载

330

145

9分53秒

148-尚硅谷-数仓搭建-DWD层业务表之订单事实表建表语句

430

146

43分22秒

149-尚硅谷-数仓搭建-DWD层业务表之订单事实表数据装载

340

147

17分10秒

150-尚硅谷-数仓搭建-DWD层业务表之拉链表概述

330

148

15分19秒

151-尚硅谷-数仓搭建-DWD层业务表之拉链表制作过程概述

350

149

17分40秒

152-尚硅谷-数仓搭建-DWD层业务表之用户维度表(一)

400

150

19分44秒

153-尚硅谷-数仓搭建-DWD层业务表之用户维度表(二)

390

151

8分10秒

154-尚硅谷-数仓搭建-DWD层业务表之数据装载脚本

340

152

28分38秒

155-尚硅谷-数仓搭建-DWS&DWT层之业务术语

360

153

14分11秒

156-尚硅谷-数仓搭建-DWS&DWT层之日期函数

380

154

7分22秒

157-尚硅谷-数仓搭建-DWS&DWT层之复杂数据类型使用说明

330

155

16分3秒

158-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表建表语句

400

156

47分40秒

159-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表数据装载

270

157

24分16秒

160-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表建表语句

310

158

6分37秒

161-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载思路分析

390

159

14分46秒

162-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(一)

390

160

29分43秒

163-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(二)

360

161

5分43秒

164-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表建表语句

330

162

13分7秒

165-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表数据装载

370

163

6分35秒

166-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表建表语句

340

164

13分45秒

167-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表初次装载说明

390

165

9分28秒

168-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表数据装载

480

166

1分20秒

169-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表建表语句

370

167

23分6秒

170-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(一)

390

168

24分27秒

171-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

430

169

9分25秒

172-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

320

170

12分3秒

173-尚硅谷-数仓搭建-DWT层之商品主题累积汇总表

400

171

20分48秒

174-尚硅谷-数仓搭建-DWS&DWT层之活动主题汇总表

430

172

16分29秒

175-尚硅谷-数仓搭建-DWS&DWT层之地区主题汇总表

430

173

7分5秒

176-尚硅谷-数仓搭建-DWS&DWT层之数据装载脚本

401

174

45分43秒

177-尚硅谷-数仓需求-设备主题之活跃设备数

350

175

4分36秒

178-尚硅谷-数仓需求-设备主题之新增&沉默&流失需求说明

330

176

6分13秒

179-尚硅谷-数仓需求-设备主题之新增设备数需求讲解

260

177

4分9秒

180-尚硅谷-数仓需求-设备主题之沉默用户数需求讲解

380

178

2分51秒

181-尚硅谷-数仓需求-设备主题之流失用户数需求讲解

370

179

8分5秒

182-尚硅谷-数仓需求-设备主题之留存率需求说明

430

180

2分2秒

183-尚硅谷-数仓需求-设备主题之回流用户数需求说明(一)

430

181

2分9秒

184-尚硅谷-数仓需求-设备主题之回流用户数需求说明(二)

400

182

1分57秒

185-尚硅谷-数仓需求-设备主题之最近三周连续活跃用户数需求说明

390

183

2分15秒

186-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求说明

360

184

16分33秒

187-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路一)

420

185

8分26秒

188-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路二)

330

186

14分24秒

189-尚硅谷-数仓需求-设备主题之回流用户数需求讲解

370

187

21分0秒

190-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路一)

410

188

9分28秒

191-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路二)

410

189

20分19秒

192-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路一)

350

190

13分4秒

193-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路二)

330

191

4分44秒

194-尚硅谷-数仓需求-会员主题之会员信息统计需求说明

370

192

5分15秒

195-尚硅谷-数仓需求-会员主题之漏斗分析需求说明

390

193

1分51秒

196-尚硅谷-数仓需求-商品主题之商品个数需求说明

340

194

10分1秒

197-尚硅谷-数仓需求-会员主题之会员信息统计需求讲解

330

195

21分8秒

198-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路一)

370

196

6分16秒

199-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路二)

270

197

5分51秒

200-尚硅谷-数仓需求-商品主题之商品个数需求讲解

310

198

8分5秒

201-尚硅谷-数仓需求-商品主题之全局TopN需求说明

380

199

2分45秒

202-尚硅谷-数仓需求-商品主题之分组TopN需求说明

390

200

4分28秒

203-尚硅谷-数仓需求-商品主题之销量排行需求讲解

330

201

3分21秒

204-尚硅谷-数仓需求-商品主题之退款率排行需求讲解

390

202

2分44秒

205-尚硅谷-数仓需求-商品主题之差评率排行需求讲解

360

203

10分57秒

206-尚硅谷-数仓需求-商品主题之分组TopN需求讲解

330

204

7分32秒

207-尚硅谷-数仓需求-营销主题之下单&支付统计需求说明

350

205

9分14秒

208-尚硅谷-数仓需求-营销主题之品怕复购率需求说明

380

206

3分44秒

209-尚硅谷-数仓需求-营销主题之下单统计需求讲解

370

207

11分45秒

210-尚硅谷-数仓需求-营销主题之支付统计需求讲解

350

208

16分54秒

211-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路一)

370

209

9分18秒

212-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路二)

460

210

7分48秒

213-尚硅谷-数仓需求-ADS层数据导入脚本

400

211

14分47秒

214-尚硅谷-全流程调度-工作流程概述

360

212

11分26秒

215-尚硅谷-全流程调度-调度系统概述

400

213

7分54秒

216-尚硅谷-全流程调度-Azkaban部署模式概述

380

214

2分57秒

217-尚硅谷-全流程调度-Azkaban安装之安装包准备

380

215

5分53秒

218-尚硅谷-全流程调度-Azkaban安装之数据库准备

340

216

11分25秒

219-尚硅谷-全流程调度-Azkaban安装之Exec部署

400

217

10分6秒

220-尚硅谷-全流程调度-Azkaban安装之Web部署

470

218

7分53秒

221-尚硅谷-全流程调度-Azkaban使用之入门案例

350

219

5分30秒

222-尚硅谷-全流程调度-Azkaban使用之工作流程配置文件说明

390

220

11分22秒

223-尚硅谷-全流程调度-Azkaban使用之Yaml文件格式概述

390

221

6分34秒

224-尚硅谷-全流程调度-Azkaban使用之任务依赖配置

420

222

4分23秒

225-尚硅谷-全流程调度-Azkaban使用之自动失败重试

380

223

3分56秒

226-尚硅谷-全流程调度-Azkaban使用之手动失败重试

390

224

6分57秒

227-尚硅谷-全流程调度-Azkaban使用之定时调度

410

225

9分35秒

228-尚硅谷-全流程调度-Azkaban使用之邮件配置

470

226

4分35秒

229-尚硅谷-全流程调度-Azkaban使用之邮件通知演示

310

227

5分14秒

230-尚硅谷-全流程调度-实操之Sqoop导出功能说明

440

228

15分3秒

231-尚硅谷-全流程调度-实操之MySQL建库建表

330

229

28分36秒

232-尚硅谷-全流程调度-实操之Sqoop导出脚本

380

230

6分58秒

233-尚硅谷-全流程调度-实操之新数据准备

360

231

7分13秒

234-尚硅谷-全流程调度-实操之Azkaban启停脚本

370

232

11分9秒

235-尚硅谷-全流程调度-实操之Azkaban工作流程配置文件编写

360

233

5分22秒

236-尚硅谷-全流程调度-实操之Azkaban工作流传参说明

440

234

9分34秒

237-尚硅谷-全流程调度-实操之Azkaban全流程调度演示

360

235

8分16秒

238-尚硅谷-全流程调度-实操之Azkaban问题总结

360

236

4分45秒

239-尚硅谷-数据可视化-概述

450

237

6分22秒

240-尚硅谷-数据可视化-Superset概述

370

238

15分56秒

241-尚硅谷-数据可视化-Superset安装之Miniconda部署

520

239

9分43秒

242-尚硅谷-数据可视化-Superset安装之准备Python3.6环境

430

240

7分2秒

243-尚硅谷-数据可视化-Superset安装

530

241

5分31秒

244-尚硅谷-数据可视化-Superset安装之初始化

490

242

6分20秒

245-尚硅谷-数据可视化-Superset安装之启动

400

243

9分52秒

246-尚硅谷-数据可视化-Superset安装之启停脚本

380

244

12分40秒

247-尚硅谷-数据可视化-Superset使用之对接数据源

450

245

13分39秒

248-尚硅谷-数据可视化-Superset使用之趋势图示例

780

246

7分29秒

249-尚硅谷-数据可视化-Superset使用之地图与饼状图示例

980

247

5分17秒

250-尚硅谷-数据可视化-Superset使用之编辑仪表盘

540

248

4分46秒

251-尚硅谷-即席查询-概述

370

249

4分42秒

252-尚硅谷-即席查询-Kylin概述

370

250

38分9秒

253-尚硅谷-即席查询-Kylin前置概念

310

251

12分46秒

254-尚硅谷-即席查询-Kylin基础架构

320

252

6分35秒

255-尚硅谷-即席查询-Kylin特点

310

253

14分12秒

256-尚硅谷-即席查询-Kylin安装之HBase部署

340

254

2分30秒

257-尚硅谷-即席查询-Kylin安装之环境变量准备

380

255

13分19秒

258-尚硅谷-即席查询-Kylin安装之兼容性问题说明

380

256

4分15秒

259-尚硅谷-即席查询-Kylin启动

440

257

30分54秒

260-尚硅谷-即席查询-Kylin使用之基础用法

360

258

21分49秒

261-尚硅谷-即席查询-Kylin使用之维度表重复key问题说明

380

259

8分29秒

262-尚硅谷-即席查询-Kylin使用之查询

390

260

12分39秒

263-尚硅谷-即席查询-Kylin使用之RestAPI使用概述

260

261

9分21秒

264-尚硅谷-即席查询-Kylin使用之每日定时构建脚本

440

262

6分42秒

265-尚硅谷-即席查询-Kylin原理之基础概念回顾

330

263

8分21秒

266-尚硅谷-即席查询-Kylin原理之Cube存储原理

480

264

15分2秒

267-尚硅谷-即席查询-Kylin原理之Cube构建原理

320

265

18分0秒

268-尚硅谷-即席查询-Kylin优化之衍生维度

400

266

13分24秒

269-尚硅谷-即席查询-Kylin优化之聚合组

340

267

15分23秒

270-尚硅谷-即席查询-Kylin优化之Rowkey调整

330

268

8分51秒

271-尚硅谷-即席查询-Kylin优化之并发粒度优化

370

269

7分13秒

272-尚硅谷-即席查询-KylinBI集成之JDBC

390

270

11分47秒

273-尚硅谷-即席查询-KylinBI集成之Zeppelin

390

271

25分6秒

274-尚硅谷-即席查询-Presto概述

340

272

23分45秒

275-尚硅谷-即席查询-Presto安装之Server部署

370

273

5分56秒

276-尚硅谷-即席查询-Presto安装之命令行客户端部署

340

274

8分54秒

277-尚硅谷-即席查询-Presto安装之LZO 压缩格式说明

320

275

8分14秒

278-尚硅谷-即席查询-Presto安装之可视化客户端部署

440

276

17分31秒

279-尚硅谷-即席查询-Presto使用注意事项

390

277

13分49秒

280-尚硅谷-集群监控-Zabbix概述

460

278

7分45秒

281-尚硅谷-集群监控-Zabbix安装之服务器环境准备

310

279

12分29秒

282-尚硅谷-集群监控-Zabbix安装之yum仓库配置

350

280

2分8秒

283-尚硅谷-集群监控-Zabbix安装之下载安装

380

281

10分9秒

284-尚硅谷-集群监控-Zabbix安装之修改配置文件

310

282

2分21秒

285-尚硅谷-集群监控-Zabbix启动

330

283

3分37秒

286-尚硅谷-集群监控-Zabbix安装之web配置

320

284

5分3秒

287-尚硅谷-集群监控-Zabbix使用之术语

400

285

7分17秒

288-尚硅谷-集群监控-Zabbix使用之创建主机

360

286

13分43秒

289-尚硅谷-集群监控-Zabbix使用之配置监控项

330

287

6分13秒

290-尚硅谷-集群监控-Zabbix使用之配置触发器

350

288

3分18秒

291-尚硅谷-集群监控-Zabbix使用之配置报警媒介

380

289

7分56秒

292-尚硅谷-集群监控-Zabbix使用之配置动作

320

290

2分12秒

293-尚硅谷-集群监控-Zabbix使用之测试

430

291

12分59秒

294-尚硅谷-集群监控-Zabbix使用之模板

390

267-尚硅谷-即席查询-Kylin原理之Cube构建原理

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐