文章/答案/技术大牛

发布

首页视频270-尚硅谷-即席查询-Kylin优化之Rowkey调整

270-尚硅谷-即席查询-Kylin优化之Rowkey调整

2022-12-022022-12-02 16:02:24播放33

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商数仓项目（含2.0、3.0版本）/尚硅谷数仓项目实战V3.0/视频/270-尚硅谷-即席查询-Kylin优化之Rowkey调整.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，那接下来我们看第三一个优化点，就叫RO，叫做ROK的优化，这个RO当然指的就是h base当中咱们那个ROK了，对吧？现在还能回忆起来h base当中rie是什么样的吗？还能想起来不？想不起来了，这个忘了也太快了，上节课讲的，来，咱们看一下啊，那个肉会什么样的，看存储原理。这就是咱们的HPOK吧，对不对，那OK分为两部分啊，一部分呢，是Q报的ID，呃，这三个一指的是啥？是不是三个维度啊，对不对？那后面呢，指的是每个维度对应的维度值对吧？啊，那大有没有考虑过一个问题啊，我这三个一对不对？哎，确实是三个维度都有，那我第一个一指的是哪个维度？第二个一指的是哪个维度，第三个一又指的是哪个，有没有考虑这个问题啊，也就是说在RK当中，咱们这个维度的顺序大家有没有考虑过？那第一个是哪个为第二个是哪个，第三个是哪个，就是这个维德顺序有没有考虑过呀，没考虑对吧？啊，那现在咱们要讲的这个RO的优化，其实我们优化的就是啥呀。
01:04
就是这个维度在ROK当中的顺序。我们能优化的东西其实很有限啊，很有限，这个R的结构咱们是变不了的，它就是这个结构，固定的结构，我们能改变的只是啥呀，能改变的只是维度在ROK当中的前后顺序，咱能调的只有这个顺序能理解吧？啊，那接下来我们就看看这个调整顺序我们怎么去调啊，那调整顺序呢，我们其实两个思路，两个原则，哪两原则呢？第一个。被用作过滤的维度放在前边。这是第一个，那第二一个呢，基数大的维度放在基数小的维度前面。啊好，有这俩原则，那这俩原则呢，我们所优化的东西其实也是不一样的，这个原则优化的是我们的查询，这个原则呢，优化的是计算，啊那我们先看第一个吧，那什么叫做被用作过滤的维度放前面呢？啊，首先这个过滤什么时候过滤啊。
02:01
肯定是你构建完之后，你进行查询的时候过滤呗，对吧？好，那接下来我们看一个例子啊，通过这个PPT，咱们把这个理解一下，好，那大家来看一下这个东西，我这画的这个东西啊，它就是一个啥，就是一个Q最终计算完的结果啊，当然这个结果呢，存在h base当中，对吧，那我红色的字段就是。维度黄色的呢，就是咱们那个聚合值啊，黄色就是聚合值，那按理来说呀，咱们是不是这个h base当中那个ROK应该是怎么得到的，是不是应该是把这个维度字段我们给它进行编码，然后呢，前面再加上一个Q号的ID是组成它这个ROOK啊，对吧？但如果说我要那么写的话呢，这块大家就不好理解了，所以我要把这个RO给它还原了，就还原成咱们具体的字段了啊那具体字段了，然后大家还原之后呢，大家得注意观察，咱假如说这个AB就是ROK啊，AB拼上是不是就得到咱们ROOK了呀，对吧？那ROOK是按照什么排序的，按照字典顺序排序的，对不对啊，按字典排序的，那既然是按字典排序，你看我这是不是字典顺序？
03:00
你把AB看一个整体啊，字典顺序怎么排，是不是从第一个字符开始排啊，第一个相同比第二个，第二相同比三个，对吧，你看我这是不是。哎，第一个相同，哎11ABCD2后边的ABCD3没错吧啊自产顺序好，那现在我假如说我的需求是这样的啊。哎，咱们需求这样的，我们需求什么呀？是select AB some c，然后呢，From咱们这个原始表啊，原始表，然后呢，Group by字段，然后呢，咱们的过滤条件是啥呀？过滤条件是having b大于等于小b and b小等于小C，那咱们这个结果其实大家都知道，肯定会转成h base的查询语言，是不是从这张表里直接拿结果。对不对，直接拿结果，大家看一看啊，咱们这个结果在h base这张表当中是如何分布的。啊如何分布，其实这个C就是谁，就是咱们结果就已经是sum c了，对吧？啊也经sum c了啊也就是不是直接从这里边拿就行，那关键是拿哪些数据啊，是不是得拿那个B。
04:04
大于等于小于B，小于等于小C的对不对，应该是哪部分，是不是这部分没错吧，你看这个数据它在一块放着吗？没在一块放是不是分开存储的呀，对不对啊，那大家都知道我们HP你去查询数据的时候呢，两种方式，一种是get，一种是SKY。还记得吧，这个在讲HP的时候绝对讲了啊，就一个是get一个sc get是不是获取某一条数据，根据一个RO获取一行，那SC是不是根据一个rock的范围去扫描一部分数据啊，对不对，那你说咱们这这个查询方式肯定是哪种，肯定是SC呢，对吧，肯定SC，那SC这种查询方式什么时候效率是最高的？你是不是给他指明rockie范围，并且你要查的数据是存在一块儿的时候，你死干出来的效率是最高的呀，对不对啊，而且我们前面讲过，咱们ROK呢，设计的时，设计ROK的时候，咱们有一个原则啊，咱们设计RK有一个原则，什么原则？
05:00
就是将来你要一起查询的数据，你在写的时候要怎么办，给他写到一块对吧？啊，方便你后期查的时候一块一次性把它干出来嘛，对不对，那很显然他现在。是不是就违背了我们那个原则呀，对不对，我这是不是将来要一起查的数据，因为我后期我要按照必经过滤，这是我要一起查的结果呢，你没给我放一块儿，这是不是已经违背了那个rock黑的原则了呀，对不对，那所以说我们现在呢，就得把这个给他修改一下啊，得让他满足咱们那个原则，那这块你可以怎么修改呀。只需要调整一下咱们ROK当中的维度顺序就好了啊，怎么调，我是不是可以把B放前边，把A放后边，那完之后同样的这个需求啊，你看咱们数据是怎么分布的呢，这次。是不是在一块了，对吧，因为按照字典顺序排嘛，对不对，B相同的，哎，我我我把B放放前面，那B相同的是不是就在一块儿，哎，就这么求嘛，同样的一条这个词，那我这次再查我的数据呢，就分布在一块了，那现在就满足我们那个原则了，我将来要一起查询的数据呢，我写的时候呢，我就给它写在一块啊好，那这时候我们就得到一个结论啊，那咱们设计这个ROK的顺序的时候，怎么设计啊，是不是查询时被用作过滤的条件，谁是被过滤的条件呀，是不是A是不是B字段呀，那把B是不是就得放在前边啊，啊放前边是这样的，所谓放前边也就是什么，也就是你需要将咱们这个。
06:26
维度当中，我们这个第一个一，你得告诉他第一个一指的是谁呀。只是咱们那个B字段对不对啊，是这样的，你得搞清楚这个位置啊，这是我们的第一个原则，这个原则我们优化的很显然是查询吧，是不是查询的时候能够加快呀，对不对，这是第一个原则，好那这个完之后呢，我们再看第二个原则啊，第一个还是比较好理解的，但第二一个呢，相对来说就有点烧脑了啊，这个大家认真听，不要走神啊来，那第二原则是啥？基数大的维度放在基数小的维度前面，首先先明确它所优化的是计算，它能够减少计算量啊，优化的是计算而不是查询。好那现在我们来看一下这个基数的概念，基数概念前面刚刚刚提到了，对吧？那基数什么意思来着？
07:09
Count distinct，你对某一个字段进行count distinct的，你得到的结果就是这个字段的基数。能理解吧，那咱们这举一个具体的例子啊，比如说我这个时间维度表当中，我有月份，我有日，是不是有month，有day啊，对吧，那你说月份的基数是多少。12你对月进行抗in是不是就十二一二三四五六七八九十，十一十二一共12个月份嘛，那你对day进行抗的in呢多少？31呗，没没没错吧，那他俩谁基数大谁数小。月的基数小，那日的基数大，对吧，那咱们的原则是啥？基数大的放在基数小的前边，是不是应该把日放前边，月放后边，对不对啊，这就是他的一个原则啊，那为什么要这样去调整呢？那接下来咱们看一下啊，这也是有一个PPT。
08:00
好，那看这个PPT啊，刚才咱们提到了这个优化的是什么，是计算对不对，所以说我们得看它的计算过程，那计算过程咱们甭管是哪种算法，甭管是这个逐层构建还是快速构建，那咱们思想是一样的，都得先算最高维吧，最高维，然后逐次降维，那现在。我假如说一共有四个维度啊，四个维度我是不是已经把这样的最高维已经算出来了，ABCD4个维度是不是都有了，那四个一代表四维，没错吧，那接下来要进行降维，降维从四维是不是要得到三维啊，对不对，那到三维之后，你看我们应该有几个三维呢？C43应该有四个才对，对吧？但我这没有全写出来，我只写了两个，一个是ABC，一个是abd啊这个没错吧，能看懂吧？啊那假如我现在三维降完了，是不是得降到两维啊，降两降两降两维，比如我现在呢，降到这个两位的，咱们C42应该是有六个才对，对吧，就咱们那那五个不管，咱们就管这一个，就管AB，哎，是不是咱们需要得到它，那我问一下大家啊，它应该怎么得到，肯定从三维降降维而来，对吧。
09:02
那这个上边你看我要选择到AB，你说我怎么得到，我从它能不能得到。我从他能不能得到。也能，对不对啊，那关键是我到底从哪得，我是应该从它们俩其中的一个里边来聚合得到这个AB，还是应该把它们俩加一块，然后呢，聚合得到AB，你说应该是哪种啊。应该只拿一个，还是用用他俩聚合？加一块是吗？好好琢磨琢磨，应该是怎么办，一个就行，还是用俩。这个你得把这想明白啊，是用一个还是用俩。其实用一个就行了，用俩就不对了啊啊，为什么可能看这咱不好看出来看看哪个好看出来看咱们上午那个图，上午不是给大家画了一个方块嘛，对吧，咱们就看哪个方块。来，我把那个PPT找一下啊，呃，这个跑哪去了啊，在这呢啊，咱们打开就看这图弹空，这假如说这个就是我最高位的对不对啊，这个这是咱们那个最这个这个这个最低维的啊对不对？那现在假如说啊，我们想得到这个最低维的，那按理来说是不是应该从最高维，呃，从从它上一个维度得到啊，是不是从那降对吧？那咱们现在从头开始给它得一下啊，你看它是怎么一个过程，你要想得到它，你需要怎么做，是不是先拿到最高维，然后呢进行降维，比如说咱们先把时间这个维度去掉。
10:26
时间维度去掉，是不是得到它了，那你要再想得到地区，只需要怎么做就行，只需要把品类是不是再去掉，是不是就得到它了，那也就是说你想得到这个一维的，你从几个两维的聚合而来啊，是不是就从这一个两维的聚合而来，对不对？那同样的道理，你在这儿呢？想得到两维的是不是只需要从一个三维的聚合而来？而不是从这两个三维聚合来吧，啊，也是只需要从一个里边来就行了啊，这块稍微有点绕，大家一定要把这个搞清楚啊好，那咱们先把这搞清楚好，我只需要从一个的三维聚合二来就行了啊好，那接下来咱们继续分析啊，那既然从它们俩其中任意一个来是不是都行，他俩是不是都有AB啊，从谁来都行，那你说那你选的话，你应该选谁，怎么选？
11:09
啊，你不知道选谁啊，你就你就根据什么原则去选。因为从谁来都可以，对吧？啊，那你应该根据什么原则去选择。那肯定根据计算量啊，对吧，你就看一下这个数据集计算量，这个数据量少还是他数据量少，那谁小我是不是从谁而来啊，没错吧，哎，那他俩这个数据量大小是由谁来决定的呀。他俩是不是都有A，是不是都有B，对不对，所以AB你需要考虑吗？都有你就不需要考虑了，对不对，所以说它俩的这个数据量大小由谁来决定，应该是由C字段和D字段来决定的，对不对，那由C和D字段的什么来决定的呢？应该是由它的基数决定的。对不对，是不是要求它的基数决定的呀，对不对，那假如说我C的基数大，那基数大是不是就是你不同的值就多呀，你不同的值多，那你的数据量是不是就大。
12:05
啊，那D的基数基基基数小，那基数小你的不同的值就少，你的数据量肯定就少，没错吧？啊，那所以说呃，这两个数据集的这个数据量大小是由C和D的基数决定的，那所以说我们自己要选的话，你肯定得选一个什么样的，得选一个这个CD，哎，基数小的啊，那谁基数小我选谁对不对，那咱们得这么选，但是麒麟呢，他不是这么选的，麒麟咋选的呢？它的原则是这么选的啊，他会选一个q boy的ID，小的啊，他选一个q boy idqd是谁？这是是Q的ID啊对不对，那这个大小怎么比，就按照这个二进制的这个数字的比较规则去比，那这就是一个二进制的数字嘛。咱俩谁大谁小啊，显然左边大右边小，右边加个一是不是正好等于左边对不对，也就是说麒麟呢，选的是q Bo的ID小的啊，那既然他选他，那我们就得保证什么保证他选的是不是那个数据量少的呀，对不对，那怎么保证他选的数据量是少的呀。
13:08
那是不是就得让D的基数是小的，C的基数是大的，没错吧？啊，那这样一来的话，那咱们就得到一个这样的结论呢？什么结论呢？是不是应该是你得保证D的基数小，C的基数大。对不对，那也就是说这个结论。你为啥基数大的是不是在前边，基数小的在后边啊，对不对，哎，你得这么去，哎，这个理解才可以啊，那这样一来的话呢，咱们就能够，呃，进一步的就是加速它的计算了，哎，能够减少它的计算量，好，那这就是咱们的第二一个原则啊，第二个原则就是基数大的维度放在基数小的维度前面，好，这是俩原则，第一个原则我们优化的是查询，第二个原则优化的是计算。啊，稍微有点绕啊，稍微有点绕是吧，这个大家能理解，尽量的理解啊，因为你理解了是不是就真正的记住了呀，如果说实在是理解不了，没关系，就这么两行字，记住也行，对吧，背也能背过来呀，啊尽量的理解啊好，那这个讲完这俩原则之后呢，那这个东西咱咱到底怎么调啊，对吧，咱怎么调，在页面上调好，那咱们还是来到这个构建cube的第五步，Advance setting，然后你就接着往下拉，刚才是不是讲了聚合组了，那再往下呢，就是谁就是这个ROOK了啊就是ROOK了，那ROOK了，你看啊，这里边是不是咱们所有的维度对不对，它这个顺序其实已经有一个默认顺序了，对吧？他排第一，他排第二，他排第三对不对？那我现在假如想调整怎么调。
14:34
怎么调，你把鼠标指针指向你那个ID那个那个位置，哎，直接拖就行，哎，那这个顺序就调过来了啊，那调的时候呢，就按照我们刚才讲的那两个原则来进行调整就可以了，当然这个里边除了能调整顺序啊，其实我们还能调整其他的，这是啥，Encoding encoding就是啥意思？编码呀编码，咱们前面讲了，是不是会对维度字段进行编码处理，对不对，那编码的默认的算法是什么？是字典编码，你看这就啥。
15:04
字典那个单词叫做dictionary对吧，那D是不是就是那个相当于字典编码那个简写啊，对吧？当然这里边你也可以选择其他的编码方式啊，也可以选择其他的编码方式啊，是这样的啊，那这就是咱们这个RO的优化啊好，那到这一步呢，这个就完事了，我把视频录一下啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷数仓项目实战V3.0

（267/291）

7分1秒

001-尚硅谷-数据仓库-课程介绍

390

19分57秒

002-尚硅谷-数据仓库-项目概述

350

15分4秒

003-尚硅谷-项目分析-需求分析

300

17分26秒

004-尚硅谷-项目分析-技术选型

420

11分48秒

005-尚硅谷-项目分析-数据流程设计图

370

13分25秒

006-尚硅谷-项目分析-框架版本选择

380

10分2秒

007-尚硅谷-项目分析-服务器选型

270

11分59秒

008-尚硅谷-项目分析-集群规模规划

370

20分1秒

009-尚硅谷-日志采集-埋点目标数据

560

9分50秒

010-尚硅谷-日志采集-主流埋点方式(了解)

460

12分31秒

011-尚硅谷-日志采集-日志数据结构

400

4分42秒

012-尚硅谷-日志采集-埋点数据上报时机

340

14分25秒

013-尚硅谷-日志采集-服务器准备

420

8分40秒

017-尚硅谷-日志采集-JDK配置及免密配置

370

1分48秒

018-尚硅谷-日志采集-JDK分发

370

7分30秒

019-尚硅谷-日志采集-Linux环境变量说明

420

10分24秒

020-尚硅谷-日志采集-模拟生成日志

380

7分37秒

021-尚硅谷-日志采集-模拟日志脚本

380

5分25秒

022-尚硅谷-日志采集-Hadoop部署之环境变量配置

340

19分0秒

023-尚硅谷-日志采集-Hadoop部署之核心配置

520

12分27秒

024-尚硅谷-日志采集-Hadoop部署之其余配置

370

2分43秒

025-尚硅谷-日志采集-Hadoop部署之历史服务器和日志聚集配置

390

4分23秒

026-尚硅谷-日志采集-Hadoop部署之启动及测试

470

9分17秒

027-尚硅谷-日志采集-Hadoop项目经验之多目录存储

360

8分27秒

028-尚硅谷-日志采集-Hadoop项目经验之数据均衡

300

7分30秒

029-尚硅谷-日志采集-Hadoop项目经验之LZO压缩配置

330

5分21秒

030-尚硅谷-日志采集-Hadoop项目经验之LZO压缩测试

380

9分0秒

031-尚硅谷-日志采集-Hadoop项目经验之LZO切片说明

340

8分39秒

032-尚硅谷-日志采集-Hadoop项目经验之参数调优

290

27分28秒

033-尚硅谷-日志采集-Hadoop项目经验之基准测试

360

7分39秒

034-尚硅谷-日志采集-通道设计规划

440

9分38秒

035-尚硅谷-日志采集-Zookeeper部署

270

10分52秒

036-尚硅谷-日志采集-Kafka安装

360

20分5秒

037-尚硅谷-日志采集-Kafka常用脚本

340

5分16秒

038-尚硅谷-日志采集-Kafka常用脚本补充

240

12分51秒

039-尚硅谷-日志采集-Kafka压力测试

330

9分17秒

040-尚硅谷-日志采集-Kafka机器数量与分区数量计算

430

4分31秒

041-尚硅谷-日志采集-Flume安装

400

5分21秒

042-尚硅谷-日志采集-日志采集配置方案对比

340

8分42秒

043-尚硅谷-日志采集-监控日志Flume组件选择

420

23分13秒

044-尚硅谷-日志采集-监控日志Flume配置文件

340

17分57秒

045-尚硅谷-日志采集-监控日志Flume拦截器编码

430

12分7秒

046-尚硅谷-日志采集-监控日志Flume测试

400

28分24秒

047-尚硅谷-日志采集-Flume启停脚本

360

10分31秒

048-尚硅谷-日志采集-消费KafkaFlume功能分析

340

2分18秒

049-尚硅谷-日志采集-消费KafkaFlume中KafkaChannel注意事项

420

37分35秒

050-尚硅谷-日志采集-消费KafkaFlume配置文件

380

9分2秒

051-尚硅谷-日志采集-消费KafkaFlume时间戳拦截器

440

9分26秒

052-尚硅谷-日志采集-消费KafkaFlume测试

390

1分21秒

053-尚硅谷-日志采集-消费KafkaFlume启停脚本

390

4分38秒

054-尚硅谷-日志采集-消费KafkaFlume内存调整

320

3分23秒

055-尚硅谷-日志采集-小结

310

12分12秒

056-尚硅谷-业务数据采集-电商系统概述

370

7分7秒

057-尚硅谷-业务数据采集-电商系统基本概念

340

7分44秒

058-尚硅谷-业务数据采集-电商系统表结构说明

370

25分1秒

059-尚硅谷-业务数据采集-电商系统核心表概述

340

15分55秒

060-尚硅谷-业务数据采集-电商系统表结构讲解

410

7分58秒

061-尚硅谷-业务数据采集-电商系统表字段说明

380

9分27秒

062-尚硅谷-业务数据采集-模拟数据生成之mysql部署

370

3分40秒

063-尚硅谷-业务数据采集-模拟数据生成之建表

350

10分23秒

064-尚硅谷-业务数据采集-模拟数据生成之EZDM使用简明介绍

410

9分39秒

065-尚硅谷-业务数据采集-模拟数据生成之测试

470

7分11秒

066-尚硅谷-业务数据采集-Sqoop概述

400

7分12秒

067-尚硅谷-业务数据采集-Sqoop安装

370

4分53秒

068-尚硅谷-业务数据采集-Sqoop测试

360

26分13秒

069-尚硅谷-业务数据采集-Sqoop基础使用

440

7分4秒

070-尚硅谷-业务数据采集-Sqoop使用之SQL形式导入

350

23分40秒

071-尚硅谷-业务数据采集-数据同步策略

340

14分33秒

072-尚硅谷-业务数据采集-业务数据表同步策略划分

360

40分18秒

073-尚硅谷-业务数据采集-Sqoop导入脚本之基础说明

310

7分33秒

074-尚硅谷-业务数据采集-Sqoop导入脚本之同步策略说明

450

2分40秒

075-尚硅谷-业务数据采集-Sqoop导入脚本之测试

350

1分35秒

076-尚硅谷-业务数据采集-Sqoop导入脚本之存在问题分析

380

3分57秒

077-尚硅谷-业务数据采集-Sqoop导入脚本之数据验证

420

34分16秒

078-尚硅谷-数仓建模理论-分层概述

440

5分48秒

079-尚硅谷-数仓建模理论-数据集市

300

7分43秒

080-尚硅谷-数仓建模理论-命名规范

390

17分1秒

081-尚硅谷-数仓建模理论-范式理论之概述

370

8分27秒

082-尚硅谷-数仓建模理论-范式理论之函数依赖

380

13分9秒

083-尚硅谷-数仓建模理论-范式理论之三范式

420

12分35秒

084-尚硅谷-数仓建模理论-OLTP与OLAP概述

420

18分6秒

085-尚硅谷-数仓建模理论-关系建模与维度建模

520

15分2秒

086-尚硅谷-数仓建模理论-维度模型之事实表与维度表

500

17分0秒

087-尚硅谷-数仓建模理论-维度模型之事实表分类

380

9分27秒

088-尚硅谷-数仓建模理论-维度模型之模型分类

490

13分41秒

089-尚硅谷-数仓建模理论-数仓分层模型之整体概述

380

4分33秒

090-尚硅谷-数仓建模理论-数仓分层模型之ODS层

380

26分1秒

091-尚硅谷-数仓建模理论-数仓分层模型之DWD层

310

30分51秒

092-尚硅谷-数仓建模理论-数仓分层模型之DWD层维度建模演示

400

11分2秒

093-尚硅谷-数仓建模理论-数仓分层模型之DWS层与DWT层

370

2分10秒

094-尚硅谷-数仓建模理论-数仓分层模型之建模驱动

430

10分34秒

095-尚硅谷-数仓环境准备-Hive安装

400

4分30秒

096-尚硅谷-数仓环境准备-Hive引擎说明

410

8分35秒

097-尚硅谷-数仓环境准备-框架兼容性问题说明

330

23分32秒

098-尚硅谷-数仓环境准备-HiveOnSpark配置

590

10分7秒

099-尚硅谷-数仓环境准备-HiveOnSpark测试

480

17分14秒

100-尚硅谷-数仓环境准备-Yarn容量调度器之并发度问题演示

400

19分38秒

101-尚硅谷-数仓环境准备-Yarn容量调度器之多队列配置

350

8分21秒

102-尚硅谷-数仓环境准备-Yarn容量调度器之提交任务指定队列

380

100

8分24秒

103-尚硅谷-数仓环境准备-DataGrip使用介绍

380

101

16分43秒

104-尚硅谷-数仓环境准备-新数据准备

350

102

11分4秒

105-尚硅谷-数仓搭建-ODS层日志表之建表语句

380

103

5分32秒

106-尚硅谷-数仓搭建-ODS层日志表之数据装载

360

104

7分58秒

107-尚硅谷-数仓搭建-ODS层日志表之装载脚本

330

105

4分33秒

108-尚硅谷-数仓搭建-扩展之Shell脚本引号总结

370

106

6分18秒

109-尚硅谷-数仓搭建-ODS层业务表之建表语句

340

107

4分28秒

110-尚硅谷-数仓搭建-ODS层业务表之装载脚本

420

108

8分8秒

111-尚硅谷-数仓搭建-DWD层日志表之数据结构回顾

400

109

7分34秒

112-尚硅谷-数仓搭建-DWD层日志表之Hive解析JSON函数说明

450

110

6分3秒

113-尚硅谷-数仓搭建-DWD层日志表之日志解析思路分析

340

111

7分26秒

114-尚硅谷-数仓搭建-DWD层日志表之启动表建表语句

330

112

9分0秒

115-尚硅谷-数仓搭建-DWD层日志表之启动表数据装载

360

113

4分28秒

116-尚硅谷-数仓搭建-DWD层日志表之页面表

380

114

9分14秒

117-尚硅谷-数仓搭建-DWD层日志表之动作表解析思路

360

115

5分42秒

118-尚硅谷-数仓搭建-回顾之explode函数使用说明

340

116

3分16秒

119-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数设计

270

117

11分16秒

120-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数说明

420

118

27分6秒

121-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(一)

380

119

8分49秒

122-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(二)

390

120

3分38秒

123-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数注意事项

300

121

6分10秒

124-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数创建

360

122

8分6秒

125-尚硅谷-数仓搭建-DWD层日志表之动作表数据装载

420

123

4分47秒

126-尚硅谷-数仓搭建-DWD层日志表之曝光表

450

124

9分8秒

127-尚硅谷-数仓搭建-DWD层日志表之错误表

400

125

9分57秒

128-尚硅谷-数仓搭建-DWD层数据装载之lzo索引文件识别问题

340

126

5分46秒

129-尚硅谷-数仓搭建-DWD层日志表之数据装载脚本

370

127

4分54秒

130-尚硅谷-数仓搭建-DWD层业务表之维度模型概述

340

128

11分5秒

131-尚硅谷-数仓搭建-DWD层业务表之商品维度表

330

129

1分50秒

132-尚硅谷-数仓搭建-DWD层业务表之优惠券维度表

430

130

11分44秒

133-尚硅谷-数仓搭建-DWD层业务表之活动维度表

350

131

3分40秒

134-尚硅谷-数仓搭建-DWD层业务表之地区维度表

450

132

16分34秒

135-尚硅谷-数仓搭建-DWD层业务表之时间维度表

340

133

19分22秒

136-尚硅谷-数仓搭建-DWD层业务表之支付事实表

380

134

7分22秒

137-尚硅谷-数仓搭建-DWD层业务表之退款事实表

300

135

9分45秒

138-尚硅谷-数仓搭建-DWD层业务表之评价事实表

390

136

7分8秒

139-尚硅谷-数仓搭建-DWD层业务表之订单明细实表建表语句

380

137

14分1秒

140-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(一)

310

138

9分26秒

141-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(二)

300

139

10分46秒

142-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(三)

290

140

7分56秒

143-尚硅谷-数仓搭建-DWD层业务表之加购与收藏事实表

390

141

10分16秒

144-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分析

390

142

7分48秒

145-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分区规划

380

143

9分35秒

146-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载思路

320

144

16分4秒

147-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载

330

145

9分53秒

148-尚硅谷-数仓搭建-DWD层业务表之订单事实表建表语句

430

146

43分22秒

149-尚硅谷-数仓搭建-DWD层业务表之订单事实表数据装载

340

147

17分10秒

150-尚硅谷-数仓搭建-DWD层业务表之拉链表概述

330

148

15分19秒

151-尚硅谷-数仓搭建-DWD层业务表之拉链表制作过程概述

350

149

17分40秒

152-尚硅谷-数仓搭建-DWD层业务表之用户维度表(一)

400

150

19分44秒

153-尚硅谷-数仓搭建-DWD层业务表之用户维度表(二)

390

151

8分10秒

154-尚硅谷-数仓搭建-DWD层业务表之数据装载脚本

340

152

28分38秒

155-尚硅谷-数仓搭建-DWS&DWT层之业务术语

360

153

14分11秒

156-尚硅谷-数仓搭建-DWS&DWT层之日期函数

380

154

7分22秒

157-尚硅谷-数仓搭建-DWS&DWT层之复杂数据类型使用说明

330

155

16分3秒

158-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表建表语句

400

156

47分40秒

159-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表数据装载

270

157

24分16秒

160-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表建表语句

310

158

6分37秒

161-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载思路分析

390

159

14分46秒

162-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(一)

390

160

29分43秒

163-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(二)

360

161

5分43秒

164-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表建表语句

330

162

13分7秒

165-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表数据装载

370

163

6分35秒

166-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表建表语句

340

164

13分45秒

167-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表初次装载说明

390

165

9分28秒

168-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表数据装载

480

166

1分20秒

169-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表建表语句

370

167

23分6秒

170-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(一)

390

168

24分27秒

171-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

430

169

9分25秒

172-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

320

170

12分3秒

173-尚硅谷-数仓搭建-DWT层之商品主题累积汇总表

400

171

20分48秒

174-尚硅谷-数仓搭建-DWS&DWT层之活动主题汇总表

430

172

16分29秒

175-尚硅谷-数仓搭建-DWS&DWT层之地区主题汇总表

430

173

7分5秒

176-尚硅谷-数仓搭建-DWS&DWT层之数据装载脚本

401

174

45分43秒

177-尚硅谷-数仓需求-设备主题之活跃设备数

350

175

4分36秒

178-尚硅谷-数仓需求-设备主题之新增&沉默&流失需求说明

330

176

6分13秒

179-尚硅谷-数仓需求-设备主题之新增设备数需求讲解

260

177

4分9秒

180-尚硅谷-数仓需求-设备主题之沉默用户数需求讲解

380

178

2分51秒

181-尚硅谷-数仓需求-设备主题之流失用户数需求讲解

370

179

8分5秒

182-尚硅谷-数仓需求-设备主题之留存率需求说明

430

180

2分2秒

183-尚硅谷-数仓需求-设备主题之回流用户数需求说明(一)

430

181

2分9秒

184-尚硅谷-数仓需求-设备主题之回流用户数需求说明(二)

400

182

1分57秒

185-尚硅谷-数仓需求-设备主题之最近三周连续活跃用户数需求说明

390

183

2分15秒

186-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求说明

360

184

16分33秒

187-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路一)

420

185

8分26秒

188-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路二)

330

186

14分24秒

189-尚硅谷-数仓需求-设备主题之回流用户数需求讲解

370

187

21分0秒

190-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路一)

410

188

9分28秒

191-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路二)

410

189

20分19秒

192-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路一)

350

190

13分4秒

193-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路二)

330

191

4分44秒

194-尚硅谷-数仓需求-会员主题之会员信息统计需求说明

370

192

5分15秒

195-尚硅谷-数仓需求-会员主题之漏斗分析需求说明

390

193

1分51秒

196-尚硅谷-数仓需求-商品主题之商品个数需求说明

340

194

10分1秒

197-尚硅谷-数仓需求-会员主题之会员信息统计需求讲解

330

195

21分8秒

198-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路一)

370

196

6分16秒

199-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路二)

270

197

5分51秒

200-尚硅谷-数仓需求-商品主题之商品个数需求讲解

310

198

8分5秒

201-尚硅谷-数仓需求-商品主题之全局TopN需求说明

380

199

2分45秒

202-尚硅谷-数仓需求-商品主题之分组TopN需求说明

390

200

4分28秒

203-尚硅谷-数仓需求-商品主题之销量排行需求讲解

330

201

3分21秒

204-尚硅谷-数仓需求-商品主题之退款率排行需求讲解

390

202

2分44秒

205-尚硅谷-数仓需求-商品主题之差评率排行需求讲解

360

203

10分57秒

206-尚硅谷-数仓需求-商品主题之分组TopN需求讲解

330

204

7分32秒

207-尚硅谷-数仓需求-营销主题之下单&支付统计需求说明

350

205

9分14秒

208-尚硅谷-数仓需求-营销主题之品怕复购率需求说明

380

206

3分44秒

209-尚硅谷-数仓需求-营销主题之下单统计需求讲解

370

207

11分45秒

210-尚硅谷-数仓需求-营销主题之支付统计需求讲解

350

208

16分54秒

211-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路一)

370

209

9分18秒

212-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路二)

460

210

7分48秒

213-尚硅谷-数仓需求-ADS层数据导入脚本

400

211

14分47秒

214-尚硅谷-全流程调度-工作流程概述

360

212

11分26秒

215-尚硅谷-全流程调度-调度系统概述

400

213

7分54秒

216-尚硅谷-全流程调度-Azkaban部署模式概述

380

214

2分57秒

217-尚硅谷-全流程调度-Azkaban安装之安装包准备

380

215

5分53秒

218-尚硅谷-全流程调度-Azkaban安装之数据库准备

340

216

11分25秒

219-尚硅谷-全流程调度-Azkaban安装之Exec部署

400

217

10分6秒

220-尚硅谷-全流程调度-Azkaban安装之Web部署

470

218

7分53秒

221-尚硅谷-全流程调度-Azkaban使用之入门案例

350

219

5分30秒

222-尚硅谷-全流程调度-Azkaban使用之工作流程配置文件说明

390

220

11分22秒

223-尚硅谷-全流程调度-Azkaban使用之Yaml文件格式概述

390

221

6分34秒

224-尚硅谷-全流程调度-Azkaban使用之任务依赖配置

420

222

4分23秒

225-尚硅谷-全流程调度-Azkaban使用之自动失败重试

380

223

3分56秒

226-尚硅谷-全流程调度-Azkaban使用之手动失败重试

390

224

6分57秒

227-尚硅谷-全流程调度-Azkaban使用之定时调度

410

225

9分35秒

228-尚硅谷-全流程调度-Azkaban使用之邮件配置

470

226

4分35秒

229-尚硅谷-全流程调度-Azkaban使用之邮件通知演示

310

227

5分14秒

230-尚硅谷-全流程调度-实操之Sqoop导出功能说明

440

228

15分3秒

231-尚硅谷-全流程调度-实操之MySQL建库建表

330

229

28分36秒

232-尚硅谷-全流程调度-实操之Sqoop导出脚本

380

230

6分58秒

233-尚硅谷-全流程调度-实操之新数据准备

360

231

7分13秒

234-尚硅谷-全流程调度-实操之Azkaban启停脚本

370

232

11分9秒

235-尚硅谷-全流程调度-实操之Azkaban工作流程配置文件编写

360

233

5分22秒

236-尚硅谷-全流程调度-实操之Azkaban工作流传参说明

440

234

9分34秒

237-尚硅谷-全流程调度-实操之Azkaban全流程调度演示

360

235

8分16秒

238-尚硅谷-全流程调度-实操之Azkaban问题总结

360

236

4分45秒

239-尚硅谷-数据可视化-概述

450

237

6分22秒

240-尚硅谷-数据可视化-Superset概述

370

238

15分56秒

241-尚硅谷-数据可视化-Superset安装之Miniconda部署

520

239

9分43秒

242-尚硅谷-数据可视化-Superset安装之准备Python3.6环境

430

240

7分2秒

243-尚硅谷-数据可视化-Superset安装

530

241

5分31秒

244-尚硅谷-数据可视化-Superset安装之初始化

490

242

6分20秒

245-尚硅谷-数据可视化-Superset安装之启动

400

243

9分52秒

246-尚硅谷-数据可视化-Superset安装之启停脚本

380

244

12分40秒

247-尚硅谷-数据可视化-Superset使用之对接数据源

450

245

13分39秒

248-尚硅谷-数据可视化-Superset使用之趋势图示例

780

246

7分29秒

249-尚硅谷-数据可视化-Superset使用之地图与饼状图示例

980

247

5分17秒

250-尚硅谷-数据可视化-Superset使用之编辑仪表盘

540

248

4分46秒

251-尚硅谷-即席查询-概述

370

249

4分42秒

252-尚硅谷-即席查询-Kylin概述

370

250

38分9秒

253-尚硅谷-即席查询-Kylin前置概念

310

251

12分46秒

254-尚硅谷-即席查询-Kylin基础架构

320

252

6分35秒

255-尚硅谷-即席查询-Kylin特点

310

253

14分12秒

256-尚硅谷-即席查询-Kylin安装之HBase部署

340

254

2分30秒

257-尚硅谷-即席查询-Kylin安装之环境变量准备

380

255

13分19秒

258-尚硅谷-即席查询-Kylin安装之兼容性问题说明

380

256

4分15秒

259-尚硅谷-即席查询-Kylin启动

440

257

30分54秒

260-尚硅谷-即席查询-Kylin使用之基础用法

360

258

21分49秒

261-尚硅谷-即席查询-Kylin使用之维度表重复key问题说明

380

259

8分29秒

262-尚硅谷-即席查询-Kylin使用之查询

390

260

12分39秒

263-尚硅谷-即席查询-Kylin使用之RestAPI使用概述

260

261

9分21秒

264-尚硅谷-即席查询-Kylin使用之每日定时构建脚本

440

262

6分42秒

265-尚硅谷-即席查询-Kylin原理之基础概念回顾

330

263

8分21秒

266-尚硅谷-即席查询-Kylin原理之Cube存储原理

480

264

15分2秒

267-尚硅谷-即席查询-Kylin原理之Cube构建原理

320

265

18分0秒

268-尚硅谷-即席查询-Kylin优化之衍生维度

400

266

13分24秒

269-尚硅谷-即席查询-Kylin优化之聚合组

340

267

15分23秒

270-尚硅谷-即席查询-Kylin优化之Rowkey调整

330

268

8分51秒

271-尚硅谷-即席查询-Kylin优化之并发粒度优化

370

269

7分13秒

272-尚硅谷-即席查询-KylinBI集成之JDBC

390

270

11分47秒

273-尚硅谷-即席查询-KylinBI集成之Zeppelin

390

271

25分6秒

274-尚硅谷-即席查询-Presto概述

340

272

23分45秒

275-尚硅谷-即席查询-Presto安装之Server部署

370

273

5分56秒

276-尚硅谷-即席查询-Presto安装之命令行客户端部署

340

274

8分54秒

277-尚硅谷-即席查询-Presto安装之LZO 压缩格式说明

320

275

8分14秒

278-尚硅谷-即席查询-Presto安装之可视化客户端部署

440

276

17分31秒

279-尚硅谷-即席查询-Presto使用注意事项

390

277

13分49秒

280-尚硅谷-集群监控-Zabbix概述

460

278

7分45秒

281-尚硅谷-集群监控-Zabbix安装之服务器环境准备

310

279

12分29秒

282-尚硅谷-集群监控-Zabbix安装之yum仓库配置

350

280

2分8秒

283-尚硅谷-集群监控-Zabbix安装之下载安装

380

281

10分9秒

284-尚硅谷-集群监控-Zabbix安装之修改配置文件

310

282

2分21秒

285-尚硅谷-集群监控-Zabbix启动

330

283

3分37秒

286-尚硅谷-集群监控-Zabbix安装之web配置

320

284

5分3秒

287-尚硅谷-集群监控-Zabbix使用之术语

400

285

7分17秒

288-尚硅谷-集群监控-Zabbix使用之创建主机

360

286

13分43秒

289-尚硅谷-集群监控-Zabbix使用之配置监控项

330

287

6分13秒

290-尚硅谷-集群监控-Zabbix使用之配置触发器

350

288

3分18秒

291-尚硅谷-集群监控-Zabbix使用之配置报警媒介

380

289

7分56秒

292-尚硅谷-集群监控-Zabbix使用之配置动作

320

290

2分12秒

293-尚硅谷-集群监控-Zabbix使用之测试

430

291

12分59秒

294-尚硅谷-集群监控-Zabbix使用之模板

390

270-尚硅谷-即席查询-Kylin优化之Rowkey调整

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐