文章/答案/技术大牛

发布

首页视频279-尚硅谷-即席查询-Presto使用注意事项

279-尚硅谷-即席查询-Presto使用注意事项

2022-12-022022-12-02 16:02:24播放39

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商数仓项目（含2.0、3.0版本）/尚硅谷数仓项目实战V3.0/视频/279-尚硅谷-即席查询-Presto使用注意事项.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
来，我们现在先看这个1.3啊，1.31.3这是什么呢？叫做presal优化之数据存储啊，也就是说在这儿呢，我们其实也谈不上什么优化吧，也谈不上什么优化，就是呃，如果说我有些表，我需要让这个press去查询，那我这个数据的存储格式应该怎么选择，其实就告诉大家这个事儿啊，来咱们看一看这里边的三个点，那一个呢是关于分区，一个是关于劣势存储，一个是关于压缩啊，那这些呢，咱们怎么选择呢？一个一个看啊，先看第一个，哎，合理设置分区。合理设置分区啊。呃，这边想告诉我们的是什么啊，就是说与have类似，Price呢，会根据原数据，谁的原数据啊，就是have的原数据对吧？会读取分区数据啊，也就是说什么意思，就是PAL，它是不是也能够识别咱们have的分区啊？对不对，只要能识别分区，那我去以分区过滤数据的时候，那你的效率是不是就会很高，对不对，不用全面扫描嘛，直接找那个路径就行了，那所以说既然press能够识别还有的分区，那所以说我们合理的设置分区，是不是能够减少press这个全秒扫描的这个几率啊，对不对啊，能够提升性能啊，所以说这边呢，你就呃这个当中，咱们这个数据该怎么分区，你就还怎么分区就行了。
01:15
啊，你比如说咱们现在我们离线计算，那因为离线数据，离线计算的时候呢，我们更多的是不是就是一天数据一天数据去计算呀，对吧？那所以说我是不是更多情况下就是按天去过滤数据，对吧？所以说咱们按日期分区，那这个是不是就比较合理了呀，对不对？那假如你后期我有一张表，我可能会按照什么，比如说按照省份啊呃，按照市，按照区区分区啊，区区过滤啊，那这个是比较频繁的，那你是不是还可以按照啊，什么市啊啊什么省啊，什么区区分区是不是也是可以的呀，对吧？你得看你具体的这个查询场景了啊啊，那所以分区对press同样有效啊，啊记住这点就行了，那接下来重点看下面这个劣势存储和拉类和这个压缩。那这边咱们呃需要怎么选择呢？啊很简单啊，Presal对orc这个劣势存储做了特定的优化，因为咱们大家之前在学劣势存储的时候，咱们应该呃讲过一个是pre，一个是呃不是pre，一个是那个paqui，一个是orc，对吧，两种那呢，它是对orc有特定优化的，那所以说那在have当中，我们去创建preal需要使用的表的时候呢，那我们就建议大家采用orc这种存储格式。
02:23
啊，是这样的啊，相对于per qui，那pre呢，对orc支持是更好的啊，也就是劣势存储你就选orc就行了啊好，那关于压缩咱们怎么选择呢？压缩这边呢，倒是没有提到说什么有特定的优化，那这边呢，我们就按场景去选择就行了啊按场景选择，那press咱们应用什么场景啊。因为什么场景啊，机器查询嘛，机器查询咱们追求的是不是就是快对不对，那既然追求的快，那我们选压缩是不是也要选一个较快的压缩速度这个格式啊，对吧，那谁最快呀。Snap最快，那我们就选snapy呗，啊，那所以说如果说我们还当中有一张表啊，后期需要交给press去做机器查询，去做机器分析啊，那这时候呢，我们就可以将这张表的列存储设为orc，将拉应压缩呢设为snapy。
03:13
就这么去设置就可以了啊啊，那怎么去建一张表，呃，去声明它的列存储为per这个orc，然后压缩格式为sleep，怎么去建表啊。这个语句大家会不会写呀？不会写怎么办？查呀，还有官网是不是肯定有啊，你就还有官网查这个肯定能找到的啊，那大家需要呃，还是得多看官网啊，多更网啊行，那接下来往下走，下边呢，我们看这个1.4啊，1.4这边呢，有一个pre优化之SQ查询啊，这其实就是我们在写S的时候呢，一些注意事项，咱们一个一个看啊，首先第一个。选择使用的字段，这个很简单吧，因为咱们是不是都采用劣势存储了呀，那你就不用赖星啊，你只选自己所需的字段，是不是这个效率是比较高的呀，这个不多说了，下一个。
04:01
下一个是什么？过滤条件必须加上分区字段。哎，这个好像说的有点是不，有点坏，有点太满了，对吧？什么叫过滤条件必须加上神奇之外呀。我我我假如说我就想查全表，你就想查全表也要加上分区吗。也要Y2分区等于什么不是吧，这个应该得根据场景啊，这边他其实想表达的意思是什么呢？他想表达的意思应该是这个啊，就是说啊，假如我现在有一个需求，我要读数据，对吧，我能以分区作为过滤条件，尽量以分区作为过滤条件。他想想表达应该是这个意思啊，那这么说可能还不好理解，我举个例子吧，呃，我举个例子啊，咱们现在以哪个表为例呢？以我们数仓里边的那张表为例啊，以数仓当中的啊认定啊，以数仓当中的这个DW defec older in four为例。啊DW defo啊是那个订单实时表对吧，以他为例啊，以他为例，那比如说我现在呢，想获取6月15号的全部订单的数据。
05:03
6月15号的全部订单，你说你这个应该怎么过滤。是不是咱们两种过滤方式啊，对不对，哪两种，一种方式select星from咱们那个表，然后过滤条件用谁用dt where dt等于六月15没问题吧，为啥？因为咱们那个分区的时候，我们前面强调过，我们每天的分区里是不是存放的就是当天所下的订单，这个讲过了是吧？啊，这是一种方式，那还可以根据谁过滤。是不是还有个cur time字段呀，对吧，我们可以根据cur time，因为咱们那个表是一个什么表，累计行快照时表，是不是里边有各种时间呀，那我们就找，诶cur time等于6月15号的订单，是不是也能把6月15号的所有订单找到，两种方式都能找到，而且结果一样不一样，结果肯定一样，结果肯定一样，那咱们应该用哪种方式呢？肯定用DT呀，对吧，为什么你用DT的话，我直接根据分区字段过滤，是不是直接找到对应路径就可以了，那如果你用cur虑time进行过滤呢，它会怎么做，它肯定会全面扫描的，对不对？那所以说呢，那能以分区作为过滤，尽量以分区作为过滤条件，那其实它这儿呢，想表达的是这个啊意思啊，而不是说什么所有的过滤条件必须加上分析字啊，这个大家应该能理解啊，好，接着往下走。
06:18
下边呢，是关于葛入拜这个语句的这个优化，呃，这个葛入拜呢，指的是什么场景啊，这边呢是，呃，如果说我们进行这个soq分析的时候呢，哎，我们有这种场景，就是你需要可入BY多个字段，咱们之前写SQ是不是也经常有这样的场景啊，对吧？哎按照多个字段分组，那按照多个字段分组的时候呢，你分组字段的排序在这儿是有这个特殊的，哎说明的，那你这个排序怎么排呀？来看这句话。将啊格如BY语句字段中啊，这个按照什么排序啊，按照每个字段的count distinct的值进行降序排序，那其实这个想表达的就是啥，这个抗的金额就是啥，咱们前面讲过一个概念叫什么基数对不对？基数还记得奇数这个概念吧，讲麒麟的时候不是讲过呀啊那也就说你应该按照基数进行降序排序。
07:08
那你就是他这有俩小例子啊。一个是按照谁分组UID加gender u ID是啥是user ID真的是啥是性别啊，真的是性别啊，真是性别，那性别是不是就俩啊，可能有仨是吧，一共就俩，那UID肯定是很多对不对，肯定是很多，那所以这边就是啥。降序降序是不是就是good对吧，那这个是什么，是升序，升序就是BY啊，所以咱们这儿呢，按照它要求，按照降序排序就行了，它有特定的优化，应该是啊啊那再往下走，那下边我们这儿呢，有一个order by啊order by的时候啊，也有一个注意事项，Order by的时候要求我们使用啥。使用limit order by的时候使用limit，诶这个好像说的也有点，这个有点太强硬了，对吧？比如说我现在就想得到一个全局有序的数据集，那我怎么加limit米，我加limit米的结果是不是就不对了呀，对不对，那所以说这个他们怎么理解啊，其实你想一想，我们在做这种需求分析的时候呢，基本上啊，涉及到排序的这个需求，我们肯定是啥呀。
08:11
肯定是套盆或者是包特门啊，我们几乎很少会会有这样的需求，让你去得到一个全局有趣的数据集啊，这样很少，因为没有太多的意义啊，一般我们就看前几看后几就行了，对吧？啊，那所以说那order by的时候呢，我们通常就会伴随着这个厘米的啊，是这样的啊啊，那这边他强调的这个order by时必须用limit，其实他想表达的是什么意思呢？啊，其实想表达的是它这个底层的计算逻辑是不同的，加不加limit order by的时候呢，你这个计算逻辑是不同的。啊，接下来简单说一下这个事儿啊。呃，画个图吧啊，这个应该没啥用了，咱们给它关了啊CTRLC啊，那说一下这个东西啊，那如果说我们使用P的时候呢，如果说你没有加，就是进行排序啊，没有加limit，那它是怎么做的呀。比如说这是你那张大表对不对啊，那你不加limit米啊，你不管中间这个是怎么计算的，但是到最后的时候，我要得到是一个是一个全局的有序，全局有序的一个数据集吧，对不对，那这会怎么做呀？他肯定会把所有的数据最终都写到一个窝坑里边的，对不对，因为你只有在同一台节点，你是不是才能做全局有序的这个排序啊，对不对？那所以说这个worker压力肯定是比较大的，那如果说你加了limit之后呢，比如说我对它进行排序，然后只取前100LIMIT100，那这样会怎么做呀？诶会把这个数据呢，先呃进行拆分，那比如说拆成三部分或几部分，然后每一部分呢，分到一个worker，每个worker只取什么？
09:41
只取自己这一部分数据的前100，然后呢，再把每个前100放到哪，放到最后一个worker里边，是不是得到最终的前100啊，对不对，那这样一来就不会有任意一台，不会有任何一台的这个worker，它的压力比较大，对吧？啊，压力是均摊的，那所以说你加limit和不加limit呢，对它这个底层的支撑逻辑呢，是有影响的啊，所以说呢，我们在这儿呢，就记住这样一个原则，我们用order by的时候呢，一定要带着limit，而且一般情况下，我们这个场景是不是也就是前十或者是后十啊，对吧？哎，前前几或后几，所以这个加厘米的也是应该的啊，那大家把这个记住就行了，好嘞，那下一个。
10:20
还有最后一个啊，最后一个呢是什么？使用join语句时，需要将大表放在前边，小表放在后边。诶，那我们have当中好像也有类似的这个优化嘛，对不对，好像一开始也要求我们什么大表在前脚边在后什么的，对吧，但是现在have是不是已经把这点给它优化掉了呀，对不对，也就是说它会自动的去判断谁大谁小，然后帮你进行优化，这其实主要涉及的是啥呀。Map对不对？主要涉及的是map have当中咱们叫做map对不对啊，还记得map是怎么样的一个原理吗？还记得吗？是不是会把小表缓存在咱们那个内存当中啊，对不对，然后呢，对大表进行便利对不对啊这么去装啊，那其实在price当中呢，也有这个类似于map John的这种算法，只不过在这里边它不叫map John，它叫什么John呢？叫做。
11:12
广播z broadcast。Broadcast它其实就是have当中那个map，其实一个道理啊，那在这里边，它这里边是怎么去做的呢？啊给大家解释一下。假如我现在呢，是大赚小啊。一个大表一个小表对不对，那你要这样的话，应该怎么做。多个worker啊，多个worker，那它底层这个所谓的广播照，其实就等于map，它会怎么做呀，它会把这个小表怎么办分到每个。每个什么里边，每个沃壳里边啊，每个沃壳里边，然后呢会缓存下来，然后呢对大表进行啥。哎，进行相当于进行拆分，哎这一部分，这一部分这一部分，然后呢，每一部分给一个worker，哎，那这样一来的话，是不是每个worker我就能够把自己的这部分数据转到一起，然后给你返回最终的结果了呀，对不对，哎，它是这么多，就是这是广播照那广播站的时候呢，是不是肯定会有一个表会被分发，有一个表会被拆分呀，对吧？那它拆的是谁啊，那分发分的是谁呢？拆的是前边的，哎分发的后边的，那所以这边就要求我们是不是得大表在前，小表在后啊对不对，就记住这个原则就行。
12:21
啊，那如果说我这儿的使用的是大表装大表呢。它是大表上大表怎么办？大表照大表是就不区分前后了呀，对吧，那谁在前谁在后都一样啊，而且这个它底层如果是两个大表的话呢，它也不会再采用broadca John了，它会采用另外一种join算法，叫做哈希照，哈希照怎么是怎么样一个原理呢？其实也很简单啊，这是多个worker对吧，那哈希哈希按照谁哈希啊，你说。是不是会按照这两张表的那个连接条件进行哈希，我用哪个字段进行转，我是不是就按照哪个字段哈希呀，对吧，那这样一来是不是会把召唤到一起的数据哈希到同样的一个节点。
13:01
对不对，那是不是各自就都能照着上来呀？啊是这样的，它是这么去做的啊，那大表照大表这块我们不用关心这个顺序，你就记住大表跟小表照的时候呢，大表在前，小本在后就可以了啊这是这几个思科的注意事项啊，当然在这儿呢，大家呃，这个顺，这个注意事项呢，可能也不大好记啊，你像这东西很容易记混的啊，比如说这个在这儿咱们说的是降序排序啊，对吧，可能一会儿你就记成什么升序了啊对吧，那这个现在说的是大本在前，你可能后一会就忘了，哎，是不是小本在前啊对吧，这东西很难记啊，也不用去记，也不用记啊，就是大家以后知道有这个点就行，以后用的话呢，诶，你翻过来看一看是不是就行了呀，对吧？这个不用死记硬背啊，啊，那这是关于它，那接下来还剩最后一点东西，咱们再坚持一下啊，还有一个注意事项，咱们把这个讲完，那press我们就说完了啊好看注意事项啊，那几个注意事项分别是啥？先看第一个。看这啊，字段名引用啊，这个标题起的也不知道啥意思是吧，咱不用看它了啊，这边主要说的是啥啊，大家回忆一下，我们在have或在买搜狗当中，咱们建表的时候啊，你的表名或者是你的字段名啊，如果说你那个表名恰好就是一个SQ当中的关键字。
14:11
啊，比如说我这个表名叫order表，Order，你就直接order，那这个是建表的时候肯定会报错，对吧，因为啥，因为order是关键字啊，对吧，但是我现在我就想用order作为我的表名。那你怎么去做呀？对，是不是加在那个order，呃，那个上面加一个那个反引号或标号，是不是用来声明一下，我现在不是关键字，我就是一个普通的表明，对吧，是不是就可以了，那price当中啊，也有类似的操作啊，也有类似，只不过呢，我标识的时候呢，不用这个反引号，我用什么呢？用双引号。啊，这有一点区别的啊，这个得记住啊，啊也就是他标出标识这个关键字的时候呢，它用的不是这个这个这个不是用的这个标号，是用的反引，是用的双引号，把这个记住就行了啊啊这是它，那接下来还有一个啊，关于这个时间的这个一个说明，关于时间一个说明啊这个主要说的是什么呢？咱们看下面这个例子就行了。
15:08
看一下这个色。这搜呢，大家应该有有有有这个类似的这个场景啊，这相当于什么，是不是就从一张表里选数据对不对，然后呢，外二物理条件是啥。是不是一个字段，这个T呢？就是我们这个A表当中的一个字段啊，是不是用这个字段，当然这个字段类型的是一个时间字段啊，用这个时间去跟另一个时间去比较，对吧？T大于什么对不对？那咱们在have当中，或者或者在MYSO当中啊，我一个字段去跟一个时间比较的时候，那是不是就直接让这个字段跟一个时间字符串比就行了呀，这是不是就是一个字符串，哎，在have在当中都能直接比较，都能直接比，但是在咱们的press当中你就比不了了。在press，你这样比比不了这个语法它不对啊，你要想在当中写类似的这个操作的话呢，你得怎么做呀，必须得在你这个时间的字符串前边加上一个time step这样的一个关键字。
16:06
啊，用来声明我后边这个字符串呢，是一个时间，你才能进行比较。啊，这块呢，是有一点麻烦的啊，有点麻烦的，这个大家注意就行了啊，就是这块的有一点这个语法的这个不同，把这个就准行了啊，但是在买思在have当中，这个时间字符段能够这个字符段呢，能够直接跟时间字段进行比较，在press当中呢，就不行啊，就不行，再把这个记住好，那现在再往下走。不支持insert or right语法啊，Press是不支持insert or right的啊，那假如我就想实现这个效果怎么做呢？只能先手动删除，再手动的iner的into，只能这么做啊，那当然这个其实也不影响咱们使用啊，为啥呀，咱们使用图字干什么用呢？查询对吧，咱们是集查询嘛，呃，我在have当中，我往表里边导数据那一套操作，咱不是还是用have去做呀，对吧？啊所以说这边呢，不影响咱们使用啊，即便不能插入也无所谓啊，能查就行啊，这是关于它那还有一个。
17:05
关于PA qui的这个列式存储格式啊，这样的一个说明啊，Presso支不支持读取PA qui格式的文件呢？支持，但是只支持读取。啊，不支持插入啊，那当然这个也不影响咱们使用对吧，因为咱们毕竟也是只用它用来查询对吧，我不会让他去导数据的啊是这样的，就是这样的几个注意事项啊。好，那到这儿呢，我们pre就讲完了啊，我把视频录一下。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷数仓项目实战V3.0

（276/291）

7分1秒

001-尚硅谷-数据仓库-课程介绍

390

19分57秒

002-尚硅谷-数据仓库-项目概述

350

15分4秒

003-尚硅谷-项目分析-需求分析

300

17分26秒

004-尚硅谷-项目分析-技术选型

420

11分48秒

005-尚硅谷-项目分析-数据流程设计图

370

13分25秒

006-尚硅谷-项目分析-框架版本选择

380

10分2秒

007-尚硅谷-项目分析-服务器选型

270

11分59秒

008-尚硅谷-项目分析-集群规模规划

370

20分1秒

009-尚硅谷-日志采集-埋点目标数据

560

9分50秒

010-尚硅谷-日志采集-主流埋点方式(了解)

460

12分31秒

011-尚硅谷-日志采集-日志数据结构

400

4分42秒

012-尚硅谷-日志采集-埋点数据上报时机

340

14分25秒

013-尚硅谷-日志采集-服务器准备

420

8分40秒

017-尚硅谷-日志采集-JDK配置及免密配置

370

1分48秒

018-尚硅谷-日志采集-JDK分发

370

7分30秒

019-尚硅谷-日志采集-Linux环境变量说明

420

10分24秒

020-尚硅谷-日志采集-模拟生成日志

380

7分37秒

021-尚硅谷-日志采集-模拟日志脚本

380

5分25秒

022-尚硅谷-日志采集-Hadoop部署之环境变量配置

340

19分0秒

023-尚硅谷-日志采集-Hadoop部署之核心配置

520

12分27秒

024-尚硅谷-日志采集-Hadoop部署之其余配置

370

2分43秒

025-尚硅谷-日志采集-Hadoop部署之历史服务器和日志聚集配置

390

4分23秒

026-尚硅谷-日志采集-Hadoop部署之启动及测试

470

9分17秒

027-尚硅谷-日志采集-Hadoop项目经验之多目录存储

360

8分27秒

028-尚硅谷-日志采集-Hadoop项目经验之数据均衡

300

7分30秒

029-尚硅谷-日志采集-Hadoop项目经验之LZO压缩配置

330

5分21秒

030-尚硅谷-日志采集-Hadoop项目经验之LZO压缩测试

380

9分0秒

031-尚硅谷-日志采集-Hadoop项目经验之LZO切片说明

340

8分39秒

032-尚硅谷-日志采集-Hadoop项目经验之参数调优

290

27分28秒

033-尚硅谷-日志采集-Hadoop项目经验之基准测试

360

7分39秒

034-尚硅谷-日志采集-通道设计规划

440

9分38秒

035-尚硅谷-日志采集-Zookeeper部署

270

10分52秒

036-尚硅谷-日志采集-Kafka安装

360

20分5秒

037-尚硅谷-日志采集-Kafka常用脚本

340

5分16秒

038-尚硅谷-日志采集-Kafka常用脚本补充

240

12分51秒

039-尚硅谷-日志采集-Kafka压力测试

330

9分17秒

040-尚硅谷-日志采集-Kafka机器数量与分区数量计算

430

4分31秒

041-尚硅谷-日志采集-Flume安装

400

5分21秒

042-尚硅谷-日志采集-日志采集配置方案对比

340

8分42秒

043-尚硅谷-日志采集-监控日志Flume组件选择

420

23分13秒

044-尚硅谷-日志采集-监控日志Flume配置文件

340

17分57秒

045-尚硅谷-日志采集-监控日志Flume拦截器编码

430

12分7秒

046-尚硅谷-日志采集-监控日志Flume测试

400

28分24秒

047-尚硅谷-日志采集-Flume启停脚本

360

10分31秒

048-尚硅谷-日志采集-消费KafkaFlume功能分析

340

2分18秒

049-尚硅谷-日志采集-消费KafkaFlume中KafkaChannel注意事项

420

37分35秒

050-尚硅谷-日志采集-消费KafkaFlume配置文件

380

9分2秒

051-尚硅谷-日志采集-消费KafkaFlume时间戳拦截器

440

9分26秒

052-尚硅谷-日志采集-消费KafkaFlume测试

390

1分21秒

053-尚硅谷-日志采集-消费KafkaFlume启停脚本

390

4分38秒

054-尚硅谷-日志采集-消费KafkaFlume内存调整

320

3分23秒

055-尚硅谷-日志采集-小结

310

12分12秒

056-尚硅谷-业务数据采集-电商系统概述

370

7分7秒

057-尚硅谷-业务数据采集-电商系统基本概念

340

7分44秒

058-尚硅谷-业务数据采集-电商系统表结构说明

370

25分1秒

059-尚硅谷-业务数据采集-电商系统核心表概述

340

15分55秒

060-尚硅谷-业务数据采集-电商系统表结构讲解

410

7分58秒

061-尚硅谷-业务数据采集-电商系统表字段说明

380

9分27秒

062-尚硅谷-业务数据采集-模拟数据生成之mysql部署

370

3分40秒

063-尚硅谷-业务数据采集-模拟数据生成之建表

350

10分23秒

064-尚硅谷-业务数据采集-模拟数据生成之EZDM使用简明介绍

410

9分39秒

065-尚硅谷-业务数据采集-模拟数据生成之测试

470

7分11秒

066-尚硅谷-业务数据采集-Sqoop概述

400

7分12秒

067-尚硅谷-业务数据采集-Sqoop安装

370

4分53秒

068-尚硅谷-业务数据采集-Sqoop测试

360

26分13秒

069-尚硅谷-业务数据采集-Sqoop基础使用

440

7分4秒

070-尚硅谷-业务数据采集-Sqoop使用之SQL形式导入

350

23分40秒

071-尚硅谷-业务数据采集-数据同步策略

340

14分33秒

072-尚硅谷-业务数据采集-业务数据表同步策略划分

360

40分18秒

073-尚硅谷-业务数据采集-Sqoop导入脚本之基础说明

310

7分33秒

074-尚硅谷-业务数据采集-Sqoop导入脚本之同步策略说明

450

2分40秒

075-尚硅谷-业务数据采集-Sqoop导入脚本之测试

350

1分35秒

076-尚硅谷-业务数据采集-Sqoop导入脚本之存在问题分析

380

3分57秒

077-尚硅谷-业务数据采集-Sqoop导入脚本之数据验证

420

34分16秒

078-尚硅谷-数仓建模理论-分层概述

440

5分48秒

079-尚硅谷-数仓建模理论-数据集市

300

7分43秒

080-尚硅谷-数仓建模理论-命名规范

390

17分1秒

081-尚硅谷-数仓建模理论-范式理论之概述

370

8分27秒

082-尚硅谷-数仓建模理论-范式理论之函数依赖

380

13分9秒

083-尚硅谷-数仓建模理论-范式理论之三范式

420

12分35秒

084-尚硅谷-数仓建模理论-OLTP与OLAP概述

420

18分6秒

085-尚硅谷-数仓建模理论-关系建模与维度建模

520

15分2秒

086-尚硅谷-数仓建模理论-维度模型之事实表与维度表

500

17分0秒

087-尚硅谷-数仓建模理论-维度模型之事实表分类

380

9分27秒

088-尚硅谷-数仓建模理论-维度模型之模型分类

490

13分41秒

089-尚硅谷-数仓建模理论-数仓分层模型之整体概述

380

4分33秒

090-尚硅谷-数仓建模理论-数仓分层模型之ODS层

380

26分1秒

091-尚硅谷-数仓建模理论-数仓分层模型之DWD层

310

30分51秒

092-尚硅谷-数仓建模理论-数仓分层模型之DWD层维度建模演示

400

11分2秒

093-尚硅谷-数仓建模理论-数仓分层模型之DWS层与DWT层

370

2分10秒

094-尚硅谷-数仓建模理论-数仓分层模型之建模驱动

430

10分34秒

095-尚硅谷-数仓环境准备-Hive安装

400

4分30秒

096-尚硅谷-数仓环境准备-Hive引擎说明

410

8分35秒

097-尚硅谷-数仓环境准备-框架兼容性问题说明

330

23分32秒

098-尚硅谷-数仓环境准备-HiveOnSpark配置

590

10分7秒

099-尚硅谷-数仓环境准备-HiveOnSpark测试

480

17分14秒

100-尚硅谷-数仓环境准备-Yarn容量调度器之并发度问题演示

400

19分38秒

101-尚硅谷-数仓环境准备-Yarn容量调度器之多队列配置

350

8分21秒

102-尚硅谷-数仓环境准备-Yarn容量调度器之提交任务指定队列

380

100

8分24秒

103-尚硅谷-数仓环境准备-DataGrip使用介绍

380

101

16分43秒

104-尚硅谷-数仓环境准备-新数据准备

350

102

11分4秒

105-尚硅谷-数仓搭建-ODS层日志表之建表语句

380

103

5分32秒

106-尚硅谷-数仓搭建-ODS层日志表之数据装载

360

104

7分58秒

107-尚硅谷-数仓搭建-ODS层日志表之装载脚本

330

105

4分33秒

108-尚硅谷-数仓搭建-扩展之Shell脚本引号总结

370

106

6分18秒

109-尚硅谷-数仓搭建-ODS层业务表之建表语句

340

107

4分28秒

110-尚硅谷-数仓搭建-ODS层业务表之装载脚本

420

108

8分8秒

111-尚硅谷-数仓搭建-DWD层日志表之数据结构回顾

400

109

7分34秒

112-尚硅谷-数仓搭建-DWD层日志表之Hive解析JSON函数说明

450

110

6分3秒

113-尚硅谷-数仓搭建-DWD层日志表之日志解析思路分析

340

111

7分26秒

114-尚硅谷-数仓搭建-DWD层日志表之启动表建表语句

330

112

9分0秒

115-尚硅谷-数仓搭建-DWD层日志表之启动表数据装载

360

113

4分28秒

116-尚硅谷-数仓搭建-DWD层日志表之页面表

380

114

9分14秒

117-尚硅谷-数仓搭建-DWD层日志表之动作表解析思路

360

115

5分42秒

118-尚硅谷-数仓搭建-回顾之explode函数使用说明

340

116

3分16秒

119-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数设计

270

117

11分16秒

120-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数说明

420

118

27分6秒

121-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(一)

380

119

8分49秒

122-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数编写(二)

390

120

3分38秒

123-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数注意事项

300

121

6分10秒

124-尚硅谷-数仓搭建-DWD层日志表之动作表UDTF函数创建

360

122

8分6秒

125-尚硅谷-数仓搭建-DWD层日志表之动作表数据装载

420

123

4分47秒

126-尚硅谷-数仓搭建-DWD层日志表之曝光表

450

124

9分8秒

127-尚硅谷-数仓搭建-DWD层日志表之错误表

400

125

9分57秒

128-尚硅谷-数仓搭建-DWD层数据装载之lzo索引文件识别问题

340

126

5分46秒

129-尚硅谷-数仓搭建-DWD层日志表之数据装载脚本

370

127

4分54秒

130-尚硅谷-数仓搭建-DWD层业务表之维度模型概述

340

128

11分5秒

131-尚硅谷-数仓搭建-DWD层业务表之商品维度表

330

129

1分50秒

132-尚硅谷-数仓搭建-DWD层业务表之优惠券维度表

430

130

11分44秒

133-尚硅谷-数仓搭建-DWD层业务表之活动维度表

350

131

3分40秒

134-尚硅谷-数仓搭建-DWD层业务表之地区维度表

450

132

16分34秒

135-尚硅谷-数仓搭建-DWD层业务表之时间维度表

340

133

19分22秒

136-尚硅谷-数仓搭建-DWD层业务表之支付事实表

380

134

7分22秒

137-尚硅谷-数仓搭建-DWD层业务表之退款事实表

300

135

9分45秒

138-尚硅谷-数仓搭建-DWD层业务表之评价事实表

390

136

7分8秒

139-尚硅谷-数仓搭建-DWD层业务表之订单明细实表建表语句

380

137

14分1秒

140-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(一)

310

138

9分26秒

141-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(二)

300

139

10分46秒

142-尚硅谷-数仓搭建-DWD层业务表之订单明细事实表数据装载(三)

290

140

7分56秒

143-尚硅谷-数仓搭建-DWD层业务表之加购与收藏事实表

390

141

10分16秒

144-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分析

390

142

7分48秒

145-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表分区规划

380

143

9分35秒

146-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载思路

320

144

16分4秒

147-尚硅谷-数仓搭建-DWD层业务表之优惠券领用事实表数据装载

330

145

9分53秒

148-尚硅谷-数仓搭建-DWD层业务表之订单事实表建表语句

430

146

43分22秒

149-尚硅谷-数仓搭建-DWD层业务表之订单事实表数据装载

340

147

17分10秒

150-尚硅谷-数仓搭建-DWD层业务表之拉链表概述

330

148

15分19秒

151-尚硅谷-数仓搭建-DWD层业务表之拉链表制作过程概述

350

149

17分40秒

152-尚硅谷-数仓搭建-DWD层业务表之用户维度表(一)

400

150

19分44秒

153-尚硅谷-数仓搭建-DWD层业务表之用户维度表(二)

390

151

8分10秒

154-尚硅谷-数仓搭建-DWD层业务表之数据装载脚本

340

152

28分38秒

155-尚硅谷-数仓搭建-DWS&DWT层之业务术语

360

153

14分11秒

156-尚硅谷-数仓搭建-DWS&DWT层之日期函数

380

154

7分22秒

157-尚硅谷-数仓搭建-DWS&DWT层之复杂数据类型使用说明

330

155

16分3秒

158-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表建表语句

400

156

47分40秒

159-尚硅谷-数仓搭建-DWS层之会员主题每日汇总表数据装载

270

157

24分16秒

160-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表建表语句

310

158

6分37秒

161-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载思路分析

390

159

14分46秒

162-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(一)

390

160

29分43秒

163-尚硅谷-数仓搭建-DWT层之会员主题累积汇总表数据装载(二)

360

161

5分43秒

164-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表建表语句

330

162

13分7秒

165-尚硅谷-数仓搭建-DWS层之设备主题每日汇总表数据装载

370

163

6分35秒

166-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表建表语句

340

164

13分45秒

167-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表初次装载说明

390

165

9分28秒

168-尚硅谷-数仓搭建-DWT层之设备主题累积汇总表数据装载

480

166

1分20秒

169-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表建表语句

370

167

23分6秒

170-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(一)

390

168

24分27秒

171-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

430

169

9分25秒

172-尚硅谷-数仓搭建-DWS层之商品主题每日汇总表数据装载(二)

320

170

12分3秒

173-尚硅谷-数仓搭建-DWT层之商品主题累积汇总表

400

171

20分48秒

174-尚硅谷-数仓搭建-DWS&DWT层之活动主题汇总表

430

172

16分29秒

175-尚硅谷-数仓搭建-DWS&DWT层之地区主题汇总表

430

173

7分5秒

176-尚硅谷-数仓搭建-DWS&DWT层之数据装载脚本

401

174

45分43秒

177-尚硅谷-数仓需求-设备主题之活跃设备数

350

175

4分36秒

178-尚硅谷-数仓需求-设备主题之新增&沉默&流失需求说明

330

176

6分13秒

179-尚硅谷-数仓需求-设备主题之新增设备数需求讲解

260

177

4分9秒

180-尚硅谷-数仓需求-设备主题之沉默用户数需求讲解

380

178

2分51秒

181-尚硅谷-数仓需求-设备主题之流失用户数需求讲解

370

179

8分5秒

182-尚硅谷-数仓需求-设备主题之留存率需求说明

430

180

2分2秒

183-尚硅谷-数仓需求-设备主题之回流用户数需求说明(一)

430

181

2分9秒

184-尚硅谷-数仓需求-设备主题之回流用户数需求说明(二)

400

182

1分57秒

185-尚硅谷-数仓需求-设备主题之最近三周连续活跃用户数需求说明

390

183

2分15秒

186-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求说明

360

184

16分33秒

187-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路一)

420

185

8分26秒

188-尚硅谷-数仓需求-设备主题之连续三周活跃需求讲解(思路二)

330

186

14分24秒

189-尚硅谷-数仓需求-设备主题之回流用户数需求讲解

370

187

21分0秒

190-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路一)

410

188

9分28秒

191-尚硅谷-数仓需求-设备主题之留存率需求讲解(思路二)

410

189

20分19秒

192-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路一)

350

190

13分4秒

193-尚硅谷-数仓需求-设备主题之七天内连续三天活跃需求讲解(思路二)

330

191

4分44秒

194-尚硅谷-数仓需求-会员主题之会员信息统计需求说明

370

192

5分15秒

195-尚硅谷-数仓需求-会员主题之漏斗分析需求说明

390

193

1分51秒

196-尚硅谷-数仓需求-商品主题之商品个数需求说明

340

194

10分1秒

197-尚硅谷-数仓需求-会员主题之会员信息统计需求讲解

330

195

21分8秒

198-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路一)

370

196

6分16秒

199-尚硅谷-数仓需求-会员主题之漏斗分析需求讲解(思路二)

270

197

5分51秒

200-尚硅谷-数仓需求-商品主题之商品个数需求讲解

310

198

8分5秒

201-尚硅谷-数仓需求-商品主题之全局TopN需求说明

380

199

2分45秒

202-尚硅谷-数仓需求-商品主题之分组TopN需求说明

390

200

4分28秒

203-尚硅谷-数仓需求-商品主题之销量排行需求讲解

330

201

3分21秒

204-尚硅谷-数仓需求-商品主题之退款率排行需求讲解

390

202

2分44秒

205-尚硅谷-数仓需求-商品主题之差评率排行需求讲解

360

203

10分57秒

206-尚硅谷-数仓需求-商品主题之分组TopN需求讲解

330

204

7分32秒

207-尚硅谷-数仓需求-营销主题之下单&支付统计需求说明

350

205

9分14秒

208-尚硅谷-数仓需求-营销主题之品怕复购率需求说明

380

206

3分44秒

209-尚硅谷-数仓需求-营销主题之下单统计需求讲解

370

207

11分45秒

210-尚硅谷-数仓需求-营销主题之支付统计需求讲解

350

208

16分54秒

211-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路一)

370

209

9分18秒

212-尚硅谷-数仓需求-营销主题之复购率需求讲解(思路二)

460

210

7分48秒

213-尚硅谷-数仓需求-ADS层数据导入脚本

400

211

14分47秒

214-尚硅谷-全流程调度-工作流程概述

360

212

11分26秒

215-尚硅谷-全流程调度-调度系统概述

400

213

7分54秒

216-尚硅谷-全流程调度-Azkaban部署模式概述

380

214

2分57秒

217-尚硅谷-全流程调度-Azkaban安装之安装包准备

380

215

5分53秒

218-尚硅谷-全流程调度-Azkaban安装之数据库准备

340

216

11分25秒

219-尚硅谷-全流程调度-Azkaban安装之Exec部署

400

217

10分6秒

220-尚硅谷-全流程调度-Azkaban安装之Web部署

470

218

7分53秒

221-尚硅谷-全流程调度-Azkaban使用之入门案例

350

219

5分30秒

222-尚硅谷-全流程调度-Azkaban使用之工作流程配置文件说明

390

220

11分22秒

223-尚硅谷-全流程调度-Azkaban使用之Yaml文件格式概述

390

221

6分34秒

224-尚硅谷-全流程调度-Azkaban使用之任务依赖配置

420

222

4分23秒

225-尚硅谷-全流程调度-Azkaban使用之自动失败重试

380

223

3分56秒

226-尚硅谷-全流程调度-Azkaban使用之手动失败重试

390

224

6分57秒

227-尚硅谷-全流程调度-Azkaban使用之定时调度

410

225

9分35秒

228-尚硅谷-全流程调度-Azkaban使用之邮件配置

470

226

4分35秒

229-尚硅谷-全流程调度-Azkaban使用之邮件通知演示

310

227

5分14秒

230-尚硅谷-全流程调度-实操之Sqoop导出功能说明

440

228

15分3秒

231-尚硅谷-全流程调度-实操之MySQL建库建表

330

229

28分36秒

232-尚硅谷-全流程调度-实操之Sqoop导出脚本

380

230

6分58秒

233-尚硅谷-全流程调度-实操之新数据准备

360

231

7分13秒

234-尚硅谷-全流程调度-实操之Azkaban启停脚本

370

232

11分9秒

235-尚硅谷-全流程调度-实操之Azkaban工作流程配置文件编写

360

233

5分22秒

236-尚硅谷-全流程调度-实操之Azkaban工作流传参说明

440

234

9分34秒

237-尚硅谷-全流程调度-实操之Azkaban全流程调度演示

360

235

8分16秒

238-尚硅谷-全流程调度-实操之Azkaban问题总结

360

236

4分45秒

239-尚硅谷-数据可视化-概述

450

237

6分22秒

240-尚硅谷-数据可视化-Superset概述

370

238

15分56秒

241-尚硅谷-数据可视化-Superset安装之Miniconda部署

520

239

9分43秒

242-尚硅谷-数据可视化-Superset安装之准备Python3.6环境

430

240

7分2秒

243-尚硅谷-数据可视化-Superset安装

530

241

5分31秒

244-尚硅谷-数据可视化-Superset安装之初始化

490

242

6分20秒

245-尚硅谷-数据可视化-Superset安装之启动

400

243

9分52秒

246-尚硅谷-数据可视化-Superset安装之启停脚本

380

244

12分40秒

247-尚硅谷-数据可视化-Superset使用之对接数据源

450

245

13分39秒

248-尚硅谷-数据可视化-Superset使用之趋势图示例

780

246

7分29秒

249-尚硅谷-数据可视化-Superset使用之地图与饼状图示例

980

247

5分17秒

250-尚硅谷-数据可视化-Superset使用之编辑仪表盘

540

248

4分46秒

251-尚硅谷-即席查询-概述

370

249

4分42秒

252-尚硅谷-即席查询-Kylin概述

370

250

38分9秒

253-尚硅谷-即席查询-Kylin前置概念

310

251

12分46秒

254-尚硅谷-即席查询-Kylin基础架构

320

252

6分35秒

255-尚硅谷-即席查询-Kylin特点

310

253

14分12秒

256-尚硅谷-即席查询-Kylin安装之HBase部署

340

254

2分30秒

257-尚硅谷-即席查询-Kylin安装之环境变量准备

380

255

13分19秒

258-尚硅谷-即席查询-Kylin安装之兼容性问题说明

380

256

4分15秒

259-尚硅谷-即席查询-Kylin启动

440

257

30分54秒

260-尚硅谷-即席查询-Kylin使用之基础用法

360

258

21分49秒

261-尚硅谷-即席查询-Kylin使用之维度表重复key问题说明

380

259

8分29秒

262-尚硅谷-即席查询-Kylin使用之查询

390

260

12分39秒

263-尚硅谷-即席查询-Kylin使用之RestAPI使用概述

260

261

9分21秒

264-尚硅谷-即席查询-Kylin使用之每日定时构建脚本

440

262

6分42秒

265-尚硅谷-即席查询-Kylin原理之基础概念回顾

330

263

8分21秒

266-尚硅谷-即席查询-Kylin原理之Cube存储原理

480

264

15分2秒

267-尚硅谷-即席查询-Kylin原理之Cube构建原理

320

265

18分0秒

268-尚硅谷-即席查询-Kylin优化之衍生维度

400

266

13分24秒

269-尚硅谷-即席查询-Kylin优化之聚合组

340

267

15分23秒

270-尚硅谷-即席查询-Kylin优化之Rowkey调整

330

268

8分51秒

271-尚硅谷-即席查询-Kylin优化之并发粒度优化

370

269

7分13秒

272-尚硅谷-即席查询-KylinBI集成之JDBC

390

270

11分47秒

273-尚硅谷-即席查询-KylinBI集成之Zeppelin

390

271

25分6秒

274-尚硅谷-即席查询-Presto概述

340

272

23分45秒

275-尚硅谷-即席查询-Presto安装之Server部署

370

273

5分56秒

276-尚硅谷-即席查询-Presto安装之命令行客户端部署

340

274

8分54秒

277-尚硅谷-即席查询-Presto安装之LZO 压缩格式说明

320

275

8分14秒

278-尚硅谷-即席查询-Presto安装之可视化客户端部署

440

276

17分31秒

279-尚硅谷-即席查询-Presto使用注意事项

390

277

13分49秒

280-尚硅谷-集群监控-Zabbix概述

460

278

7分45秒

281-尚硅谷-集群监控-Zabbix安装之服务器环境准备

310

279

12分29秒

282-尚硅谷-集群监控-Zabbix安装之yum仓库配置

350

280

2分8秒

283-尚硅谷-集群监控-Zabbix安装之下载安装

380

281

10分9秒

284-尚硅谷-集群监控-Zabbix安装之修改配置文件

310

282

2分21秒

285-尚硅谷-集群监控-Zabbix启动

330

283

3分37秒

286-尚硅谷-集群监控-Zabbix安装之web配置

320

284

5分3秒

287-尚硅谷-集群监控-Zabbix使用之术语

400

285

7分17秒

288-尚硅谷-集群监控-Zabbix使用之创建主机

360

286

13分43秒

289-尚硅谷-集群监控-Zabbix使用之配置监控项

330

287

6分13秒

290-尚硅谷-集群监控-Zabbix使用之配置触发器

350

288

3分18秒

291-尚硅谷-集群监控-Zabbix使用之配置报警媒介

380

289

7分56秒

292-尚硅谷-集群监控-Zabbix使用之配置动作

320

290

2分12秒

293-尚硅谷-集群监控-Zabbix使用之测试

430

291

12分59秒

294-尚硅谷-集群监控-Zabbix使用之模板

390

279-尚硅谷-即席查询-Presto使用注意事项

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐