文章/答案/技术大牛

发布

首页视频265_尚硅谷_即席查询_Presto_使用注意事项

265_尚硅谷_即席查询_Presto_使用注意事项

2022-12-022022-12-02 16:02:23播放37

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商数仓项目（含2.0、3.0版本）/尚硅谷数仓项目实战V2.0/视频/265_尚硅谷_即席查询_Presto_使用注意事项.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:01
好，呃，那接下来我们看啊，现在咱们pre呢，还有这样的三节，1.31.41.5，这分别是什么啊，咱们可以总结一下，其实这也就是我们使用pre的时候呢，我们去写circle，或者我们去建表，诶，我们需要需要去注意的一些事项啊，其实主要是一些注意事项，那我们来逐一的看一下，先看一下这个1.3这一节。呃，1.3这一节呢，就是说这个press优化之数据存储，数据存储那同学可能会比较差异了啊，那press我们前面讲过，你不是就是一个查询引擎吗？对不对，光计算是不负责存储的，那这边所谓的数据存储其实指的是什么？指的是咱们的have啊，指的是have表。号表，就是说如果说诶咱们这个书仓当中，我有一些表，后期我要交给pre去做这种机器查询，对不对，那咱们这些这些表我应该怎么去建呢，对不对，就是说这是咱们还有当中建表的时候大家要注意的一些事项，呃，有什么事项呢？第一点就是合理的设置分区，合理设置分区这是什么意思呢？呃，其实我们press呢，它对接have的时候，是不是对接的是它的原数据，那它从原数据当中呢，也能读取出来这个分区的信息。
01:10
对不对啊，那如果说你合理的设置分区，那后期我们这个数据交给press去查的时候，那我就是说能用分区进行这个过滤数据，那我尽量用分区去过滤数据，那这样一来是不是能够去诶加快咱们这个这个呃SQ的查查询速度啊，为什么，因为我们用分区去过滤这个数据呢？是效率是最高的，因为咱们还有当中分区是真正的物理分区，对不对，诶不同分区的数据我是存在不同的文件当中的，在不同的路径里，那这是这块啊，就是咱们需要去正常去分区，那这边这个东西其实也不用，也不用怎么说，咱们还有当中我本身就是以天分区的，对不对，那所以说我后期我去查数据的时候呢，一般也就是说，诶，比如说查当天的，或者查最近多少天的对不对，也基本上就是这些东西。所以说咱们这个分区呢，就是正常正常分就行，还有常正常分就行，这个不用多说，那接下来这俩是我们需要额外注意的啊，就是说咱们诶需要用pre去查的那些表，我们的列存储以及我们的压缩格式，我们最好选用什么呢？最好选用orc加s snapy这种组合，就是列存储采用orc，然后这个压缩格式呢，采用snap。
02:19
这是咱们需要注意的点。这是咱们需要注意的点啊好，那这边为什么呢？我们先看一下这个列存储，这边是因为这个pre呢，它单独对这个orc进行了这个优化，单独对他进行了优化，也就是你使用orc的时候，我我这个查的时候呢，这个效率是比较高的，比较高的啊，那所以说咱们这个对于这个将要交给pre去查询的表呢，咱们最好用orc。最好用RCR好，那趴会它能不能用，趴也能用，也能用，只不过它没有做特定的优化，好那接下来这个压缩啊，压缩呢，咱们就记住咱们集时查询，集时查询要求什么，要求就是快对不对，那咱们压缩这边谁是最快的呀，谁最快的，那是不是肯定是S内皮是最快的呀，对不对，它解压快，压缩也快，那所以说这边呢，我们采用s snap皮。
03:09
Snap啊好，那这个咱们简单的了解一下就行，把这个记住就行，Orc加snap，这是我们pres最喜欢的这个组合，好那接下来呢是呃，咱们写使用press去写circle的时候，我们一些这个需要去注意的一些事项。需要注意的一些事项啊，这个跟have当中呢，可能有些地方不太一样，我们需要去看一看，首先第一个呃就是说只选这个呃，只选择使用的字段，呃其实说白了就是尽量避免select，那这个我不用多说了吧，因为咱们这个通常进行这种呃及时查询或者是多维分析的时候呢，我们通常呃是不是就是只查某几个字段啊。对不对，那也就是说你需要哪个字段就查哪个字段，不要来听这个，其实没什么可说的，然后往下走。下边的是这个过滤条件，那这个过滤条件呢？呃，我们这块大家要注意它说什么过滤条件必须加上分区字段。
04:03
这个其实呃，这么说不太合适啊，不太合适就是什么时候，这个应该怎么说呢？就是说我们去查数据的时候啊，就是说我们能用分区进行过滤，那一定要用分区进行过滤。能用分区进行过滤，一定要用分区进行过滤啊，把这个记住还记住啊，那大家来可以想一下，我们有可能有一个这样的场景啊，大家来回忆一下咱们那个数仓当中的那个订单实时表。就是DWD。回忆一下这张表啊，那这张表有什么特点，这张表咱分区是用什么分区的，是不是用创建时间分区的，用cur分区的对不对？那这个表里边还有一个字段，这个表里是不是有好几个时间对吧？有什么创建时间，支付时间对吧？那里边是不是也有一个创建时间对吧？那我假如说我要想把某一天的这个分那个订单给它过滤出来，那你说应该用谁去过滤？那你用这个分区字段去过滤，能不能过滤出来，肯定能，那你用那个cur time字段能不能过滤，肯定也能过滤出来，但是这俩效率是不一样的，你要用分区过滤呢？那我这个have直接就是去找咱们这个对应的分区的路径了，那你要用cur time去过滤呢？那会干什么？会全表扫描再过滤。
05:17
所以说这块呢，大家要要知道，就是说我们原则就是说能用分区过滤，一定要用分区去过滤，把这个记住，把这个记住啊，那这就是咱们这个所谓的分区，那而不是说什么必过过滤条件必须加上分区资源，这个你的业务上要没有这个分区，没有这个分，没有这个要求，那你必须加分区，那有什么意义呢？对不对，诶就是说能用就用，诶实在用不上，那那没办法了，对吧？好，那这个玩意之后呢，往下看。下面呢，有一个葛如拜葛如拜这样的一个这个语句语句优化，那我们来看这个，这是什么东西啊，这是什么东西，来看一下。呃，合理安排外语句呢，对这个呃，性能有一定的提升，怎么去安排？他这的要求是让我们将group by这个后边的这个字段啊，这个字段按照什么顺序去排呢？按照这个字段的distinct的数据多少进行降序排列，其实说白了就是什么，就是我格入外，我可能后边呢会接多个字段，就是按照多个维度进行分组嘛。
06:18
哎，多维分析，我们按照多个维度进行分组，那分组的时候，那这几个字段顺序，诶怎么去安排呢？按照这个所谓的这个distinct的数据的多少进行降序排列，其实这个说的就是咱那个维度的基数的概念吧，对不对？在这呢，要求我们按照基数的诶降序排序，降序排序它这有一个例子啊，你看你看那这边呢，有一个UID，有一个真的UID是什么UID呢？是不是这个用户ID真的是性别，那很显然UID的基数要比真的的基数大，对不对，那所以说把这个基数大的放在前边，基数小的放在后边。诶是这块的啊，把它记住就行了，好，那看完之后呢，看下边，下边呢还有一个原则就是使用order by的时候一定要用limit。这个呢，呃，其实这个就是不说大家应该也知道啊，那我给大家说一下，就是为什么咱们这一定要强调一下，为什么这个使用order的时候一定要加limit，给大家强调下这个东西啊，这是为什么，其实你想一想。
07:14
呃，首先咱们现在先不考虑业务需求，先不考虑业务啊，咱们就单纯的说这个它的计算逻辑，咱们就单纯说计算逻辑啊，那如果说我们使用了一个order，而没有加limit。就是单纯的往这摆，那最终给你返回结果应该是什么，是不是应该是从头到尾这样的一个全局有序的这样的一个数据集啊，全局有序的对不对，那你想一想，我如果说我要想得到一个全局有序的数据集，怎么样才能得到？你是不是势必要把所有的数据都给它扔到一个节点上面，我才能得到一个全局的有序啊？对不对。对不对，因为你跨节点，你没有办法进行全局有序嘛，对吧，所以说这样如果说你只有order by没有利的话呢，那他肯定会将所有数据最终放到一个节点里，那这样会导致单个节点它的这个压力过大，压力过大。
08:07
然后这时候我们加上limit，加上limit之后它效果就不一样了，为什么不一样了，你想一想啊，呃，如果说我这有大量的数据，然后呢，我给它加limit了，那这样一来我可以怎么做，我可以把这个数据呢给它分开，分开分成几部分，然后呢，每一部分我先给一个worker。这个worker拿一部分，这拿一部分，这拿一部分，然后比如说我这是LIMIT100，那这时候呢，他就会把自己这部分数据的前100找到，他也找前100，他也找前100，那完事之后呢，每个人都把自己的前100给最后那个worker，那worker当中呢，再从这300当中拿到前100。那最终的结果是不是也是咱们的TOP100呀？对不对，那首先这样一来的话，就不会出现咱们那个就是单个worker压力过大的现象，是不会出现这个现象的，这也就是你加limit和不加limit这个最终执行的这个效果，这个逻辑它是不一样的，是这样的啊然后呢，大家接下来呢，我们去考虑一个什么东西呢，我们去考虑一个。
09:06
呃，考虑什么东西呢？咱们去考虑一个这个业务，考虑业务，那其实我们通常情况下，咱们去使用order by的时候，一般都是求什么。一般的求，一般都是求top n或者是求包门，其实我们更多的时候就是只关注前多少或者是倒数多少。对不对，那所以说首先在业务上我们是不是也应一般情况下也是应该加这个limit的呀，也是应该加limit的，那所以说这边大家就记住这个原则就行，就是说我们使用order by，诶加不加limit，底层计算逻辑它是不一样的，诶所以说我们就是记住这个原则，加order by呢，诶一定要加limit，而且加limit呢，诶其实也不会影响我的逻辑，我们通常就是求top文或者包特门，只有这时候才会培训，对吧，我们没有谁无聊的，比如说要把咱们这个每个用户他这个什么什么东西啊，从头到尾全做一个大排序，这没有意义啊，对不对，OK，那这个东西咱们简单了解一下。
10:04
呃，Map里边的排序的优化，诶对，其实就是这样啊，基本上这些大数据的计算呢，它这个优化的逻辑基本上都是一样的，诶可能具体的实现不一样，但是逻辑都这么个逻辑，好，那现在呢，呃，我们往下看。往下看，下边呢，还有一个这个什么使用转语语句的时候，将大表放起在左边，小表放在这个右边，呃，那这个是怎么回事呢？这个就是我需要给大家先说一下啊，咱们这个pre，这个pre什么东西呢？Pre啊，它的这个这个join语法。需要给大家说一下pro的这个join语法，呃，照照照照那个算法，Join算法啊算法，那他join算法有什么呢？Join算法有俩，一个是咱们这提到的这个，呃，广播join broadcast join，还有一个呢，是咱们这边的一个这样的叫做哈希join的一个算法。一个哈希，那这两种算法分别去处理什么样的情景呢？Broad broadcast呢，可以处理这个小表跟大表的。
11:04
那这个哈希join呢，它处理的是大表跟大表的join是这样的啊，那我们逐一的来分析一下，我们先说这个广播broadcast join，这个叫广播的意思啊，广播join好，那广播的时候他是怎么做的，他这么做。比如说我这边呢，是一个大表。我这边是一个大表，那这边呢，我是一个这样的一个小表，嗯，我是这样的一个小表，对不对，那大表照小表的时候，我们采用的是广播照，那所谓的广播指的是谁？所谓的广播指的什么？所谓的广播呀，是指的是OK，我这边呢，是我最终执行这个任务的worker。这是worker啊。Worker所有的广播照呢，是把谁广播，是把这个小表给他广播了，小表给这个worker发一份这个一份这个一份整张表都给他啊都给他，然后呢，咱们这边呢，把谁把咱们这个诶大表呢给它切了。给它切了，切成几份？清理一份，那这一份给这个worker，那这一份呢，给这个worker，这一份给这worker对吧，那这样一来，我这一部分数据是不是肯定能从这个表里边找到跟他进行join的那部分数据啊，那OK，就join上了，那这边同理同理都进行join，这是咱们这个所谓的广播join，也就把小表广播，然后大表切分。
12:20
那这个它广播的时候，也就是他，诶广播的时候，广播的是谁呢？他广播的是咱们右边这张表，然后切的谁切的是左边这张表，那所以说这时候呢，就要求我们诶将大表放在这个左边，小表放在这个右边，这至它这个所谓的广播照，广播照好，那这个完了之后呢，我们再来看，诶下一种这个转唤方式就是这个呃，哈希照，哈希照应对的场景是这个大表转大表。对吧，大表到那边，那大本那边怎么去，怎么去进行这个join呢，同样是我有多个worker。多个worker啊，多个worker呢怎么办？这两张表，把这两张表的数据呢，按照相同的这个哈希逻辑进行这个呃，给他进行哈希怎么做啊，就是说比如说这张表跟这张表我的join join字段，比如说是这个什么什么ID，这个什么什么ID，那OK，那就按照你的join连接条件进行哈希连哈希，那这样一来会把什么，是不是会把相同的那个，诶join字段的那个数据是不是得给它分到一个里边去了呀。
13:21
因为是按照那个join唤字段哈希的嘛，那相同也就是能join到一起的数据，我是不是会给它分到一个worker里，那分到这儿，那进行join，那其他的呢，诶分到这，诶进行召进行照，诶是这么去分的，这是哈希照，应对的是这种大表照你大表的这种场景，那如果是大大表照你大表，实际上这边呢，你就没有必要去讨论谁在前谁在后了，是这样的，那也就说如果说大表小表，那大家记住把大表在前，小表在后就行了。这是这边啊，这边好，那这个东西就是咱们使用SQ的时候呢，大家要注意的一些事项，然后大家要注意啊，就是这些所有的东西呢，呃，没有必要去背诵啊，没有必要去背，其其实像这些东西很容易很容易记混的啊，你比如说这个格鲁班语句，咱们说的是什么，说的是这个降序，那很有可能你这个记本就记成声序了，对不对，那比如说这个照呢，你说大表在前，小本在后，你看的时候能想起来，可能过一会就忘了，诶到底是大表在前还是小本在前，可能你就忘了，这东西没有必要去背啊，就说呃，大家以后这个呃用的时候呢，你再回头，回过头来你再去看一看就行。
14:21
没有必要去背它那个浪费时间没用啊好，这是咱们这边这个写S的一些简单的注意事项，好那完了之后呢，下边还有一点这个注意事项，这几个注意事项呢，其实就是咱们这个语法上的东西了。就是的语法。跟我们熟悉的这个have或者是MYSQ的语法可能有一些区别。我们先看第一个。第一个是这个字段名的引用，大家都知道我们在have或者在买搜狗当中，我们去呃建表或者去查数据的时候，如果说某一个字段，某一个字段，你那个字段名啊，或者你的表名你是什么，你是S课当中的关键字。比如说我用一个select作为一个字段了，对不对，那这个如果是这样的话，那你需要怎么样，你需要加反引号给这个字段名啊，加反引号，然后是不是用来区分它这个字段名啊，哎，我声明这是一个字段名，我是一个字段，我是一个这个呃字段名，而不是一个关键字，是这样的，需要加反引号，那在这个press当中呢，我们加的不是反引号。
15:19
同样的情况，它加的不是反号，它加的是诶双引号加的双引号啊这块呢，是大家要注意的一个地方，好，那它完之后呢，下边有一个这个，呃，时间函数，有一个时间函数，那时间函数呢，在price当中呢，我们也有也有一些要注意的地方，比如说什么地方看这这有一个这个，呃，咱们那个在have当中也好，在MYSQL当中也好，其实我们那个时间。你去比较一个时间的时候，是完全是按照什么去比较的，是完全就按照那个字符串的比较规则去比的呀，对吧，你就可以把谁直接把那个时间当成一个字符串，就直接去比就可以了，但是呢，在press当中呢不行。它识别不了得怎么办？得给那个时间戳得，或者是这种年月日也好，或者是那个就是step，就是那个秒或者是毫秒数，诶那个也好，你需要在它前面呢，加一个这个time step这样的一个关键字，这样他才能进按照这个时间进行比较。
16:13
是这样的啊，所以这块呢，大家也要注意一下，也要注意一下啊，这是我们这个语法上的一些小区别，然后再往下呢，还有一点，还有一点看这呃press当中呢，是不支持insert over right语法的，只能要想实现这样的操作，只能先delete，然后再insert into，只能这么去做，然后这块呢，其实大家呃呃也能也应该也能想明白啊呃，想明白什么东西呢？你想一想这边是说什么press不支持插入，呃，Allright就是这种呃复写插入的这种方式对不对，那其实这个我们也能理解为什么啊，你想一想是干什么用的。它是查询引擎啊，对不对，是分析引擎，也就说我更多的我使用的是干什么，我是我是查询数据对不对，我不是让他去给他给我导数据去了对不对，那我们这个往表里边去漏的数据啊，去隐erl的数据，我们这都是谁干的活，是我们数仓当中对不对，咱们have这边我定时诶每天去跑的东西。
17:09
这这不是pre干的事，我pre干什么是及其查询引擎，我是主要负责查询的，插入的事呢，我这个支持的不完善也没事，对不对，本身我就不干这个，其实这个也也也也说得过去，也说得过去啊好，这是这点，那下边呢，还有一个这个对于pack这种列存储格式它的一个点，那么呢，Preal只支持查询presal不支持insert。就只能读这样的文件，不能写，其实那这个我们其实跟刚才道理是一样的，对不对，我们press干什么的，我们还是是不是以查询为主啊，诶我是以查询为主，我主要是读，所以说我写不了也能理解，也能理解啊好，那这就是咱们这边press的这个全部内容，好我把视频录一下啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷数仓项目实战V2.0

（191/300）

10分15秒

01_尚硅谷_课程介绍

430

2分27秒

02_尚硅谷_数仓概念_业务数据

470

3分32秒

03_尚硅谷_数仓概念_用户行为数据

430

10分43秒

04_尚硅谷_数仓概念_数仓概述

420

8分31秒

05_尚硅谷_数仓架构_项目需求

410

3分33秒

06_尚硅谷_数仓架构_技术选型考虑因素

410

9分24秒

07_尚硅谷_数仓架构_技术选型

440

9分58秒

08_尚硅谷_数仓架构_数仓架构

350

11分55秒

09_尚硅谷_数仓架构_框架版本选型

370

6分18秒

100_尚硅谷_数仓理论_函数依赖

350

7分46秒

101_尚硅谷_数仓理论_三范式

360

11分46秒

102_尚硅谷_数仓理论_关系建模和维度建模

450

4分43秒

103_尚硅谷_数仓理论_维度表

400

28分2秒

104_尚硅谷_数仓理论_事实表

380

10分46秒

105_尚硅谷_数仓建模_ODS层

290

10分22秒

106_尚硅谷_数仓建模_DWD层_选择业务过程

350

15分8秒

107_尚硅谷_数仓建模_DWD层_声明粒度

380

16分53秒

108_尚硅谷_数仓建模_DWD层_确定维度

350

11分38秒

109_尚硅谷_数仓建模_DWD层_确定事实

340

8分34秒

10_尚硅谷_数仓架构_服务器选型

350

19分5秒

110_尚硅谷_数仓建模_DWS层_DWT层_ADS层

350

6分21秒

111_尚硅谷_数仓建模_总结

370

3分43秒

112_尚硅谷_数仓搭建_ODS层_要做哪些事

350

3分22秒

113_尚硅谷_数仓搭建_ODS层_创建数据库

340

6分43秒

114_尚硅谷_数仓搭建_ODS层_启动日志处理分析

340

10分29秒

115_尚硅谷_数仓搭建_ODS层_启动日志处理实现

410

5分36秒

116_尚硅谷_数仓搭建_ODS层_事件日志处理

370

5分46秒

117_尚硅谷_数仓搭建_ODS层_单引号和双引号区别

440

11分28秒

118_尚硅谷_数仓搭建_ODS层_用户行为数据脚本编写

320

3分9秒

119_尚硅谷_数仓搭建_ODS层_脚本问题解决

270

7分56秒

11_尚硅谷_数仓架构_集群规模

370

10分14秒

120_尚硅谷_数仓搭建_ODS层_业务数据创建表

310

12分18秒

121_尚硅谷_数仓搭建_ODS层_业务数据脚本编写

320

15分3秒

122_尚硅谷_数仓搭建_DWD层_启动日志表

400

6分15秒

123_尚硅谷_数仓搭建_DWD层_启动日志表脚本

380

13分34秒

124_尚硅谷_数仓搭建_DWD层_事件日志表解析分析

410

59秒

125_尚硅谷_数仓搭建_DWD层_事件日志表建表

380

4分33秒

126_尚硅谷_数仓搭建_DWD层_自定义UDF函数分析

300

8分56秒

127_尚硅谷_数仓搭建_DWD层_自定义UDF函数_创建工程

360

15分28秒

128_尚硅谷_数仓搭建_DWD层_自定义UDF函数_代码编写

470

4分29秒

129_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_分析

330

8分26秒

12_尚硅谷_数仓架构_集群具体规划

360

16分28秒

130_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_实现（上）

370

8分31秒

131_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_实现（下）

400

10分57秒

132_尚硅谷_数仓搭建_DWD层_解析事件日志

360

9分37秒

133_尚硅谷_数仓搭建_DWD层_解析脚本

320

15分43秒

134_尚硅谷_数仓搭建_DWD层_事件日志（3月10日完成）

290

4分27秒

135_尚硅谷_数仓搭建_DWD层_事件日志脚本（3月11日完成）

330

14分1秒

136_尚硅谷_数仓搭建_DWD层_业务_商品维度（上）

350

10分39秒

137_尚硅谷_数仓搭建_DWD层_业务_商品维度（下）

320

1分46秒

138_尚硅谷_数仓搭建_DWD层_业务_优惠卷维度

350

8分59秒

139_尚硅谷_数仓搭建_DWD层_业务_活动维度

360

7分8秒

13_尚硅谷_用户行为采集_公共字段格式

260

2分7秒

140_尚硅谷_数仓搭建_DWD层_回顾

390

10分1秒

141_尚硅谷_数仓搭建_DWD层_地区维度

290

7分18秒

142_尚硅谷_数仓搭建_DWD层_时间维度

330

16分26秒

143_尚硅谷_数仓搭建_DWD层_订单明细事实表

370

11分58秒

144_尚硅谷_数仓搭建_DWD层_支付事实表

340

5分19秒

145_尚硅谷_数仓搭建_DWD层_退款事实表

380

3分58秒

146_尚硅谷_数仓搭建_DWD层_评论事实表

430

16分38秒

147_尚硅谷_数仓搭建_DWD层_加购事实表

300

3分35秒

148_尚硅谷_数仓搭建_DWD层_收藏事实表

310

29分16秒

149_尚硅谷_数仓搭建_DWD层_优惠卷事实表分析

330

8分1秒

14_尚硅谷_用户行为采集_事件字段格式

420

14分4秒

150_尚硅谷_数仓搭建_DWD层_优惠卷事实表完成

330

6分34秒

151_尚硅谷_数仓搭建_DWD层_基本函数

350

25分2秒

152_尚硅谷_数仓搭建_DWD层_订单事实表分析

320

19分23秒

153_尚硅谷_数仓搭建_DWD层_订单事实表完成

400

20分43秒

154_尚硅谷_数仓搭建_DWD层_拉链表理论

330

16分41秒

155_尚硅谷_数仓搭建_DWD层_拉链表实操

340

16分20秒

156_尚硅谷_数仓搭建_DWD层_脚本编写

410

9分34秒

157_尚硅谷_数仓搭建_DWS层_业务术语（上）

400

9分7秒

158_尚硅谷_数仓搭建_DWS层_业务术语（下）

320

13分48秒

159_尚硅谷_数仓搭建_DWS层_基本函数

360

10分9秒

15_尚硅谷_用户行为采集_事件日志（上）

380

5分41秒

160_尚硅谷_数仓搭建_DWS层_DWS_DWT_ADS介绍

300

17分43秒

161_尚硅谷_数仓搭建_DWS层_每日设备行为宽表

310

12分38秒

162_尚硅谷_数仓搭建_DWT层_设备主题_分析

310

23分17秒

163_尚硅谷_数仓搭建_DWT层_设备主题_实现

450

29分12秒

164_尚硅谷_数仓搭建_DWS层_会员行为宽表

360

28分2秒

165_尚硅谷_数仓搭建_DWT层_会员主题宽表

390

10分32秒

166_尚硅谷_数仓搭建_DWS层_商品主题宽表

330

14分33秒

167_尚硅谷_数仓搭建_DWT层_商品主题

370

10分4秒

168_尚硅谷_数仓搭建_DWS层_优惠卷及活动宽表

470

3分55秒

169_尚硅谷_数仓搭建_DWS层_每日购买行为宽表

320

10分19秒

16_尚硅谷_用户行为采集_事件日志（下）

360

29分22秒

170_尚硅谷_数仓搭建_数仓架构回顾

400

16分57秒

171_尚硅谷_数仓搭建_ADS_活跃设备数

340

1分58秒

172_尚硅谷_数仓搭建_ADS_新增设备数

330

3分4秒

173_尚硅谷_数仓搭建_ADS_沉默用户

360

18分6秒

174_尚硅谷_数仓搭建_ADS_活跃设备讲解

340

10分1秒

175_尚硅谷_数仓搭建_ADS_新增设备讲解

340

5分59秒

176_尚硅谷_数仓搭建_ADS_沉默设备讲解

270

3分44秒

177_尚硅谷_数仓搭建_ADS_本周回流设备需求分析

370

2分6秒

178_尚硅谷_数仓搭建_ADS_流失设备需求分析

430

5分42秒

179_尚硅谷_数仓搭建_ADS_留存率需求分析

260

2分42秒

17_尚硅谷_用户行为采集_启动日志

320

4分0秒

180_尚硅谷_数仓搭建_ADS_连续需求分析

430

6分50秒

181_尚硅谷_数仓搭建_ADS_dwt_sku_topic_纠错

340

100

21分59秒

182_尚硅谷_数仓搭建_ADS_本周回流用户

360

101

3分21秒

183_尚硅谷_数仓搭建_ADS_流失用户

380

102

8分40秒

184_尚硅谷_数仓搭建_ADS_留存率_思路分析

340

103

15分23秒

185_尚硅谷_数仓搭建_ADS_留存率_编码

390

104

11分52秒

186_尚硅谷_数仓搭建_ADS_连续三周活跃

280

105

2分51秒

187_尚硅谷_数仓搭建_ADS_本周回流_补充

350

106

21分9秒

188_尚硅谷_数仓搭建_ADS_最近7天连续3天_思路一

370

107

6分54秒

189_尚硅谷_数仓搭建_ADS_最近7天连续3天_思路二

340

108

14分42秒

18_尚硅谷_用户行为采集_日志生成_分析

370

109

3分33秒

190_尚硅谷_数仓搭建_ADS_会员主题信息_需求分析

350

110

3分27秒

191_尚硅谷_数仓搭建_ADS_漏斗分析_需求分析

330

111

3分9秒

192_尚硅谷_数仓搭建_ADS_商品销量TopN_需求分析

350

112

1分9秒

193_尚硅谷_数仓搭建_ADS_商品收藏TopN_需求分析

340

113

11分40秒

194_尚硅谷_数仓搭建_ADS_会员信息统计

400

114

18分56秒

195_尚硅谷_数仓搭建_ADS_漏斗分析

340

115

6分54秒

196_尚硅谷_数仓搭建_ADS_商品个数统计

410

116

7分4秒

197_尚硅谷_数仓搭建_ADS_销量_收藏_TopN

410

117

1分12秒

198_尚硅谷_数仓搭建_ADS_商品加购_需求分析

360

118

2分25秒

199_尚硅谷_数仓搭建_ADS_商品退款率_需求分析

370

119

14分4秒

19_尚硅谷_用户行为采集_日志生成_代码说明

310

120

1分43秒

200_尚硅谷_数仓搭建_ADS_商品差评率_需求分析

450

121

4分45秒

201_尚硅谷_数仓搭建_ADS_下单数目统计_需求分析

370

122

6分43秒

202_尚硅谷_数仓搭建_ADS_支付信息统计_需求分析

330

123

8分23秒

203_尚硅谷_数仓搭建_ADS_复购率_需求分析

370

124

5分24秒

204_尚硅谷_数仓搭建_ADS_画图软件

450

125

1分54秒

205_尚硅谷_数仓搭建_ADS_商品加购排行

380

126

8分8秒

206_尚硅谷_数仓搭建_ADS_商品退款率排行

390

127

3分5秒

207_尚硅谷_数仓搭建_ADS_商品差评率排行

340

128

6分2秒

208_尚硅谷_数仓搭建_ADS_下单信息统计

370

129

15分4秒

209_尚硅谷_数仓搭建_ADS_支付信息统计

370

130

7分10秒

20_尚硅谷_用户行为采集_日志生成_LogBack配置

410

131

18分48秒

210_尚硅谷_数仓搭建_ADS_复购率

390

132

9分38秒

211_尚硅谷_任务调度_Azkaban_工作流程分析

470

133

10分34秒

212_尚硅谷_任务调度_Azkaban_部署_准备

280

134

15分33秒

213_尚硅谷_任务调度_Azkaban_部署_配置

310

135

5分52秒

214_尚硅谷_任务调度_Azkaban_MySQL建库建表

420

136

14分41秒

215_尚硅谷_任务调度_Azkaban_Sqoop导出脚本

370

137

14分26秒

216_尚硅谷_任务调度_Azkaban_数据准备

350

138

10分20秒

217_尚硅谷_任务调度_Azkaban_Job文件

410

139

4分4秒

218_尚硅谷_任务调度_Azkaban_Shell脚本准备

420

140

5分54秒

219_尚硅谷_任务调度_Azkaban_定时调度

410

141

5分34秒

21_尚硅谷_用户行为采集_虚拟机克隆

410

142

4分13秒

220_尚硅谷_任务调度_Azkaban_调度结果

380

143

12分19秒

221_尚硅谷_任务调度_Azkaban_拉链表复习

380

144

7分12秒

222_尚硅谷_任务调度_Azkaban_商品主题宽表纠错

370

145

4分30秒

223_尚硅谷_任务调度_Azkaban_任务重跑问题

440

146

7分6秒

224_尚硅谷_数据可视化_Superset

400

147

6分28秒

225_尚硅谷_数据可视化_Superset_miniconda介绍

250

148

7分26秒

226_尚硅谷_数据可视化_Superset_miniconda安装

350

149

4分35秒

227_尚硅谷_数据可视化_Superset_Python环境创建

320

150

6分13秒

228_尚硅谷_数据可视化_Superset_安装

320

151

4分27秒

229_尚硅谷_数据可视化_Superset_配置

390

152

9分45秒

22_尚硅谷_用户行为采集_虚拟机配置

350

153

6分59秒

230_尚硅谷_数据可视化_Superset_启停

400

154

5分39秒

231_尚硅谷_数据可视化_Superset_对接MySQL安装依赖

330

155

5分50秒

232_尚硅谷_数据可视化_Superset_对接MySQL数据源配置

430

156

10分26秒

233_尚硅谷_数据可视化_Superset_对接MySQL配置仪表盘_图形

300

157

2分40秒

234_尚硅谷_数据可视化_Superset_对接MySQL配置仪表盘

370

158

3分50秒

235_尚硅谷_数据可视化_Superset_补充

300

159

6分54秒

236_尚硅谷_即席查询_概述

360

160

6分8秒

237_尚硅谷_即席查询_Kylin_概述

350

161

29分50秒

238_尚硅谷_即席查询_Kylin_前置知识

310

162

17分40秒

239_尚硅谷_即席查询_Kylin_架构_特点

360

163

5分59秒

23_尚硅谷_用户行为采集_JDK安装

260

164

11分19秒

240_尚硅谷_即席查询_Kylin_部署_HBase

420

165

5分26秒

241_尚硅谷_即席查询_Kylin_部署_解压

340

166

3分21秒

242_尚硅谷_即席查询_Kylin_部署_环境变量

320

167

4分41秒

243_尚硅谷_即席查询_Kylin_部署_启动准备

380

168

2分59秒

244_尚硅谷_即席查询_Kylin_部署_启动

290

169

5分56秒

245_尚硅谷_即席查询_Kylin_部署_启动错误_解决方案

350

170

17分7秒

246_尚硅谷_即席查询_Kylin_使用_定义model

380

171

14分49秒

247_尚硅谷_即席查询_Kylin_使用_定义cube

340

172

16分55秒

248_尚硅谷_即席查询_Kylin_使用_重复key问题解决

370

173

7分26秒

249_尚硅谷_即席查询_Kylin_Hadoop历史服务器问题原因

370

174

6分14秒

24_尚硅谷_用户行为采集_Hadoop安装及配置前准备

350

175

7分26秒

250_尚硅谷_即席查询_Kylin_查询

410

176

15分41秒

251_尚硅谷_即席查询_Kylin_定时调度脚本

380

177

10分37秒

252_尚硅谷_即席查询_Kylin_cube存储原理

310

178

13分33秒

253_尚硅谷_即席查询_Kylin_cube构建原理

310

179

13分53秒

254_尚硅谷_即席查询_Kylin_cube_优化_聚合组

420

180

11分52秒

255_尚硅谷_即席查询_Kylin_cube_优化_衍生维度

330

181

13分14秒

256_尚硅谷_即席查询_Kylin_cube_优化_Rowkey设计

450

182

5分32秒

257_尚硅谷_即席查询_Kylin_cube_优化_并发粒度优化

280

183

13分41秒

258_尚硅谷_即席查询_Kylin_cube_BI对接_JDBC

320

184

10分50秒

259_尚硅谷_即席查询_Kylin_cube_BI对接_Zeppelin

380

185

12分51秒

25_尚硅谷_用户行为采集_Hadoop集群配置

330

186

21分29秒

260_尚硅谷_即席查询_Presto_概念

440

187

16分38秒

261_尚硅谷_即席查询_Presto_部署_Server

340

188

2分15秒

262_尚硅谷_即席查询_Presto_启动_Server

370

189

14分26秒

263_尚硅谷_即席查询_Presto_部署_命令行客户端

370

190

7分39秒

264_尚硅谷_即席查询_Presto_部署_可视化客户端

380

191

17分52秒

265_尚硅谷_即席查询_Presto_使用注意事项

370

192

13分6秒

266_尚硅谷_即席查询_Druid_概述

370

193

14分24秒

267_尚硅谷_即席查询_Druid_对比

410

194

17分40秒

268_尚硅谷_即席查询_Druid_架构

340

195

5分8秒

269_尚硅谷_即席查询_Druid_数据结构

370

196

2分42秒

26_尚硅谷_用户行为采集_项目经验_HDFS多目录

410

197

9分17秒

270_尚硅谷_即席查询_Druid_部署

290

198

12分35秒

271_尚硅谷_即席查询_Druid_使用

370

199

5分23秒

272_尚硅谷_集群监控_Zabbix_概述

380

200

8分42秒

273_尚硅谷_集群监控_Zabbix_架构

350

201

2分15秒

274_尚硅谷_集群监控_Zabbix_部署_说明

340

202

4分18秒

275_尚硅谷_集群监控_Zabbix_部署_Server节点_准备

380

203

10分17秒

276_尚硅谷_集群监控_Zabbix_部署_Server节点_创建用户_建库建表

350

204

10分44秒

277_尚硅谷_集群监控_Zabbix_部署_Server节点_编译环境准备

360

205

3分52秒

278_尚硅谷_集群监控_Zabbix_部署_Server节点_编译及安装

340

206

3分50秒

279_尚硅谷_集群监控_Zabbix_部署_Server节点_配置

380

207

2分59秒

27_尚硅谷_用户行为采集_项目经验_节点间数据均衡

320

208

26分23秒

280_尚硅谷_集群监控_Zabbix_部署_Server节点_系统服务脚本编写

370

209

11分6秒

281_尚硅谷_集群监控_Zabbix_部署_Server节点_web部署

470

210

4分54秒

282_尚硅谷_集群监控_Zabbix_部署_Server节点_启动

390

211

7分17秒

283_尚硅谷_集群监控_Zabbix_部署_Server节点_web

390

212

8分14秒

284_尚硅谷_集群监控_Zabbix_部署_Agent_节点部署

350

213

7分54秒

285_尚硅谷_集群监控_Zabbix_使用_术语

310

214

8分16秒

286_尚硅谷_集群监控_Zabbix_使用_创建主机

340

215

14分38秒

287_尚硅谷_集群监控_Zabbix_使用_创建监控项

440

216

6分32秒

288_尚硅谷_集群监控_Zabbix_使用_创建触发器

340

217

8分56秒

289_尚硅谷_集群监控_Zabbix_使用_创建动作

310

218

9分12秒

28_尚硅谷_用户行为采集_项目经验_配置LZO压缩

400

219

15分13秒

290_尚硅谷_集群监控_Zabbix_使用_通知媒介配置

400

220

3分30秒

291_尚硅谷_集群监控_Zabbix_使用_全流程测试

290

221

14分10秒

292_尚硅谷_集群监控_Zabbix_使用_创建模板

360

222

3分52秒

293_尚硅谷_元数据管理_Atlas_课程背景

420

223

8分15秒

294_尚硅谷_元数据管理_Atlas_课程介绍

300

224

6分40秒

295_尚硅谷_元数据管理_Atlas_架构原理

380

225

13分15秒

296_尚硅谷_元数据管理_Atlas_辅助框架安装

390

226

19分33秒

297_尚硅谷_元数据管理_Atlas_登录后配置

310

227

25分9秒

298_尚硅谷_元数据管理_Atlas_配置并启动

400

228

3分3秒

299_尚硅谷_元数据管理_Atlas_执行效果

330

229

9分20秒

29_尚硅谷_用户行为采集_项目经验_LZO创建索引

320

230

1分15秒

300_尚硅谷_中午演唱会_班主任

310

231

8分19秒

30_尚硅谷_用户行为采集_项目经验_基准测试

400

232

2分46秒

31_尚硅谷_用户行为采集_项目经验_HDFS参数调优

290

233

10分34秒

32_尚硅谷_用户行为采集_项目经验_Yarn参数调优

360

234

9分41秒

33_尚硅谷_用户行为采集_Zookeeper安装

340

235

9分27秒

34_尚硅谷_用户行为采集_Zookeeper启动停止脚本

380

236

5分10秒

35_尚硅谷_用户行为采集_项目经验_登录式Shell和非登录式Shell

290

237

8分44秒

36_尚硅谷_用户行为采集_日志生成（上）

350

238

6分42秒

37_尚硅谷_用户行为采集_日志生成（下）

400

239

5分31秒

38_尚硅谷_用户行为采集_集群日志生成启动脚本

350

240

6分33秒

39_尚硅谷_用户行为采集_集群时间同步修改脚本

330

241

3分30秒

40_尚硅谷_用户行为采集_集群所有进程查看脚本

350

242

3分54秒

41_尚硅谷_用户行为采集_Flume安装

280

243

9分17秒

42_尚硅谷_用户行为采集_项目经验_Flume组成

370

244

12分11秒

43_尚硅谷_用户行为采集_Flume采集配置（上）

360

245

11分49秒

44_尚硅谷_用户行为采集_Flume采集配置（下）

400

246

2分23秒

45_尚硅谷_用户行为采集_Flume拦截器_回顾

370

247

8分21秒

46_尚硅谷_用户行为采集_Flume拦截器_单Event

400

248

3分20秒

47_尚硅谷_用户行为采集_Flume拦截器_启动日志校验

430

249

7分32秒

48_尚硅谷_用户行为采集_Flume拦截器_事件日志校验

310

250

4分22秒

49_尚硅谷_用户行为采集_Flume拦截器_多Event

300

251

8分50秒

50_尚硅谷_用户行为采集_Flume拦截器_分类型拦截器

320

252

5分55秒

51_尚硅谷_用户行为采集_Flume手动启动

420

253

7分25秒

52_尚硅谷_用户行为采集_Flume脚本启动

380

254

7分33秒

53_尚硅谷_用户行为采集_Flume脚本停止

410

255

7分1秒

54_尚硅谷_用户行为采集_Kafka安装

250

256

5分34秒

55_尚硅谷_用户行为采集_Kafka启动停止脚本

330

257

4分52秒

56_尚硅谷_用户行为采集_Flume_Kafka通道打通

350

258

6分54秒

57_尚硅谷_用户行为采集_项目经验_Kafka压力测试

420

259

3分0秒

58_尚硅谷_用户行为采集_项目经验_Kafka机器数量计算

330

260

6分35秒

59_尚硅谷_用户行为采集_消费Flume_组件选型

280

261

13分32秒

60_尚硅谷_用户行为采集_消费Flume_配置文件说明

330

262

5分24秒

61_尚硅谷_用户行为采集_消费Flume_启动脚本小文件演示

370

263

6分21秒

62_尚硅谷_用户行为采集_消费Flume_小文件解决

340

264

3分38秒

63_尚硅谷_用户行为采集_项目经验_内存优化

390

265

9分12秒

64_尚硅谷_用户行为采集_采集通道脚本

370

266

7分29秒

65_尚硅谷_用户行为采集_生成测试数据

440

267

3分8秒

66_尚硅谷_业务数据采集_简介

320

268

7分26秒

67_尚硅谷_业务数据采集_电商理论_电商业务流程

420

269

3分30秒

68_尚硅谷_业务数据采集_电商理论_Spu_Sku

340

270

6分48秒

69_尚硅谷_业务数据采集_电商理论_电商表结构

360

271

8分31秒

70_尚硅谷_业务数据采集_电商理论_电商表详解

430

272

12分47秒

71_尚硅谷_业务数据采集_MySQL安装

380

273

5分37秒

72_尚硅谷_业务数据采集_Sqoop官网说明

340

274

8分59秒

73_尚硅谷_业务数据采集_Sqoop安装

370

275

5分29秒

74_尚硅谷_业务数据采集_MySQL中初始化表

370

276

6分39秒

75_尚硅谷_业务数据采集_业务数据生成_配置文件说明

330

277

3分32秒

76_尚硅谷_业务数据采集_生成2天业务数据

390

278

14分21秒

77_尚硅谷_业务数据采集_同步策略（上）

390

279

17分25秒

78_尚硅谷_业务数据采集_同步策略（下）

330

280

4分24秒

79_尚硅谷_业务数据采集_分析表同步策略

390

281

11分35秒

80_尚硅谷_业务数据采集_脚本中前一天时间获取

380

282

16分46秒

81_尚硅谷_业务数据采集_Sqoop参数说明

330

283

6分21秒

82_尚硅谷_业务数据采集_Sqoop参数说明_回顾

340

284

9分18秒

83_尚硅谷_业务数据采集_Sqoop脚本_具体表同步策略

380

285

10分23秒

84_尚硅谷_业务数据采集_Sqoop脚本完成

340

286

2分31秒

85_尚硅谷_业务数据采集_Sqoop脚本执行

330

287

29分2秒

86_尚硅谷_业务数据采集_20200310数据导入过程

400

288

24分11秒

87_尚硅谷_业务数据采集_20200311数据导入过程

360

289

2分1秒

88_尚硅谷_业务数据采集_数据导入成功后查看

330

290

7分48秒

89_尚硅谷_业务数据采集_Hive安装

370

291

3分11秒

90_尚硅谷_业务数据采集_Tez框架原理

320

292

3分58秒

91_尚硅谷_业务数据采集_Tez解压安装

310

293

8分0秒

92_尚硅谷_业务数据采集_Tez集成Hive

390

294

6分41秒

93_尚硅谷_业务数据采集_Tez注意事项

390

295

8分57秒

94_尚硅谷_数仓理论_课程介绍

340

296

13分57秒

95_尚硅谷_数仓理论_数仓分层及好处（上）

330

297

7分54秒

96_尚硅谷_数仓理论_数仓分层及好处（下）

360

298

3分43秒

97_尚硅谷_数仓理论_数据集市与数据仓库概念

340

299

4分14秒

98_尚硅谷_数仓理论_命名规范

450

300

8分39秒

99_尚硅谷_数仓理论_范式概念

350

265_尚硅谷_即席查询_Presto_使用注意事项

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐