文章/答案/技术大牛

发布

首页视频260_尚硅谷_即席查询_Presto_概念

260_尚硅谷_即席查询_Presto_概念

2022-12-022022-12-02 16:02:23播放44

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商数仓项目（含2.0、3.0版本）/尚硅谷数仓项目实战V2.0/视频/260_尚硅谷_即席查询_Presto_概念.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那现在这个正式开始上课，那现在我们先看一下这个，先看这个第一个框架啊。呃，来看看这个P是个什么东西啊，它首先呃也是一个这个及时查询框架，也是及时查询框架，那既然是及时查询框架，就要求什么，是不是就得要求他得查的快才行啊。对不对，那这个这个所谓的查的快，我们快有不同的这个实现方案，那咱们麒麟它是怎么去实现这个，呃，快速的高性能的查询的呢？它使用的是这个预计算，对不对，是预计算，那这个pres它的这个原理是什么呢？它不是预计算，那它是什么啊，它是这个基于内存进行运算。比如说它那个，呃，主要这个就是能在这个内存当中去完成，那尽可能在内存当中去完成这个计算，那这是他快的这个原因啊好，那下边是这个price的一个基础概念，我们先来看一下啊，来把它点开。
01:02
OK，我们来看看他的这个基础概念，这不好意思啊，这小狗又开始叫了，一会非得揍他一顿啊，来，我们看一下这个第一句话，呃呢，它是一个开源的，分布式的。Circleq查询引擎，它也是一个搜查引擎，其实说白了也是写S是吧，那我们看它的这个性能如何啊，它的数据量呢，支持GB到PB字节。PBGB到PB，然后呢，主要用于诶这个秒级的查询场景。秒级答案场景啊，那然后咱们来看一下这个，呃呢，它的一个这个注意事项，我们看看下边啊。那Bristol呢，它呃，就是说虽然可以解析这个circle，但你要注意它不是一个标准的数据库，就是它跟我们的，呃，跟我们熟悉的什么my circle Oracle这些东西，它不是一回事。
02:00
也就是他不能代替他们也不能用来做这个，呃，Or TP系统也不能做，Or TP系统也就就记住就行了啊，我们price是一个什么东西，就是一个分析引擎，就是用来做计算的，是不会去存储数据的，不会存储把这个记住啊好，那这个呃呢，它跟我们这个麒麟，诶这个东西我们可以先简单的来做一个对比，先简单做一个对比啊，那咱们的麒麟它有什么特点？麒麟它的特点就是说我数据量是不是能够支持的非常非常大呀，甭管多大的数据量，我都能够做到这个亚秒级，或者是呃，这个秒级的这个响应，我麒麟始终能达到这个性能，但是pre它就不一样了。Press就不一样了啊，因为它什么，因为price它不是预计算，它不是预计算，然后呢，它支持的数据量呢，一直在GB到PB这个这个阶段，在这个数据量上OK，我能够实现秒级，甚至是亚秒级，如果数据量数据量少呢，我也能达到亚秒级，但是它因为不是预计算对不对，所以说它肯定随着我查询的数据量的这个增长，那我的查询时间呢也会增长。
03:06
也会增长，那如果说数据量如果超过它能承受的范围，那这个查询延迟可能就会到达分钟，甚至这个十几几十分钟是这样的啊，这是咱们S也是它只能在这个数据量这个这个量量级下边能够达到秒级查询的这个响应。好，这是pres，那德那那个麒麟呢，我们是甭管多大数据量，基本都是毫秒秒级都是这样的啊，那这就是pres呢，和我们这个诶麒麟之间这样的一个一个对比关系，但是有没有它的优点呢？P有它的优点，什么优点，咱麒麟它其实使用的时候呢，有一定的局限性啊，有一定局限，什么局限性呢？就是说我们麒麟是不是只能做这种o lap式的这种查询啊，什么op就是那个多维分析，多维分析，也就是说呃，所以说我能够快速的去呃变换各种各样的维度，但是但实际上呢，你查询的这个S的形式基本上就是这种，是不是就是格外，然后加和函数这种形式啊，基本上就是这种，但是那个press它不一样，我们press呢，它不是预计算。
04:10
它不是预计算，因为麒麟为什么它是那样，因为麒麟得预计算，你查只能查它计算好的对不对，你才能查的那么快，那price它没有预计算，没有预计算呢，也就是说我随便去查我那个circle呢，我怎么写都可以，诶是这样的啊，这是咱们press它的这个跟麒麟对比的一个这个优点，就是说我那个circle，诶支持的这个复杂程度要更高一些，好，那这就是咱们pre跟麒麟的一个简单对比啊好，那完事之后呢，我们来介绍一下这个它是怎么来的啊，实际上这个pre呢，它跟我们的have，诶是由同一个公司这个诶开源的。哪个公司呢，就是那个Facebook。Facebook啊，那其实这个怎么怎么来的，其实最开始的时候呢，呃，在这个这个哪在这个Facebook这个公司内部呢，人自己开发的这个have，诶然后用have呢去呃处理一些这种这个数据分析的这样的一些请求，但是随着使用的过程当中呢，因为have底层MR默认最开始对吧，所以说。
05:08
不能满足他们这个交互式查询的需求，太慢了，所以后来呢，人家就开发了一个什么东西，那就用来代替这个have，去完成他们这个，诶机器查询的这样的需求。然后后来呢，这个也开源了，是这样的啊，这是咱们pres它的这个一个这个出身吧，好，那这个简单概念介绍完之后呢，我们往下看。下边呢，来看一看这个的这个基础架构，看它基础架构啊，那这个架构呢，呃，其实也是比较清晰的，比较清晰，我们来看一看pres呢，它里边这个是可以搭一个集群的，Pre一个搭一搭一个集群，那这个集群当中呢，有这样的两个主要角色。两个，一个是coordinator，一个是ER，呃，Coordinator看名字就是什么，就是那个什么同同领者，协调者的意思对吧？那worker呢？呃，就是这个工作者干活的是吧，就是计算的，说白了就是那就这两两大角色，那这两大角色之间他是怎么进行这个呃工作的呢？是这样的哈，来大家看一下这个地方。
06:12
呃，Cri这是我们P的客户端，那客户端呢，会把请求发送给这个P的coord，也就那个协调者，嗯，那这个所谓的请求其实就是什么，就是circle呗，对吧，你要把circle呢，诶分给这个，呃，Co，那他接收到这个请求呢，其实跟我们那have很像，因为他们基本上都一个公司开发的，对不对，会干什么，先把这个circle呢，给它解析成什么东西，解析成这个pre自己的这个，诶诶物理执行计划就是计算任务。执行成自己的这个执行任务，那把这个计算任务这个生成完之后呢，干什么？诶给这个worker发分发，给worker分发，那OK，可能这个worker呢，负责诶计算一部分的数据，那个worker另一部分，这个worker另一部分，那让他们去进行干活，其实就是这样的一个，呃，大体的一个一个结构，大体一个结构啊好，那呃这个两大角色，咱们简单了解一下之后呢，我们看看后边是什么东西啊。
07:08
后边看这位置。这里边有一个这样的概念叫做什么叫做catalog，对不对，Catalog catalog catalog，那这个catalog在pre当中是一个什么样的一个概念呢？是这样啊，因为pre呢，我们要是不是要是不是它是一个分析引擎啊，对吧，分析引擎你得要数据才能分析对吧？你的数据源诶是什么东西呢？在我们的price当中呢，我们呃一个每配置一个数据源呢，诶咱们就管这个数据源称之为一个catalog，就是咱们需要去通过这种方式去配配这个数据源的。那这个，呃，我们它支持的数据源都有什么呢？它支持的数据源非常非常丰富，可以直接对接have。就是直接我们have当中有什么表press呢，直接能够拿过来进行这个思核分析，而且速度呢，要比咱们那个have原生的MR要快很多，快很快一个量级，什么叫一个量级，一个数量级，一个数量级多少倍数，数十倍，比它快十来倍，是这样的啊，就所以说这个速度还是很快很快的，这是咱们这个这个price，他这个数据源就是一个数据源，叫做一个catalog。
08:13
对，那还有什么数据源呢？有have，还可以对接卡夫卡，甚至还能对接什么red，还有可能会有一些图数据库，它其实都能对接，是非常强大的啊，非常强大，好，那接下来咱们呃，再深入的去看一下，这个每一个数据源当中，我们在配置的时候，我们需要去注意哪些东西，来大家看啊，我们每配一个数据源，每一个catalog，我们都需要在这个里边呢，去给它定义一个什么这个对应的collector。Connector什么意思，连接器的意思啊，就是说我对接have的数据源，那要配一个have连接器，那对接卡夫卡的数据源呢，需要配一个卡夫卡的connector连接器，同理red呢，对一个red的连接器，诶是这么去对接的啊，那对接完之后大家要注意，就是说甭管我这个数据来自于什么地方，你是have也好，卡不卡也好，那我到了这个press当中呢，我的数据结构都是什么结构呢？都是这个结构。
09:05
都是schema加table的这个结构，那首先先说sIgMa是什么啊，SIgMa大家就可以把它跟我们have当中，或者是咱们MYSQL当中的那个database进行类比。Data。可以把它跟database进行类比啊，把这个记住好，那这个table是什么呢？Table那就是我们呃，Have当中或者MY当中那个table的概念。也就是说甭管数据来自于哪，我进来之后都是，诶数据库加这个表的结构加表的结构是这样的啊，那呃，大家来看一下下边啊，你看我们是不是have或者是呃，不，我们这个什么have，什么卡夫卡，什么red进来都是这样的一个结构啊，那这样的结构有什么好处呢？这样结构啊，就是诶导致我们这个它有一个非常强大的功能，什么功能呢，我可以实现什么呀，实现这个跨数据源连表查询。跨数据源里边查询啊，什么意思，就是说我可以把have当中的数据跟什么卡夫卡，或者跟那个其他那个，比如比如说买当中的数据，我可以进直接进行照。
10:09
我可以直接进行照，这是非常非常强大的，为什么呢？因为甭管数据来自于什么地方，甭管它来自于什么地方，我的数据都是什么样的，我的数据它是不是都是skyma加table的格式啊，都是这个格式，那也就相当于我把两个库里边的表进行照，对不对？其实这个也好理解了，因为它进来之后，数据结构是统一的，是统一的啊好了，那这就是咱们press的这个技术架构，加上它这个数据源，然后这个地方呢，大家看啊，咱们这画了一个have me store，那这个东西是干什么的啊，其实这个东西呢，它不是press的架构当中的东西，这是谁？这个呢，是我们单独的给have配的一个东西啊，大家注意，我们P要想去对接have这个数据源的时候，大家可以想一想，你说我pre只要拿到have的什么就够了。我就能去have里边查数据了。其实只要拿到have的原数据，那pres是不是就能够去分析have当中的数据啊，为什么？那你想一想，Have的原数据当中存储的是什么？存储的是我数仓当中有哪些数据库，有哪些表，对吧？那除此之外呢，那每张表，诶我的这个数据在HDFS上边存在于哪个路径，对不对，我是不是在原数据当中也是存储的的呀，对吧？那所以说press只要拿到原数据，那就可以根据原数据去HDFS上边呢，去拉取我们要分析的这些数据了。
11:31
是这样的，那就说咱们呃，Pre要想去对接have，那就要求我们得去启动have的这个言数据服务，那pre呢，就可以去从言数据服务当中获取还有的原数据了，其实是这样这样的一个东西啊。好，那P的基础架构呢，咱们就呃了解这么多，呃主要是两大角色，一个是Co这个接收请求，分发任务，Worker干活了，那后边呢，需要去配置catalog，也是去配置数据源，那数据源到了price当中呢，都是SKY加table的结构，那既然都是一样的，我就可以跨数据源连表查的。
12:05
是这样的一个结构啊好，那这里边还有一些文字，文字呢，咱们就不再看了啊，跟我刚才讲的是一样的，那咱们就往下走，那接下来呢，我们看一看这个的它的这个优缺点，它的优缺点还是打开这个PPT啊。好，那这个你看啊，咱们这个其实有很多这种，就是基于内存进行计算的这些框架呀，其实有很多，你比如说pres，比如咱们前面讲那个那个T子，诶实际上它也是这个对MR的一个这个优化，基于内存进行计算，包括后边我们会学Spark。对不对，还有可能会学什么inela这些东西都是都是利用内存，都是利用内存计算啊，那他们这些东西啊，都有一个特点，诶你在他的官网上啊，都会找到一个图，什么图呢？就是跟他那个mapduce进行对比的图。每个框架，每个这种框架，官网上都有一个这样的图，都爱和map producedu去比啊，嗯，那这个时候，哎，我比map produceduce快100倍，那个时候我比map producedu快十倍。
13:00
都是这样的啊，那我们来看看这个press，它这边这个图啊，那左边是mapdu mapdu呢，它这个因为它比较慢，为什么比较慢呢？因为我们这个map结束或者reduce结后，结束之后是不是都得落盘啊，第四课第四课落盘都得落盘，那这个呃，落盘的时候会有磁盘IO，而且甚至会有出现什么问题啊，就是咱们这个map结束，哎，我这个数据往reduce发的时候都要干什么，是不是还有可能会进行跨数呃跨节点啊，对吧，也就是还有可能会有网络IO。还可能会有网络IO，那这样一来的话，那这个mmr呢，就是这其实是他慢的这个主要的原因，大量的磁盘IO和这个网络IO导致它非常慢，你要说这个mmr它算的快不快，它算的其实不慢，算主要是磁盘IO和网络IO这个太慢了，这这点啊，那pre呢，咱P这边呢。他这个为什么快呀，它是这样的，就是说它会充分这个利用这个内存，充分利用内存，也就是说我们拿到一个circleq之后，拿到一个circle之后，它会把这个SQ呢，先给他解析成一个完整的这个工作计划。
14:04
一个工作计划，那这样OOKOKOK，那这个计划，那个就是完整的这个计划生成之后呢，我怎么办？我直接从头诶直接计算到尾，从头计算到尾是这样一个计算流程啊，这样一个计算流程，而且诶能在内存当中完成，尽可能在内存当中完成是这样的，也就是说它会省去咱们中间好多次的这个呃落盘，也就是减少了这个磁盘IO，网络IO，那这个速度是就非常快了，主要是这块啊，那其实咱们后边会学这个Spark呃，那些东西啊，其实大体的原理基本都是这样啊，都是先生成一个执行计划，然后呢，诶，直接在内存当中从头计算到尾，是这样的一个过程，好，那现在我们看看这个文字吧。那这个文字press，这个基于内存运算，减少磁盘IO，呃，那这个计算更快，这个咱们已经说过了，那看下边，下边呢，这个是刚才也提过了，其实啊，就是咱们press能够连接多个数据源，然后能够进行跨数据源连表查，哎，比如说从have当中，诶跟MY当中，我们去查数据，然后这俩表进行招它都能完成。
15:05
这个其实是这个其他框架所不具备的啊，这个其实是他只只只只有他能做做到这些这件事还是比较强的啊好，那他完了之后我往下看，下边呢，呃，它也有自己这个缺点，那缺点是什么呢？我们来一起看一下啊来那pre呢，它能够处理GB到PB级别的数据对不对，但是他肯定不是说把所有的数据统一全部加载到内存当中去计算的，这不可能啊，不可能说咱们这个集群由这个PB级别的这个这个内存，那这个有点太太太夸张了啊，到不了这么级别，但是实际上这个在公司里边呢，咱们一个集群这个总的这个内存资源量呢，能够达到TB级别。一个一个比较大的集群啊，能够达到TB级别，这个光内存啊，就是加在一起能达到这个级别，好，那往后看啊，那后边呢，我们有什么这个。呃，Pre呢，它不是把所有数据都加载内存的，而是怎么算的呢？而是看，而是根据场景，什么场景，比如说是咱们这种普通的诶这个count，呃，呃，或者是这个avg等聚合运算，什么聚合运算就是咱们那种普通的简单的circle，就是从一张表里查，查完之后干什么呀，是不是，然后这个进行这个这个分组group by，然后后边再加聚合函数，是不是于这样的一些查询啊，那对于这样的诶查询呢，它是怎么做的，是诶边读数据边计算再清内存。
16:27
再读数据，再计算，然后这种消耗的内存并不高，呃，这个我给大家演示一下啊，看它到底怎么算的，其实这样就是对于我们一个单表的这样的一个聚合运算，单表的一个聚合运算这么算啊，OK，我这是一个大表，里边有好多数据，我要对它进行运算，对不对？那我要运算的话怎么办？诶，我先读一部分数据，把这部分数据加载到内存当中，在内存当中呢，我进行这个聚合运算，既然是聚合运算，那你说是不是肯定会有一个聚合之后的一个结果呀，那这个结果诶我会留着，我会留着，我会留着，然后那个算完之后结果，算完结果之后那个原始数据还用吗？是不是就用不到了，那我就从内存当中把它清掉，清掉之后呢，那我再去加载另一部分的数据，那把这部分数据呢，再加载在那加，再加载到内存当中，然后对它进行聚合运算，完事之后，聚合之后是不是还得跟上一波数据的这个结果进行一个合并啊，对不对，那合并完之后又又留下来一个结果，那接下来再去读数据，再算，然后再清再算，再清再算。
17:28
它是这样的一个过程啊，那这个其实我们这个内存消耗的其实并不严重，并不严重，而且呢，它算的速度也是非常快的，因为都在内存当中完成吧，对吧？那但是呢，对于这种连表查询的时候，它就可能会产生诶大量的临时数据，呃，因此那个join的性能呢，可能会这个相对来说要比咱们单表要差一些，其实这个东西是也不能算算作它的缺点，为什么？因为你你你pre也好，你have也好，我们join的时候呢，是不是都会产生这个临时的数据啊，对吧，都产生这个数据，然后你这个速度呢，相对来说都会比较慢，这是为什么，你想一想啊。
18:06
其实他这块所说的就是什么啊，就是他当然他说这个连表查肯定也是什么，也是先把这个多张表照到一起，照到一起干什么，再去进行聚合，肯定也指的就是这种这种这种运算啊，而不是说就是单纯的join，你光照你不算，那那有啥意义啊对不对，那肯定也是说的，诶这个join，然后加聚合肯定是这种，那你想一想，你要想要有join有聚合，那你是不是肯定是得先把这些表我得join到一起，我是不是后续才能进行聚合呀，对不对，那所以说你就得就得就就就得干什么呀，就得先照到一起，那照到一起的时候，这是不是会产生大量的这个临时数据呀，对吧，然后呢，照完之后呢，再去进行计算。再聚合，再进行聚合聚算，这是这样的啊，也就是说对于这个，呃，咱们单表这个聚合和这个join之后再聚合，那我这个join呢，肯定是会产生大量的数据的，那这个运算速度是比较慢的，这个是没有办法的，这个你甭管have，诶你甭管这个咱们P我join的时候呢，呃，它这个性能呢，都是相对来说要比较差的，相对来说比较差的是这样的，呃，John要把一张表全加载的，全加载到内存，这倒是也不用。
19:14
用不着啊，Join的时候你不可能把一整张表都加载到内存里啊，不可能，肯定不是这样去做的啊，这个一会儿后续我会给大家讲一下，咱们press当中的这个join算法的当中呢，有两两种join算法，一种是哈希照，一种是广播join，这个后续我再给大家讲啊，是这样的，也就是咱们现在就知道我这个装完之后再进行聚合呢，我要产生中间数据，这个速度会比较慢。呃，他这呢，给他算的是一个缺点呢，但这个其实也不能算作缺点吧，这个基本上都有这样的现象，都有这样的问题，好，那这个咱们简单的了解一下，然后往下看啊下边呢，呃，这有一小节，但这一小节呢，其实有点尬哈，为什么呢？它这呃有一个什么呀，PAL跟这个impala性能比较。那这个拍了，我们其实没学过对不对，那其实这个课程是这样的，就是在这个之前呢，我们之前会有一个CDH的课程。
20:07
CDH，那CDH当中呢，有一个这个非常知名的这样一个机，其查询框架叫做inela，叫做inela，那inela呢，呃，它跟这个它的架构是非常这个像的，是非常像的。所以说我们通常会把这俩框架呢，来给它做一个对比，同常做一个对比啊，但是我们现在那个CDH的课呢，呃，我们可能应该是放到后边去了，放到后边去了，所以说这个派D没学没学也也不要紧，那这边呢，我们就来简单的看一看这个最终的一个测试结论啊，测试结论看一下这块呢，有一个帖子大家可以感兴趣可以看一看啊，那我们看一看这个位置。呃，咱们的测试结论是什么呢？是引拍了它的性能呢，实际上是要稍领先于这个的。只是稍领先于，其实差不了多少，没差太多啊，但是这个pre它的优点是什么？它的优点是在数据源的知识上是非常非常丰富的。刚才咱们说过了，我price都支持什么，支持什么have图数据库，关系数据库等等这些东西它都支持，但是这个inel了呢，它就支持不了这么多的数据源了，Inel了它只能支持这个我们的haveve，只能读have里边的数据啊，是这样的，所以说这是price跟inel这样的一个性能的对比，这个东西那个咱们既然也没有学过in牌了，所以这边呢，咱们就不再多说了，不再多说了，好，那到现在为止，咱们这个price的的基础的概念，咱们就呃，就说完了啊，然后把视频录一下。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷数仓项目实战V2.0

（186/300）

10分15秒

01_尚硅谷_课程介绍

430

2分27秒

02_尚硅谷_数仓概念_业务数据

470

3分32秒

03_尚硅谷_数仓概念_用户行为数据

430

10分43秒

04_尚硅谷_数仓概念_数仓概述

420

8分31秒

05_尚硅谷_数仓架构_项目需求

410

3分33秒

06_尚硅谷_数仓架构_技术选型考虑因素

410

9分24秒

07_尚硅谷_数仓架构_技术选型

440

9分58秒

08_尚硅谷_数仓架构_数仓架构

350

11分55秒

09_尚硅谷_数仓架构_框架版本选型

370

6分18秒

100_尚硅谷_数仓理论_函数依赖

350

7分46秒

101_尚硅谷_数仓理论_三范式

360

11分46秒

102_尚硅谷_数仓理论_关系建模和维度建模

450

4分43秒

103_尚硅谷_数仓理论_维度表

400

28分2秒

104_尚硅谷_数仓理论_事实表

380

10分46秒

105_尚硅谷_数仓建模_ODS层

290

10分22秒

106_尚硅谷_数仓建模_DWD层_选择业务过程

350

15分8秒

107_尚硅谷_数仓建模_DWD层_声明粒度

380

16分53秒

108_尚硅谷_数仓建模_DWD层_确定维度

350

11分38秒

109_尚硅谷_数仓建模_DWD层_确定事实

340

8分34秒

10_尚硅谷_数仓架构_服务器选型

350

19分5秒

110_尚硅谷_数仓建模_DWS层_DWT层_ADS层

350

6分21秒

111_尚硅谷_数仓建模_总结

370

3分43秒

112_尚硅谷_数仓搭建_ODS层_要做哪些事

350

3分22秒

113_尚硅谷_数仓搭建_ODS层_创建数据库

340

6分43秒

114_尚硅谷_数仓搭建_ODS层_启动日志处理分析

340

10分29秒

115_尚硅谷_数仓搭建_ODS层_启动日志处理实现

410

5分36秒

116_尚硅谷_数仓搭建_ODS层_事件日志处理

370

5分46秒

117_尚硅谷_数仓搭建_ODS层_单引号和双引号区别

440

11分28秒

118_尚硅谷_数仓搭建_ODS层_用户行为数据脚本编写

320

3分9秒

119_尚硅谷_数仓搭建_ODS层_脚本问题解决

270

7分56秒

11_尚硅谷_数仓架构_集群规模

370

10分14秒

120_尚硅谷_数仓搭建_ODS层_业务数据创建表

310

12分18秒

121_尚硅谷_数仓搭建_ODS层_业务数据脚本编写

320

15分3秒

122_尚硅谷_数仓搭建_DWD层_启动日志表

400

6分15秒

123_尚硅谷_数仓搭建_DWD层_启动日志表脚本

380

13分34秒

124_尚硅谷_数仓搭建_DWD层_事件日志表解析分析

410

59秒

125_尚硅谷_数仓搭建_DWD层_事件日志表建表

380

4分33秒

126_尚硅谷_数仓搭建_DWD层_自定义UDF函数分析

300

8分56秒

127_尚硅谷_数仓搭建_DWD层_自定义UDF函数_创建工程

360

15分28秒

128_尚硅谷_数仓搭建_DWD层_自定义UDF函数_代码编写

470

4分29秒

129_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_分析

330

8分26秒

12_尚硅谷_数仓架构_集群具体规划

360

16分28秒

130_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_实现（上）

370

8分31秒

131_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_实现（下）

400

10分57秒

132_尚硅谷_数仓搭建_DWD层_解析事件日志

360

9分37秒

133_尚硅谷_数仓搭建_DWD层_解析脚本

320

15分43秒

134_尚硅谷_数仓搭建_DWD层_事件日志（3月10日完成）

290

4分27秒

135_尚硅谷_数仓搭建_DWD层_事件日志脚本（3月11日完成）

330

14分1秒

136_尚硅谷_数仓搭建_DWD层_业务_商品维度（上）

350

10分39秒

137_尚硅谷_数仓搭建_DWD层_业务_商品维度（下）

320

1分46秒

138_尚硅谷_数仓搭建_DWD层_业务_优惠卷维度

350

8分59秒

139_尚硅谷_数仓搭建_DWD层_业务_活动维度

360

7分8秒

13_尚硅谷_用户行为采集_公共字段格式

260

2分7秒

140_尚硅谷_数仓搭建_DWD层_回顾

390

10分1秒

141_尚硅谷_数仓搭建_DWD层_地区维度

290

7分18秒

142_尚硅谷_数仓搭建_DWD层_时间维度

330

16分26秒

143_尚硅谷_数仓搭建_DWD层_订单明细事实表

370

11分58秒

144_尚硅谷_数仓搭建_DWD层_支付事实表

340

5分19秒

145_尚硅谷_数仓搭建_DWD层_退款事实表

380

3分58秒

146_尚硅谷_数仓搭建_DWD层_评论事实表

430

16分38秒

147_尚硅谷_数仓搭建_DWD层_加购事实表

300

3分35秒

148_尚硅谷_数仓搭建_DWD层_收藏事实表

310

29分16秒

149_尚硅谷_数仓搭建_DWD层_优惠卷事实表分析

330

8分1秒

14_尚硅谷_用户行为采集_事件字段格式

420

14分4秒

150_尚硅谷_数仓搭建_DWD层_优惠卷事实表完成

330

6分34秒

151_尚硅谷_数仓搭建_DWD层_基本函数

350

25分2秒

152_尚硅谷_数仓搭建_DWD层_订单事实表分析

320

19分23秒

153_尚硅谷_数仓搭建_DWD层_订单事实表完成

400

20分43秒

154_尚硅谷_数仓搭建_DWD层_拉链表理论

330

16分41秒

155_尚硅谷_数仓搭建_DWD层_拉链表实操

340

16分20秒

156_尚硅谷_数仓搭建_DWD层_脚本编写

410

9分34秒

157_尚硅谷_数仓搭建_DWS层_业务术语（上）

400

9分7秒

158_尚硅谷_数仓搭建_DWS层_业务术语（下）

320

13分48秒

159_尚硅谷_数仓搭建_DWS层_基本函数

360

10分9秒

15_尚硅谷_用户行为采集_事件日志（上）

380

5分41秒

160_尚硅谷_数仓搭建_DWS层_DWS_DWT_ADS介绍

300

17分43秒

161_尚硅谷_数仓搭建_DWS层_每日设备行为宽表

310

12分38秒

162_尚硅谷_数仓搭建_DWT层_设备主题_分析

310

23分17秒

163_尚硅谷_数仓搭建_DWT层_设备主题_实现

450

29分12秒

164_尚硅谷_数仓搭建_DWS层_会员行为宽表

360

28分2秒

165_尚硅谷_数仓搭建_DWT层_会员主题宽表

390

10分32秒

166_尚硅谷_数仓搭建_DWS层_商品主题宽表

330

14分33秒

167_尚硅谷_数仓搭建_DWT层_商品主题

370

10分4秒

168_尚硅谷_数仓搭建_DWS层_优惠卷及活动宽表

470

3分55秒

169_尚硅谷_数仓搭建_DWS层_每日购买行为宽表

320

10分19秒

16_尚硅谷_用户行为采集_事件日志（下）

360

29分22秒

170_尚硅谷_数仓搭建_数仓架构回顾

400

16分57秒

171_尚硅谷_数仓搭建_ADS_活跃设备数

340

1分58秒

172_尚硅谷_数仓搭建_ADS_新增设备数

330

3分4秒

173_尚硅谷_数仓搭建_ADS_沉默用户

360

18分6秒

174_尚硅谷_数仓搭建_ADS_活跃设备讲解

340

10分1秒

175_尚硅谷_数仓搭建_ADS_新增设备讲解

340

5分59秒

176_尚硅谷_数仓搭建_ADS_沉默设备讲解

270

3分44秒

177_尚硅谷_数仓搭建_ADS_本周回流设备需求分析

370

2分6秒

178_尚硅谷_数仓搭建_ADS_流失设备需求分析

430

5分42秒

179_尚硅谷_数仓搭建_ADS_留存率需求分析

260

2分42秒

17_尚硅谷_用户行为采集_启动日志

320

4分0秒

180_尚硅谷_数仓搭建_ADS_连续需求分析

430

6分50秒

181_尚硅谷_数仓搭建_ADS_dwt_sku_topic_纠错

340

100

21分59秒

182_尚硅谷_数仓搭建_ADS_本周回流用户

360

101

3分21秒

183_尚硅谷_数仓搭建_ADS_流失用户

380

102

8分40秒

184_尚硅谷_数仓搭建_ADS_留存率_思路分析

340

103

15分23秒

185_尚硅谷_数仓搭建_ADS_留存率_编码

390

104

11分52秒

186_尚硅谷_数仓搭建_ADS_连续三周活跃

280

105

2分51秒

187_尚硅谷_数仓搭建_ADS_本周回流_补充

350

106

21分9秒

188_尚硅谷_数仓搭建_ADS_最近7天连续3天_思路一

370

107

6分54秒

189_尚硅谷_数仓搭建_ADS_最近7天连续3天_思路二

340

108

14分42秒

18_尚硅谷_用户行为采集_日志生成_分析

370

109

3分33秒

190_尚硅谷_数仓搭建_ADS_会员主题信息_需求分析

350

110

3分27秒

191_尚硅谷_数仓搭建_ADS_漏斗分析_需求分析

330

111

3分9秒

192_尚硅谷_数仓搭建_ADS_商品销量TopN_需求分析

350

112

1分9秒

193_尚硅谷_数仓搭建_ADS_商品收藏TopN_需求分析

340

113

11分40秒

194_尚硅谷_数仓搭建_ADS_会员信息统计

400

114

18分56秒

195_尚硅谷_数仓搭建_ADS_漏斗分析

340

115

6分54秒

196_尚硅谷_数仓搭建_ADS_商品个数统计

410

116

7分4秒

197_尚硅谷_数仓搭建_ADS_销量_收藏_TopN

410

117

1分12秒

198_尚硅谷_数仓搭建_ADS_商品加购_需求分析

360

118

2分25秒

199_尚硅谷_数仓搭建_ADS_商品退款率_需求分析

370

119

14分4秒

19_尚硅谷_用户行为采集_日志生成_代码说明

310

120

1分43秒

200_尚硅谷_数仓搭建_ADS_商品差评率_需求分析

450

121

4分45秒

201_尚硅谷_数仓搭建_ADS_下单数目统计_需求分析

370

122

6分43秒

202_尚硅谷_数仓搭建_ADS_支付信息统计_需求分析

330

123

8分23秒

203_尚硅谷_数仓搭建_ADS_复购率_需求分析

370

124

5分24秒

204_尚硅谷_数仓搭建_ADS_画图软件

450

125

1分54秒

205_尚硅谷_数仓搭建_ADS_商品加购排行

380

126

8分8秒

206_尚硅谷_数仓搭建_ADS_商品退款率排行

390

127

3分5秒

207_尚硅谷_数仓搭建_ADS_商品差评率排行

340

128

6分2秒

208_尚硅谷_数仓搭建_ADS_下单信息统计

370

129

15分4秒

209_尚硅谷_数仓搭建_ADS_支付信息统计

370

130

7分10秒

20_尚硅谷_用户行为采集_日志生成_LogBack配置

410

131

18分48秒

210_尚硅谷_数仓搭建_ADS_复购率

390

132

9分38秒

211_尚硅谷_任务调度_Azkaban_工作流程分析

470

133

10分34秒

212_尚硅谷_任务调度_Azkaban_部署_准备

280

134

15分33秒

213_尚硅谷_任务调度_Azkaban_部署_配置

310

135

5分52秒

214_尚硅谷_任务调度_Azkaban_MySQL建库建表

420

136

14分41秒

215_尚硅谷_任务调度_Azkaban_Sqoop导出脚本

370

137

14分26秒

216_尚硅谷_任务调度_Azkaban_数据准备

350

138

10分20秒

217_尚硅谷_任务调度_Azkaban_Job文件

410

139

4分4秒

218_尚硅谷_任务调度_Azkaban_Shell脚本准备

420

140

5分54秒

219_尚硅谷_任务调度_Azkaban_定时调度

410

141

5分34秒

21_尚硅谷_用户行为采集_虚拟机克隆

410

142

4分13秒

220_尚硅谷_任务调度_Azkaban_调度结果

380

143

12分19秒

221_尚硅谷_任务调度_Azkaban_拉链表复习

380

144

7分12秒

222_尚硅谷_任务调度_Azkaban_商品主题宽表纠错

370

145

4分30秒

223_尚硅谷_任务调度_Azkaban_任务重跑问题

440

146

7分6秒

224_尚硅谷_数据可视化_Superset

400

147

6分28秒

225_尚硅谷_数据可视化_Superset_miniconda介绍

250

148

7分26秒

226_尚硅谷_数据可视化_Superset_miniconda安装

350

149

4分35秒

227_尚硅谷_数据可视化_Superset_Python环境创建

320

150

6分13秒

228_尚硅谷_数据可视化_Superset_安装

320

151

4分27秒

229_尚硅谷_数据可视化_Superset_配置

390

152

9分45秒

22_尚硅谷_用户行为采集_虚拟机配置

350

153

6分59秒

230_尚硅谷_数据可视化_Superset_启停

400

154

5分39秒

231_尚硅谷_数据可视化_Superset_对接MySQL安装依赖

330

155

5分50秒

232_尚硅谷_数据可视化_Superset_对接MySQL数据源配置

430

156

10分26秒

233_尚硅谷_数据可视化_Superset_对接MySQL配置仪表盘_图形

300

157

2分40秒

234_尚硅谷_数据可视化_Superset_对接MySQL配置仪表盘

370

158

3分50秒

235_尚硅谷_数据可视化_Superset_补充

300

159

6分54秒

236_尚硅谷_即席查询_概述

360

160

6分8秒

237_尚硅谷_即席查询_Kylin_概述

350

161

29分50秒

238_尚硅谷_即席查询_Kylin_前置知识

310

162

17分40秒

239_尚硅谷_即席查询_Kylin_架构_特点

360

163

5分59秒

23_尚硅谷_用户行为采集_JDK安装

260

164

11分19秒

240_尚硅谷_即席查询_Kylin_部署_HBase

420

165

5分26秒

241_尚硅谷_即席查询_Kylin_部署_解压

340

166

3分21秒

242_尚硅谷_即席查询_Kylin_部署_环境变量

320

167

4分41秒

243_尚硅谷_即席查询_Kylin_部署_启动准备

380

168

2分59秒

244_尚硅谷_即席查询_Kylin_部署_启动

290

169

5分56秒

245_尚硅谷_即席查询_Kylin_部署_启动错误_解决方案

350

170

17分7秒

246_尚硅谷_即席查询_Kylin_使用_定义model

380

171

14分49秒

247_尚硅谷_即席查询_Kylin_使用_定义cube

340

172

16分55秒

248_尚硅谷_即席查询_Kylin_使用_重复key问题解决

370

173

7分26秒

249_尚硅谷_即席查询_Kylin_Hadoop历史服务器问题原因

370

174

6分14秒

24_尚硅谷_用户行为采集_Hadoop安装及配置前准备

350

175

7分26秒

250_尚硅谷_即席查询_Kylin_查询

410

176

15分41秒

251_尚硅谷_即席查询_Kylin_定时调度脚本

380

177

10分37秒

252_尚硅谷_即席查询_Kylin_cube存储原理

310

178

13分33秒

253_尚硅谷_即席查询_Kylin_cube构建原理

310

179

13分53秒

254_尚硅谷_即席查询_Kylin_cube_优化_聚合组

420

180

11分52秒

255_尚硅谷_即席查询_Kylin_cube_优化_衍生维度

330

181

13分14秒

256_尚硅谷_即席查询_Kylin_cube_优化_Rowkey设计

450

182

5分32秒

257_尚硅谷_即席查询_Kylin_cube_优化_并发粒度优化

280

183

13分41秒

258_尚硅谷_即席查询_Kylin_cube_BI对接_JDBC

320

184

10分50秒

259_尚硅谷_即席查询_Kylin_cube_BI对接_Zeppelin

380

185

12分51秒

25_尚硅谷_用户行为采集_Hadoop集群配置

330

186

21分29秒

260_尚硅谷_即席查询_Presto_概念

440

187

16分38秒

261_尚硅谷_即席查询_Presto_部署_Server

340

188

2分15秒

262_尚硅谷_即席查询_Presto_启动_Server

370

189

14分26秒

263_尚硅谷_即席查询_Presto_部署_命令行客户端

370

190

7分39秒

264_尚硅谷_即席查询_Presto_部署_可视化客户端

380

191

17分52秒

265_尚硅谷_即席查询_Presto_使用注意事项

370

192

13分6秒

266_尚硅谷_即席查询_Druid_概述

370

193

14分24秒

267_尚硅谷_即席查询_Druid_对比

410

194

17分40秒

268_尚硅谷_即席查询_Druid_架构

340

195

5分8秒

269_尚硅谷_即席查询_Druid_数据结构

370

196

2分42秒

26_尚硅谷_用户行为采集_项目经验_HDFS多目录

410

197

9分17秒

270_尚硅谷_即席查询_Druid_部署

290

198

12分35秒

271_尚硅谷_即席查询_Druid_使用

370

199

5分23秒

272_尚硅谷_集群监控_Zabbix_概述

380

200

8分42秒

273_尚硅谷_集群监控_Zabbix_架构

350

201

2分15秒

274_尚硅谷_集群监控_Zabbix_部署_说明

340

202

4分18秒

275_尚硅谷_集群监控_Zabbix_部署_Server节点_准备

380

203

10分17秒

276_尚硅谷_集群监控_Zabbix_部署_Server节点_创建用户_建库建表

350

204

10分44秒

277_尚硅谷_集群监控_Zabbix_部署_Server节点_编译环境准备

360

205

3分52秒

278_尚硅谷_集群监控_Zabbix_部署_Server节点_编译及安装

340

206

3分50秒

279_尚硅谷_集群监控_Zabbix_部署_Server节点_配置

380

207

2分59秒

27_尚硅谷_用户行为采集_项目经验_节点间数据均衡

320

208

26分23秒

280_尚硅谷_集群监控_Zabbix_部署_Server节点_系统服务脚本编写

370

209

11分6秒

281_尚硅谷_集群监控_Zabbix_部署_Server节点_web部署

470

210

4分54秒

282_尚硅谷_集群监控_Zabbix_部署_Server节点_启动

390

211

7分17秒

283_尚硅谷_集群监控_Zabbix_部署_Server节点_web

390

212

8分14秒

284_尚硅谷_集群监控_Zabbix_部署_Agent_节点部署

350

213

7分54秒

285_尚硅谷_集群监控_Zabbix_使用_术语

310

214

8分16秒

286_尚硅谷_集群监控_Zabbix_使用_创建主机

340

215

14分38秒

287_尚硅谷_集群监控_Zabbix_使用_创建监控项

440

216

6分32秒

288_尚硅谷_集群监控_Zabbix_使用_创建触发器

340

217

8分56秒

289_尚硅谷_集群监控_Zabbix_使用_创建动作

310

218

9分12秒

28_尚硅谷_用户行为采集_项目经验_配置LZO压缩

400

219

15分13秒

290_尚硅谷_集群监控_Zabbix_使用_通知媒介配置

400

220

3分30秒

291_尚硅谷_集群监控_Zabbix_使用_全流程测试

290

221

14分10秒

292_尚硅谷_集群监控_Zabbix_使用_创建模板

360

222

3分52秒

293_尚硅谷_元数据管理_Atlas_课程背景

420

223

8分15秒

294_尚硅谷_元数据管理_Atlas_课程介绍

300

224

6分40秒

295_尚硅谷_元数据管理_Atlas_架构原理

380

225

13分15秒

296_尚硅谷_元数据管理_Atlas_辅助框架安装

390

226

19分33秒

297_尚硅谷_元数据管理_Atlas_登录后配置

310

227

25分9秒

298_尚硅谷_元数据管理_Atlas_配置并启动

400

228

3分3秒

299_尚硅谷_元数据管理_Atlas_执行效果

330

229

9分20秒

29_尚硅谷_用户行为采集_项目经验_LZO创建索引

320

230

1分15秒

300_尚硅谷_中午演唱会_班主任

310

231

8分19秒

30_尚硅谷_用户行为采集_项目经验_基准测试

400

232

2分46秒

31_尚硅谷_用户行为采集_项目经验_HDFS参数调优

290

233

10分34秒

32_尚硅谷_用户行为采集_项目经验_Yarn参数调优

360

234

9分41秒

33_尚硅谷_用户行为采集_Zookeeper安装

340

235

9分27秒

34_尚硅谷_用户行为采集_Zookeeper启动停止脚本

380

236

5分10秒

35_尚硅谷_用户行为采集_项目经验_登录式Shell和非登录式Shell

290

237

8分44秒

36_尚硅谷_用户行为采集_日志生成（上）

350

238

6分42秒

37_尚硅谷_用户行为采集_日志生成（下）

400

239

5分31秒

38_尚硅谷_用户行为采集_集群日志生成启动脚本

350

240

6分33秒

39_尚硅谷_用户行为采集_集群时间同步修改脚本

330

241

3分30秒

40_尚硅谷_用户行为采集_集群所有进程查看脚本

350

242

3分54秒

41_尚硅谷_用户行为采集_Flume安装

280

243

9分17秒

42_尚硅谷_用户行为采集_项目经验_Flume组成

370

244

12分11秒

43_尚硅谷_用户行为采集_Flume采集配置（上）

360

245

11分49秒

44_尚硅谷_用户行为采集_Flume采集配置（下）

400

246

2分23秒

45_尚硅谷_用户行为采集_Flume拦截器_回顾

370

247

8分21秒

46_尚硅谷_用户行为采集_Flume拦截器_单Event

400

248

3分20秒

47_尚硅谷_用户行为采集_Flume拦截器_启动日志校验

430

249

7分32秒

48_尚硅谷_用户行为采集_Flume拦截器_事件日志校验

310

250

4分22秒

49_尚硅谷_用户行为采集_Flume拦截器_多Event

300

251

8分50秒

50_尚硅谷_用户行为采集_Flume拦截器_分类型拦截器

320

252

5分55秒

51_尚硅谷_用户行为采集_Flume手动启动

420

253

7分25秒

52_尚硅谷_用户行为采集_Flume脚本启动

380

254

7分33秒

53_尚硅谷_用户行为采集_Flume脚本停止

410

255

7分1秒

54_尚硅谷_用户行为采集_Kafka安装

250

256

5分34秒

55_尚硅谷_用户行为采集_Kafka启动停止脚本

330

257

4分52秒

56_尚硅谷_用户行为采集_Flume_Kafka通道打通

350

258

6分54秒

57_尚硅谷_用户行为采集_项目经验_Kafka压力测试

420

259

3分0秒

58_尚硅谷_用户行为采集_项目经验_Kafka机器数量计算

330

260

6分35秒

59_尚硅谷_用户行为采集_消费Flume_组件选型

280

261

13分32秒

60_尚硅谷_用户行为采集_消费Flume_配置文件说明

330

262

5分24秒

61_尚硅谷_用户行为采集_消费Flume_启动脚本小文件演示

370

263

6分21秒

62_尚硅谷_用户行为采集_消费Flume_小文件解决

340

264

3分38秒

63_尚硅谷_用户行为采集_项目经验_内存优化

390

265

9分12秒

64_尚硅谷_用户行为采集_采集通道脚本

370

266

7分29秒

65_尚硅谷_用户行为采集_生成测试数据

440

267

3分8秒

66_尚硅谷_业务数据采集_简介

320

268

7分26秒

67_尚硅谷_业务数据采集_电商理论_电商业务流程

420

269

3分30秒

68_尚硅谷_业务数据采集_电商理论_Spu_Sku

340

270

6分48秒

69_尚硅谷_业务数据采集_电商理论_电商表结构

360

271

8分31秒

70_尚硅谷_业务数据采集_电商理论_电商表详解

430

272

12分47秒

71_尚硅谷_业务数据采集_MySQL安装

380

273

5分37秒

72_尚硅谷_业务数据采集_Sqoop官网说明

340

274

8分59秒

73_尚硅谷_业务数据采集_Sqoop安装

370

275

5分29秒

74_尚硅谷_业务数据采集_MySQL中初始化表

370

276

6分39秒

75_尚硅谷_业务数据采集_业务数据生成_配置文件说明

330

277

3分32秒

76_尚硅谷_业务数据采集_生成2天业务数据

390

278

14分21秒

77_尚硅谷_业务数据采集_同步策略（上）

390

279

17分25秒

78_尚硅谷_业务数据采集_同步策略（下）

330

280

4分24秒

79_尚硅谷_业务数据采集_分析表同步策略

390

281

11分35秒

80_尚硅谷_业务数据采集_脚本中前一天时间获取

380

282

16分46秒

81_尚硅谷_业务数据采集_Sqoop参数说明

330

283

6分21秒

82_尚硅谷_业务数据采集_Sqoop参数说明_回顾

340

284

9分18秒

83_尚硅谷_业务数据采集_Sqoop脚本_具体表同步策略

380

285

10分23秒

84_尚硅谷_业务数据采集_Sqoop脚本完成

340

286

2分31秒

85_尚硅谷_业务数据采集_Sqoop脚本执行

330

287

29分2秒

86_尚硅谷_业务数据采集_20200310数据导入过程

400

288

24分11秒

87_尚硅谷_业务数据采集_20200311数据导入过程

360

289

2分1秒

88_尚硅谷_业务数据采集_数据导入成功后查看

330

290

7分48秒

89_尚硅谷_业务数据采集_Hive安装

370

291

3分11秒

90_尚硅谷_业务数据采集_Tez框架原理

320

292

3分58秒

91_尚硅谷_业务数据采集_Tez解压安装

310

293

8分0秒

92_尚硅谷_业务数据采集_Tez集成Hive

390

294

6分41秒

93_尚硅谷_业务数据采集_Tez注意事项

390

295

8分57秒

94_尚硅谷_数仓理论_课程介绍

340

296

13分57秒

95_尚硅谷_数仓理论_数仓分层及好处（上）

330

297

7分54秒

96_尚硅谷_数仓理论_数仓分层及好处（下）

360

298

3分43秒

97_尚硅谷_数仓理论_数据集市与数据仓库概念

340

299

4分14秒

98_尚硅谷_数仓理论_命名规范

450

300

8分39秒

99_尚硅谷_数仓理论_范式概念

350

260_尚硅谷_即席查询_Presto_概念

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐