文章/答案/技术大牛

发布

首页视频268_尚硅谷_即席查询_Druid_架构

268_尚硅谷_即席查询_Druid_架构

2022-12-022022-12-02 16:02:23播放34

点赞0 收藏 0

3.尚硅谷大数据学科--项目实战/尚硅谷大数据电商数仓项目（含2.0、3.0版本）/尚硅谷数仓项目实战V2.0/视频/268_尚硅谷_即席查询_Druid_架构.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，那上节课咱讲了挺多啊，那大家就大大概现在能掌握到什么程度就行了，就知道我们德鲁伊，那它的这个基本的这个呃概念就是它能干什么，它的性能如何，先能搞定，然后它的特点是什么，诶这个简单看一看，然后下边的应用场景，呃，我们有一个初步的一个认识，诶然后就行，然后下边呢，我们来看看这个德鲁伊的框架原理。呃，一看这个图呢，可能有同学就头就大了啊，这么多乱七八糟的什么东西啊，这是是吧，确实比较乱，呃，而且确实啊，德鲁伊的这个架构呢，确实比较复杂。呃，这个确实确实是这样的啊呃，那所以说咱们这呢，呃，先不讲这个它的框架原理，我们讲一个什么东西呢，讲一个跟它这个底层原理诶比较像的一个东西。底层原理比较像的一个东西啊，前面咱们讲过德鲁伊会干什么，德鲁伊我底层是不是会会我我德鲁伊是不是会会会那个存储数据啊，对吧，它是一个相当于是一个数据库对不对，时序数据库要存数据的对不对，那存数据你需要往里边写。
01:02
对不对，那也要从里边去读，也要从里边读，那这个我的德鲁伊的读写流程应该跟什么有关系，应该是和他这个底层存储数据的这个结构是有关系的，我不同的这个存储数据的结构，那我不同的数据结构，那我这个读取流程就是不一样的，那所以说我们从这入手，我们来看看德鲁伊它底层存储数据的这个数据结构，它是什么结构啊，它其实啊，它结结构应该是这个lsm。Lsm。T tree，那这个东西是什么啊？这个东西呢，就是说它首先我给大家说一下它的全称是什么，全称是log，然后这个morge tree，也就是日志结构合并数。日志结构合并数，日志结构合并数啊，那这个东西，哎，它是一个什么东西呢？它其实是我们这个存储这个数据的，有咱们这种数据库啊，存储数据的两大结构中的一种。那有一种啊，那我们呃，大家可能熟悉的这种存储这种日志存储数据的这种结构呢，可能知道有什么呀，诶咱们传统的关于数据库，比如说my circleql有有什么呀，他说有什么btra啊B加这些东西对不对，那这种结构我的特点是什么？我特点啊就是说哎，我能够这个快速的去，呃随机的去读写这个数据，我能够，而且我要是去写的时候，比如说我要去修改，我要删除，那我能够快速的去找到咱们这个数据的真正的这个在文件当中位置，我能够真正的去删除，或者真正的去修改某一条数据。
02:30
对不对，当然这种结构它也有它的局限，当我的数据量如果说很大之后呢，那可能我处理起来就没有那么快了，没有那么快了，也就是知识的数据量是有限的，对吧？那所以说后来呢，我们出现了一种什么东西啊，诶就是这个咱们这边讲到的这个l SM tree这个东西。这个日志结构合并数，日结合并数，那它是干什么用的呢？其实这个东西咱们看似陌生，但实际上大家已经对这个东西很熟悉了。
03:00
为什么呢？因为咱们学的H。它的底层原理就是日志结构合并数，其实包括咱们这个德鲁伊这边呢，其实也应用到了这个日志结构合并数的理论，也应用到了这个理论啊，那我们现在呢，呃，通过h base这个读写流程，我们去回顾一下，呃，这个h base读写流程，然后呢，去讲一下到底什么叫lsm，来咱们回回顾一下啊，我打开一个空白的地方。好，那我们先来想想，咱们这个数据啊，就是往HP里边写的时候怎么写的，来大家来看一下啊，我们往H里边去写数据的时候，咱们写到什么地方了，是不是会写到那个什么里边，那个h file里边啊，哎，咱们先不说它先写到哪，咱们就说最终写到哪，是不是最终会写到h file里H。会写到这个h file里h IH file，那写到这个里边它有什么特点啊，你想一想，我们其实有这样的一个好处的什么好处，那咱们这个就是说对于一个数据库来说，我肯定要有这个增删改查的功能，对不对，肯定要有这样的功能，那呃，随着这个数据量的增长。
04:08
那如果说我还是采用咱们那个传统的这种什么避税避加税啊，诶我可能数据量很大的时候，我去进行随机的这个修改或者删除的时候呢，可能效率上就没有那么高了，没有那么高了，那所以说诶咱们后期出现在这种这种日志结构合并数那特点，它的特点是什么呢？它特点就是我这个比如说我要删除一条数据，或者说我要修改一条数据的时候呢，我不是说我真正的去修改或去删除咱们这个数据了，我不是真正的去去去删除或修改了，我是干什么呢？我是诶在这个咱们的h file当中，诶我是我是不是再给他加上一条这个类似于一条这个修改日志啊，相当于是对不对，那我要修改某一条数据，那我就在这个HL当中呢，我是不是会有一条这个，诶新的这条数据的一个这个一个值给出现了，因为我修改，我实际上是新加了一条数据，那我要删除呢，我删除实际上也是新加了一条数据吧。
05:01
对不对，那这样一来的话，咱是不是就能够实现所谓的这个快速的这个随机读写了呀，随机读随机写随机写啊，就是去诶去修改或者是删除某一条数据，这就叫随机写随机写啊，那这样一来，你想一想，咱们数据量我甭管多大。对不对，甭管你的数据量多大，那我去删除一条数据或修改一条数据的时候，我所用的时间基本上诶都是不会增长的，诶都是这点时间。对不对，那其实这样一来，我能够实现这个所谓的快速，这个诶读快速，快速的写，快速的写，而且是随机的，就是假装是随机的啊，实际上他没有真正的去随机写，没有真正的随机写啊，是这样的，那这是咱们这个这个HL呢，其实在这呢，也就是咱们那个所谓的log more tree当中的那个，就是这个log，呃，SM tree当中那个L。就就是LS处当中的L，就是HL，就相当于这个L那一个文件嘛，就相当于类似于一个这个所谓的一个日志嘛，是这样的，那这个东西啊呃，大家可以可以思考一下，如果说我这个HL它越来越多，越来越多，越来越多。
06:04
那这样一来，诶，我们他有什么不好的地方呢，有什么不好地方呢？哎，不好的地方呢，就是说我们去读数据的时候呢，可能会比较麻烦。嗯，对不对，你读的时候会比较麻烦，为什么麻烦呢？你想一想，诶，那我去读某一条数据的时候，去读某一条数据的时候，比如说呃，我去读诶某一条数据，那我读的时候，那这条数据它是不是有可能会在每一个文件当中都存在。对不对，因为咱们前面讲过，我去删一条数据，或者是我去修改一条数据的时候，我实际上是追加一条数据，对不对，那有没有可能我去修改的时候，我第一次修改那数据跑这来了。在这个文件当中，那第二次修改的时候，是不是有可能在这个文件当中，第三次修改有可能在这个文件当中，对不对，那这样一来的话，是不是就是我们去读数据的时候会出现什么问题，我需要去扫描所有的文件。对吧，你需要把每个文件当中这条数据的这个修改记录或者删除记录都要拿出来，拿出来之后干什么，需要做一个合并的对不对？诶综合综合你所有的记录，我看一看我最终到底给客户端返回什么样的数据，如果说你有一个删除标记，那我就什么都不返回，对吧？如果说有多个这个状态，那我就返回最新的那个。
07:13
对不对，这是咱们这个读的时候，诶它的这个流程，这是我们设备的读流程，对不对，那大家可以琢磨一下，琢磨什么东西呢？怎么可以诶就是诶减少咱们这个扫描文件的这个个数，就怎么加快它的这个读的这个速度，那很显然你需要干什么，你需要定期的对这个文件进行合并，所谓的合并也是咱们这的这个lsm除以当中的M。就这个合并merge merge，那合并的过程当中需要干什么呢？合并的过程当中啊，需要去删除那些就是已经过时的数据，哪些是过时的呢？比如说咱们这有好几个状态对不对？那我比如说我只要最新状态，那历史状态是不是可以删掉就不用了，对吧？那比如说我没有删除标记，那有删除标记是不是你这数据相当于真正的删除了呀，那我合并的过程当中，我可以把它删掉。
08:00
对不对，那这样一来我多个h file，我合并成一个之后呢，那我后续再查的时候，我速度就会提升，就会提升，那这个呢，就是咱们这个所谓的l SM tree的这个，诶存储数据的这个结构。是这样的啊，那h base我们很显然就应用了这种结构，只不过呢，他对这个结构呢，做了一定的优化，做了一定的优化，做了哪些优化呢？诶比如说。诶，他他需要对什么呀，他需要对我们这个HL当中，我们有一个r key的概念，是不是要对rie进行排序，那对RK进行排序，其实为了干什么，其实就是为了加快我们查询的速度，对不对，我根据rockie去查询，我rock是有序的对不对，那所以说你有序的你就可以，诶利用它这个有序的特点，快速的定位你想要的那套数据。这是，诶他为了加快查询是有序的，那既然要有序，有序的话，你得排序是不是才能有序，对不对，那排序怎么排对不对，你往文件里直接写能排序吗？肯定不能，得在内存当中写才能排序，对不对，怎么办？在这个位置我们有一个store。
09:01
呃，不叫ma叫叫叫不叫ma叫什么呀？叫ma store，就是这个一个内存组件对不对，我数据呢，先写到内存组件当中，在里边排好序，我再往外进行flash，再写到这个HL文件当中。那这样一来你想一想，那咱们呃，这么去设计这个东西的话，虽然能排序，但是它有不好的地方，哪里不好呢？哪里不好啊，很显然是不是有可能会丢数据啊，有这种风险，那数据这个，如果这个写到内存当中，还没有往外写，那这时候挂掉了，那里面数据就丢了，这不行，所以说后边又引入了一个什么东西呢？引入了一个这个呃，W。Right ahead log、预写日志，所有的这个读写请，所有的写请求全部写到这里。而且是落盘吧，落盘。那你这个往文件里写，是不是感觉会写的比较慢啊，但其实这边并不慢，我们写的时候是是顺序写，磁盘往WR写是顺序写，那其实这个其实也是比较快的，也是比较快的啊，那写到这里边之后呢，再往ma这写，然后再进行排序，那这样一来就能够解决咱们这个丢失数据的这个风险，为什么？因为咱们在这儿是不是有记录啊，那即便这里边数据没了，那重启之后我是不是把日志回放一下就行了呀，那就又拿到刚才的数据了。
10:12
是这样的啊，这是咱们H贝斯它应用了这个lsm这个原理，那这边咱们的德鲁伊呢，咱们德鲁伊其实它底层也用了这个l SM tree也用了这个原理，也用了这个原理啊好了，那现在呢，我们去看一看它怎么用的这个原理。打开这个图啊，嗯。OK，我们，呃，把这个往下拉一下吧，往下拉一下啊，那现在咱们看一下这个德鲁伊的这个，呃，框架原理好，这里边的角色，这个角色是很多的啊，呃，每一个小方，黄色的小块，这都是一个它自己的一个角色，然后每一个灰色的东西呢，都是它依赖的外部组件，依赖的外部组件啊好了，那现在我们先看他自己的组件，看这个地方。这个地方叫做什么叫middle manager no，这个你甭管它，这个翻译过来叫什么，不用管了，你就看它是干什么的啊来这有一个streaming date，有一个batch date，然后是往德鲁伊里边去写吧，这是对不对，也就是这个组件呢，是负责写数据的一个组件，比是我们写数据要找他，写数据要找他啊，那后边我们这儿还有一个东西，这有一个这个broke nose。
11:18
是什么？是不是就是一个什么代理节点啊，那它是干什么用的呢？它是用来处理这个客户端请求的。对不对，Client queries处客户端请求，那也就是一个是负责写，一个是负责读的，好那现在呢，我们呃回忆一下咱们h base的写流程已经回忆过了，对吧？那我们结合他去看一看德鲁伊里边是怎么去写数据的，好那我们既然写数据是不是要往这个里边去写呀，对不对，那这边写的时候我们德鲁伊呢，它同样是对什么呀，同样是需要对这个我们的什么玩意啊，需要对我们的这个呃数据进行这个呃排序的进行排序，那要排序是不是也得在内存里边去去做呀，而且这回排序按照什么排序，它是不是那个时序数据库啊，这有一个时间字段的，它是按照它进行排序的啊，它进行排序，那也就是说需要在这儿进行这个，诶相应的排序进行排序，那数据呢，写在这儿，呃，要排序要内存对不对，那是不是也是应该达到一定的预值之后，给他写到这个存储系统当中啊，那这边呢，有一个这个deep storage deep storage，那这个deep storage呢，我们可以自己配置，如果说你搭的德鲁伊是单机版，那它就是本地磁盘。
12:26
如果说你搭的是集群，那这边是可以配置让它存储到HDS上的，是这样的啊好，那假如说咱们是往HDS上存，那这边也说我达定一定的阈值之后呢，我flash。Flash完之后生成一个文件对不对，那这个相当于什么，是不是就可以跟咱们h base当中那个h file进行类比啊对不对，那然后大家这时候你注意一个点，注意什么点呢？我刚才说我们写的时候是直接往这个所谓的一个内存当中去写的。对不对，没有那个WL对吧，它是没有那个组件了，那所以说是不是德鲁伊这边它就有会有什么呀，会有这个丢失数据的这个风险啊，那前面咱不是讲过吗？就是德鲁伊适用于对这个数据质量敏感度不高的场景，其实主要原因是在这个地方。
13:09
主要是在这儿啊好，那这边呢。呃，他往这里边写，然后这个定期的进行flash flash这是我们写对不对，那接下来我们看读，那读的时候，咱们这个h base去读数去的时候会去哪读h base首先会去mato读，也会去咱们的h file读，因为是不是有可能我新写的数据还在内存当中，还没有flash啊，对吧？那同理，德鲁伊这边呢，其实也是这样的一个道理，也是这样道理，我是不是有可能一部分数据诶还没有flash到外边啊，那所以说我们broke nose这边去读数据的时候得去哪读，要么去内存当中读，要么去咱们这个deep storage去文件里边去读。对不对，那所以说这儿呢，有这样的两个箭头，那现来看，现在大家看这个地方啊，这地方有个什么，有一个historical notes historical notes，这是一个什么呢？什么意思，这是那个历史节点的意思，历史节点啊，它不是历史服务器，那什么叫历史节点呢？其实在这啊，指的是去那个呃，读咱们这个历史数据的。
14:09
读历数据，我就管它叫做历史节点，那这个历史数据是怎么定义的呢？就说只要诶咱们数据腐烂出来了，那这边我就管它叫做历史数据了，就已经成为历史了，那这个节点的作用就是去从deep storage里边去拉取数据，拉取回来之后呢，放在自己这个节点上，然后呢，供这个broke nose去进行读取。其实这边呢，相当于做了一个这个解耦啊，先做一个解耦，那它呢，它的功能是干什么，就是负责读数据，那这个东西呢，就是处理请求，对不对，咱们没有说让他也处理请求，然后让他自己也去外边拉数据，没有这样做好，那这就是咱们这三个节点，这是用来写的，那这个呢是用来处理这个诶客户端请求的，那读数据的时候呢，也有可能去这里边内存档去拿，也有可能去外部存储系统里边去拿，当然拿的时候不是他自己去拿，谁帮他拿，是这个historical note去帮他去拿的。
15:00
这是咱们这三个节点，那完了之后呢，我们看看剩下的两个啊。这俩这俩东西一看它的名字就不好惹，对不对，一个叫做coordinator的协调节点，一个协调者，协调者对吧，还有一个叫做overload overload什么意思，就是这个大家应该都听过什么myload myload那什么东西，那是大人的意思对不对？那在这呢，就是说统治者overload，这不是过载啊，是overload是统治者的意思，好，那他俩分别是干什么用的呢？我们来看它首先协调节点，那他协调协协调的是谁啊，协调的是历史节点。提历史阶段，因为我们其实德鲁伊更多的是干什么，是不是也是进行查询啊，对吧，那查询你其实需要大量的这个historical notes，对吧，那你需要把这个读数据的任务呢，在多个historical notes之间呢，进行均衡，进行均衡谁来干这个事，他干这个事的，这是它的作用，那这个统治者是干什么用的呢？诶它是用来是不是监视咱们这个middle manager的呀，也就是监监控这个的，对不对，那它的作用是干什么用的呢？它的作用呢，其实是去去辅助它，去协调它，去完成咱们这个数据的这个摄入。
16:05
完成数据的摄入，也就是他是管这个，诶管血的，那他是干什么的呢？他是管读的。主要是这样的一个东西啊，就咱们简单的了解到这个程度就可以了，然后剩下的呢，大家可以观察一下，咱们每一个角色后边是不是都是S啊，那也就是说我们每个角色呢，其实都可以配置成这个多个配置多个，那其实所有的任务都可以并行的去处理。那既然是都是多个，那他们之间是不是肯定有一个协调啊，谁去协调，诶组keepper去协调，就这样的，需要用到这个组keeper，需要用组keeper啊是这样的，然后这边呢，我们还有一个什么语言数据的这个存储，那这边语言数据它指的是谁的原数据呢？诶其实指的是咱们数据是不是要写到这个咱们的德鲁伊当中啊，那德鲁伊这边呢，我诶需要也是需要有一个这个，诶一个这个表的一个结构的，一个表的结构的，那后边咱们会讲叫做data source data source啊，那这个东西也是需要有这个原数据的原数据的，那这边呢，诶是存储它这个原数据，存储原数据。
17:01
是这样的，好，那咱们这样一来的话，这个德鲁伊的整个框架呢，咱们就相当于给它串起来了，然后大家呃去去看这个德鲁伊的时候呢，也不用去把这些文字都给它记住，不用记住你大致的去能够现在啊，能够了解咱们这个写数据的时候怎么写的，那我读的时候又怎么读的，能够把这个流程基本上自己能搞清楚就可以了，就是这样的啊，就是写，诶我先往这里写，然后往这里去flash对不对，那我读的时候呢，要诶去这看看有没有，还要去这个诶deep story里看看有没有。大致就是这样一个东西，好了，那这边咱们就完事了啊，文字就不再看了。好，那接下来呢，我们，呃，把这个视频去录一下啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷数仓项目实战V2.0

（194/300）

10分15秒

01_尚硅谷_课程介绍

430

2分27秒

02_尚硅谷_数仓概念_业务数据

470

3分32秒

03_尚硅谷_数仓概念_用户行为数据

430

10分43秒

04_尚硅谷_数仓概念_数仓概述

420

8分31秒

05_尚硅谷_数仓架构_项目需求

410

3分33秒

06_尚硅谷_数仓架构_技术选型考虑因素

410

9分24秒

07_尚硅谷_数仓架构_技术选型

440

9分58秒

08_尚硅谷_数仓架构_数仓架构

350

11分55秒

09_尚硅谷_数仓架构_框架版本选型

370

6分18秒

100_尚硅谷_数仓理论_函数依赖

350

7分46秒

101_尚硅谷_数仓理论_三范式

360

11分46秒

102_尚硅谷_数仓理论_关系建模和维度建模

450

4分43秒

103_尚硅谷_数仓理论_维度表

400

28分2秒

104_尚硅谷_数仓理论_事实表

380

10分46秒

105_尚硅谷_数仓建模_ODS层

290

10分22秒

106_尚硅谷_数仓建模_DWD层_选择业务过程

350

15分8秒

107_尚硅谷_数仓建模_DWD层_声明粒度

380

16分53秒

108_尚硅谷_数仓建模_DWD层_确定维度

350

11分38秒

109_尚硅谷_数仓建模_DWD层_确定事实

340

8分34秒

10_尚硅谷_数仓架构_服务器选型

350

19分5秒

110_尚硅谷_数仓建模_DWS层_DWT层_ADS层

350

6分21秒

111_尚硅谷_数仓建模_总结

370

3分43秒

112_尚硅谷_数仓搭建_ODS层_要做哪些事

350

3分22秒

113_尚硅谷_数仓搭建_ODS层_创建数据库

340

6分43秒

114_尚硅谷_数仓搭建_ODS层_启动日志处理分析

340

10分29秒

115_尚硅谷_数仓搭建_ODS层_启动日志处理实现

410

5分36秒

116_尚硅谷_数仓搭建_ODS层_事件日志处理

370

5分46秒

117_尚硅谷_数仓搭建_ODS层_单引号和双引号区别

440

11分28秒

118_尚硅谷_数仓搭建_ODS层_用户行为数据脚本编写

320

3分9秒

119_尚硅谷_数仓搭建_ODS层_脚本问题解决

270

7分56秒

11_尚硅谷_数仓架构_集群规模

370

10分14秒

120_尚硅谷_数仓搭建_ODS层_业务数据创建表

310

12分18秒

121_尚硅谷_数仓搭建_ODS层_业务数据脚本编写

320

15分3秒

122_尚硅谷_数仓搭建_DWD层_启动日志表

400

6分15秒

123_尚硅谷_数仓搭建_DWD层_启动日志表脚本

380

13分34秒

124_尚硅谷_数仓搭建_DWD层_事件日志表解析分析

410

59秒

125_尚硅谷_数仓搭建_DWD层_事件日志表建表

380

4分33秒

126_尚硅谷_数仓搭建_DWD层_自定义UDF函数分析

300

8分56秒

127_尚硅谷_数仓搭建_DWD层_自定义UDF函数_创建工程

360

15分28秒

128_尚硅谷_数仓搭建_DWD层_自定义UDF函数_代码编写

470

4分29秒

129_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_分析

330

8分26秒

12_尚硅谷_数仓架构_集群具体规划

360

16分28秒

130_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_实现（上）

370

8分31秒

131_尚硅谷_数仓搭建_DWD层_自定义UDTF函数_实现（下）

400

10分57秒

132_尚硅谷_数仓搭建_DWD层_解析事件日志

360

9分37秒

133_尚硅谷_数仓搭建_DWD层_解析脚本

320

15分43秒

134_尚硅谷_数仓搭建_DWD层_事件日志（3月10日完成）

290

4分27秒

135_尚硅谷_数仓搭建_DWD层_事件日志脚本（3月11日完成）

330

14分1秒

136_尚硅谷_数仓搭建_DWD层_业务_商品维度（上）

350

10分39秒

137_尚硅谷_数仓搭建_DWD层_业务_商品维度（下）

320

1分46秒

138_尚硅谷_数仓搭建_DWD层_业务_优惠卷维度

350

8分59秒

139_尚硅谷_数仓搭建_DWD层_业务_活动维度

360

7分8秒

13_尚硅谷_用户行为采集_公共字段格式

260

2分7秒

140_尚硅谷_数仓搭建_DWD层_回顾

390

10分1秒

141_尚硅谷_数仓搭建_DWD层_地区维度

290

7分18秒

142_尚硅谷_数仓搭建_DWD层_时间维度

330

16分26秒

143_尚硅谷_数仓搭建_DWD层_订单明细事实表

370

11分58秒

144_尚硅谷_数仓搭建_DWD层_支付事实表

340

5分19秒

145_尚硅谷_数仓搭建_DWD层_退款事实表

380

3分58秒

146_尚硅谷_数仓搭建_DWD层_评论事实表

430

16分38秒

147_尚硅谷_数仓搭建_DWD层_加购事实表

300

3分35秒

148_尚硅谷_数仓搭建_DWD层_收藏事实表

310

29分16秒

149_尚硅谷_数仓搭建_DWD层_优惠卷事实表分析

330

8分1秒

14_尚硅谷_用户行为采集_事件字段格式

420

14分4秒

150_尚硅谷_数仓搭建_DWD层_优惠卷事实表完成

330

6分34秒

151_尚硅谷_数仓搭建_DWD层_基本函数

350

25分2秒

152_尚硅谷_数仓搭建_DWD层_订单事实表分析

320

19分23秒

153_尚硅谷_数仓搭建_DWD层_订单事实表完成

400

20分43秒

154_尚硅谷_数仓搭建_DWD层_拉链表理论

330

16分41秒

155_尚硅谷_数仓搭建_DWD层_拉链表实操

340

16分20秒

156_尚硅谷_数仓搭建_DWD层_脚本编写

410

9分34秒

157_尚硅谷_数仓搭建_DWS层_业务术语（上）

400

9分7秒

158_尚硅谷_数仓搭建_DWS层_业务术语（下）

320

13分48秒

159_尚硅谷_数仓搭建_DWS层_基本函数

360

10分9秒

15_尚硅谷_用户行为采集_事件日志（上）

380

5分41秒

160_尚硅谷_数仓搭建_DWS层_DWS_DWT_ADS介绍

300

17分43秒

161_尚硅谷_数仓搭建_DWS层_每日设备行为宽表

310

12分38秒

162_尚硅谷_数仓搭建_DWT层_设备主题_分析

310

23分17秒

163_尚硅谷_数仓搭建_DWT层_设备主题_实现

450

29分12秒

164_尚硅谷_数仓搭建_DWS层_会员行为宽表

360

28分2秒

165_尚硅谷_数仓搭建_DWT层_会员主题宽表

390

10分32秒

166_尚硅谷_数仓搭建_DWS层_商品主题宽表

330

14分33秒

167_尚硅谷_数仓搭建_DWT层_商品主题

370

10分4秒

168_尚硅谷_数仓搭建_DWS层_优惠卷及活动宽表

470

3分55秒

169_尚硅谷_数仓搭建_DWS层_每日购买行为宽表

320

10分19秒

16_尚硅谷_用户行为采集_事件日志（下）

360

29分22秒

170_尚硅谷_数仓搭建_数仓架构回顾

400

16分57秒

171_尚硅谷_数仓搭建_ADS_活跃设备数

340

1分58秒

172_尚硅谷_数仓搭建_ADS_新增设备数

330

3分4秒

173_尚硅谷_数仓搭建_ADS_沉默用户

360

18分6秒

174_尚硅谷_数仓搭建_ADS_活跃设备讲解

340

10分1秒

175_尚硅谷_数仓搭建_ADS_新增设备讲解

340

5分59秒

176_尚硅谷_数仓搭建_ADS_沉默设备讲解

270

3分44秒

177_尚硅谷_数仓搭建_ADS_本周回流设备需求分析

370

2分6秒

178_尚硅谷_数仓搭建_ADS_流失设备需求分析

430

5分42秒

179_尚硅谷_数仓搭建_ADS_留存率需求分析

260

2分42秒

17_尚硅谷_用户行为采集_启动日志

320

4分0秒

180_尚硅谷_数仓搭建_ADS_连续需求分析

430

6分50秒

181_尚硅谷_数仓搭建_ADS_dwt_sku_topic_纠错

340

100

21分59秒

182_尚硅谷_数仓搭建_ADS_本周回流用户

360

101

3分21秒

183_尚硅谷_数仓搭建_ADS_流失用户

380

102

8分40秒

184_尚硅谷_数仓搭建_ADS_留存率_思路分析

340

103

15分23秒

185_尚硅谷_数仓搭建_ADS_留存率_编码

390

104

11分52秒

186_尚硅谷_数仓搭建_ADS_连续三周活跃

280

105

2分51秒

187_尚硅谷_数仓搭建_ADS_本周回流_补充

350

106

21分9秒

188_尚硅谷_数仓搭建_ADS_最近7天连续3天_思路一

370

107

6分54秒

189_尚硅谷_数仓搭建_ADS_最近7天连续3天_思路二

340

108

14分42秒

18_尚硅谷_用户行为采集_日志生成_分析

370

109

3分33秒

190_尚硅谷_数仓搭建_ADS_会员主题信息_需求分析

350

110

3分27秒

191_尚硅谷_数仓搭建_ADS_漏斗分析_需求分析

330

111

3分9秒

192_尚硅谷_数仓搭建_ADS_商品销量TopN_需求分析

350

112

1分9秒

193_尚硅谷_数仓搭建_ADS_商品收藏TopN_需求分析

340

113

11分40秒

194_尚硅谷_数仓搭建_ADS_会员信息统计

400

114

18分56秒

195_尚硅谷_数仓搭建_ADS_漏斗分析

340

115

6分54秒

196_尚硅谷_数仓搭建_ADS_商品个数统计

410

116

7分4秒

197_尚硅谷_数仓搭建_ADS_销量_收藏_TopN

410

117

1分12秒

198_尚硅谷_数仓搭建_ADS_商品加购_需求分析

360

118

2分25秒

199_尚硅谷_数仓搭建_ADS_商品退款率_需求分析

370

119

14分4秒

19_尚硅谷_用户行为采集_日志生成_代码说明

310

120

1分43秒

200_尚硅谷_数仓搭建_ADS_商品差评率_需求分析

450

121

4分45秒

201_尚硅谷_数仓搭建_ADS_下单数目统计_需求分析

370

122

6分43秒

202_尚硅谷_数仓搭建_ADS_支付信息统计_需求分析

330

123

8分23秒

203_尚硅谷_数仓搭建_ADS_复购率_需求分析

370

124

5分24秒

204_尚硅谷_数仓搭建_ADS_画图软件

450

125

1分54秒

205_尚硅谷_数仓搭建_ADS_商品加购排行

380

126

8分8秒

206_尚硅谷_数仓搭建_ADS_商品退款率排行

390

127

3分5秒

207_尚硅谷_数仓搭建_ADS_商品差评率排行

340

128

6分2秒

208_尚硅谷_数仓搭建_ADS_下单信息统计

370

129

15分4秒

209_尚硅谷_数仓搭建_ADS_支付信息统计

370

130

7分10秒

20_尚硅谷_用户行为采集_日志生成_LogBack配置

410

131

18分48秒

210_尚硅谷_数仓搭建_ADS_复购率

390

132

9分38秒

211_尚硅谷_任务调度_Azkaban_工作流程分析

470

133

10分34秒

212_尚硅谷_任务调度_Azkaban_部署_准备

280

134

15分33秒

213_尚硅谷_任务调度_Azkaban_部署_配置

310

135

5分52秒

214_尚硅谷_任务调度_Azkaban_MySQL建库建表

420

136

14分41秒

215_尚硅谷_任务调度_Azkaban_Sqoop导出脚本

370

137

14分26秒

216_尚硅谷_任务调度_Azkaban_数据准备

350

138

10分20秒

217_尚硅谷_任务调度_Azkaban_Job文件

410

139

4分4秒

218_尚硅谷_任务调度_Azkaban_Shell脚本准备

420

140

5分54秒

219_尚硅谷_任务调度_Azkaban_定时调度

410

141

5分34秒

21_尚硅谷_用户行为采集_虚拟机克隆

410

142

4分13秒

220_尚硅谷_任务调度_Azkaban_调度结果

380

143

12分19秒

221_尚硅谷_任务调度_Azkaban_拉链表复习

380

144

7分12秒

222_尚硅谷_任务调度_Azkaban_商品主题宽表纠错

370

145

4分30秒

223_尚硅谷_任务调度_Azkaban_任务重跑问题

440

146

7分6秒

224_尚硅谷_数据可视化_Superset

400

147

6分28秒

225_尚硅谷_数据可视化_Superset_miniconda介绍

250

148

7分26秒

226_尚硅谷_数据可视化_Superset_miniconda安装

350

149

4分35秒

227_尚硅谷_数据可视化_Superset_Python环境创建

320

150

6分13秒

228_尚硅谷_数据可视化_Superset_安装

320

151

4分27秒

229_尚硅谷_数据可视化_Superset_配置

390

152

9分45秒

22_尚硅谷_用户行为采集_虚拟机配置

350

153

6分59秒

230_尚硅谷_数据可视化_Superset_启停

400

154

5分39秒

231_尚硅谷_数据可视化_Superset_对接MySQL安装依赖

330

155

5分50秒

232_尚硅谷_数据可视化_Superset_对接MySQL数据源配置

430

156

10分26秒

233_尚硅谷_数据可视化_Superset_对接MySQL配置仪表盘_图形

300

157

2分40秒

234_尚硅谷_数据可视化_Superset_对接MySQL配置仪表盘

370

158

3分50秒

235_尚硅谷_数据可视化_Superset_补充

300

159

6分54秒

236_尚硅谷_即席查询_概述

360

160

6分8秒

237_尚硅谷_即席查询_Kylin_概述

350

161

29分50秒

238_尚硅谷_即席查询_Kylin_前置知识

310

162

17分40秒

239_尚硅谷_即席查询_Kylin_架构_特点

360

163

5分59秒

23_尚硅谷_用户行为采集_JDK安装

260

164

11分19秒

240_尚硅谷_即席查询_Kylin_部署_HBase

420

165

5分26秒

241_尚硅谷_即席查询_Kylin_部署_解压

340

166

3分21秒

242_尚硅谷_即席查询_Kylin_部署_环境变量

320

167

4分41秒

243_尚硅谷_即席查询_Kylin_部署_启动准备

380

168

2分59秒

244_尚硅谷_即席查询_Kylin_部署_启动

290

169

5分56秒

245_尚硅谷_即席查询_Kylin_部署_启动错误_解决方案

350

170

17分7秒

246_尚硅谷_即席查询_Kylin_使用_定义model

380

171

14分49秒

247_尚硅谷_即席查询_Kylin_使用_定义cube

340

172

16分55秒

248_尚硅谷_即席查询_Kylin_使用_重复key问题解决

370

173

7分26秒

249_尚硅谷_即席查询_Kylin_Hadoop历史服务器问题原因

370

174

6分14秒

24_尚硅谷_用户行为采集_Hadoop安装及配置前准备

350

175

7分26秒

250_尚硅谷_即席查询_Kylin_查询

410

176

15分41秒

251_尚硅谷_即席查询_Kylin_定时调度脚本

380

177

10分37秒

252_尚硅谷_即席查询_Kylin_cube存储原理

310

178

13分33秒

253_尚硅谷_即席查询_Kylin_cube构建原理

310

179

13分53秒

254_尚硅谷_即席查询_Kylin_cube_优化_聚合组

420

180

11分52秒

255_尚硅谷_即席查询_Kylin_cube_优化_衍生维度

330

181

13分14秒

256_尚硅谷_即席查询_Kylin_cube_优化_Rowkey设计

450

182

5分32秒

257_尚硅谷_即席查询_Kylin_cube_优化_并发粒度优化

280

183

13分41秒

258_尚硅谷_即席查询_Kylin_cube_BI对接_JDBC

320

184

10分50秒

259_尚硅谷_即席查询_Kylin_cube_BI对接_Zeppelin

380

185

12分51秒

25_尚硅谷_用户行为采集_Hadoop集群配置

330

186

21分29秒

260_尚硅谷_即席查询_Presto_概念

440

187

16分38秒

261_尚硅谷_即席查询_Presto_部署_Server

340

188

2分15秒

262_尚硅谷_即席查询_Presto_启动_Server

370

189

14分26秒

263_尚硅谷_即席查询_Presto_部署_命令行客户端

370

190

7分39秒

264_尚硅谷_即席查询_Presto_部署_可视化客户端

380

191

17分52秒

265_尚硅谷_即席查询_Presto_使用注意事项

370

192

13分6秒

266_尚硅谷_即席查询_Druid_概述

370

193

14分24秒

267_尚硅谷_即席查询_Druid_对比

410

194

17分40秒

268_尚硅谷_即席查询_Druid_架构

340

195

5分8秒

269_尚硅谷_即席查询_Druid_数据结构

370

196

2分42秒

26_尚硅谷_用户行为采集_项目经验_HDFS多目录

410

197

9分17秒

270_尚硅谷_即席查询_Druid_部署

290

198

12分35秒

271_尚硅谷_即席查询_Druid_使用

370

199

5分23秒

272_尚硅谷_集群监控_Zabbix_概述

380

200

8分42秒

273_尚硅谷_集群监控_Zabbix_架构

350

201

2分15秒

274_尚硅谷_集群监控_Zabbix_部署_说明

340

202

4分18秒

275_尚硅谷_集群监控_Zabbix_部署_Server节点_准备

380

203

10分17秒

276_尚硅谷_集群监控_Zabbix_部署_Server节点_创建用户_建库建表

350

204

10分44秒

277_尚硅谷_集群监控_Zabbix_部署_Server节点_编译环境准备

360

205

3分52秒

278_尚硅谷_集群监控_Zabbix_部署_Server节点_编译及安装

340

206

3分50秒

279_尚硅谷_集群监控_Zabbix_部署_Server节点_配置

380

207

2分59秒

27_尚硅谷_用户行为采集_项目经验_节点间数据均衡

320

208

26分23秒

280_尚硅谷_集群监控_Zabbix_部署_Server节点_系统服务脚本编写

370

209

11分6秒

281_尚硅谷_集群监控_Zabbix_部署_Server节点_web部署

470

210

4分54秒

282_尚硅谷_集群监控_Zabbix_部署_Server节点_启动

390

211

7分17秒

283_尚硅谷_集群监控_Zabbix_部署_Server节点_web

390

212

8分14秒

284_尚硅谷_集群监控_Zabbix_部署_Agent_节点部署

350

213

7分54秒

285_尚硅谷_集群监控_Zabbix_使用_术语

310

214

8分16秒

286_尚硅谷_集群监控_Zabbix_使用_创建主机

340

215

14分38秒

287_尚硅谷_集群监控_Zabbix_使用_创建监控项

440

216

6分32秒

288_尚硅谷_集群监控_Zabbix_使用_创建触发器

340

217

8分56秒

289_尚硅谷_集群监控_Zabbix_使用_创建动作

310

218

9分12秒

28_尚硅谷_用户行为采集_项目经验_配置LZO压缩

400

219

15分13秒

290_尚硅谷_集群监控_Zabbix_使用_通知媒介配置

400

220

3分30秒

291_尚硅谷_集群监控_Zabbix_使用_全流程测试

290

221

14分10秒

292_尚硅谷_集群监控_Zabbix_使用_创建模板

360

222

3分52秒

293_尚硅谷_元数据管理_Atlas_课程背景

420

223

8分15秒

294_尚硅谷_元数据管理_Atlas_课程介绍

300

224

6分40秒

295_尚硅谷_元数据管理_Atlas_架构原理

380

225

13分15秒

296_尚硅谷_元数据管理_Atlas_辅助框架安装

390

226

19分33秒

297_尚硅谷_元数据管理_Atlas_登录后配置

310

227

25分9秒

298_尚硅谷_元数据管理_Atlas_配置并启动

400

228

3分3秒

299_尚硅谷_元数据管理_Atlas_执行效果

330

229

9分20秒

29_尚硅谷_用户行为采集_项目经验_LZO创建索引

320

230

1分15秒

300_尚硅谷_中午演唱会_班主任

310

231

8分19秒

30_尚硅谷_用户行为采集_项目经验_基准测试

400

232

2分46秒

31_尚硅谷_用户行为采集_项目经验_HDFS参数调优

290

233

10分34秒

32_尚硅谷_用户行为采集_项目经验_Yarn参数调优

360

234

9分41秒

33_尚硅谷_用户行为采集_Zookeeper安装

340

235

9分27秒

34_尚硅谷_用户行为采集_Zookeeper启动停止脚本

380

236

5分10秒

35_尚硅谷_用户行为采集_项目经验_登录式Shell和非登录式Shell

290

237

8分44秒

36_尚硅谷_用户行为采集_日志生成（上）

350

238

6分42秒

37_尚硅谷_用户行为采集_日志生成（下）

400

239

5分31秒

38_尚硅谷_用户行为采集_集群日志生成启动脚本

350

240

6分33秒

39_尚硅谷_用户行为采集_集群时间同步修改脚本

330

241

3分30秒

40_尚硅谷_用户行为采集_集群所有进程查看脚本

350

242

3分54秒

41_尚硅谷_用户行为采集_Flume安装

280

243

9分17秒

42_尚硅谷_用户行为采集_项目经验_Flume组成

370

244

12分11秒

43_尚硅谷_用户行为采集_Flume采集配置（上）

360

245

11分49秒

44_尚硅谷_用户行为采集_Flume采集配置（下）

400

246

2分23秒

45_尚硅谷_用户行为采集_Flume拦截器_回顾

370

247

8分21秒

46_尚硅谷_用户行为采集_Flume拦截器_单Event

400

248

3分20秒

47_尚硅谷_用户行为采集_Flume拦截器_启动日志校验

430

249

7分32秒

48_尚硅谷_用户行为采集_Flume拦截器_事件日志校验

310

250

4分22秒

49_尚硅谷_用户行为采集_Flume拦截器_多Event

300

251

8分50秒

50_尚硅谷_用户行为采集_Flume拦截器_分类型拦截器

320

252

5分55秒

51_尚硅谷_用户行为采集_Flume手动启动

420

253

7分25秒

52_尚硅谷_用户行为采集_Flume脚本启动

380

254

7分33秒

53_尚硅谷_用户行为采集_Flume脚本停止

410

255

7分1秒

54_尚硅谷_用户行为采集_Kafka安装

250

256

5分34秒

55_尚硅谷_用户行为采集_Kafka启动停止脚本

330

257

4分52秒

56_尚硅谷_用户行为采集_Flume_Kafka通道打通

350

258

6分54秒

57_尚硅谷_用户行为采集_项目经验_Kafka压力测试

420

259

3分0秒

58_尚硅谷_用户行为采集_项目经验_Kafka机器数量计算

330

260

6分35秒

59_尚硅谷_用户行为采集_消费Flume_组件选型

280

261

13分32秒

60_尚硅谷_用户行为采集_消费Flume_配置文件说明

330

262

5分24秒

61_尚硅谷_用户行为采集_消费Flume_启动脚本小文件演示

370

263

6分21秒

62_尚硅谷_用户行为采集_消费Flume_小文件解决

340

264

3分38秒

63_尚硅谷_用户行为采集_项目经验_内存优化

390

265

9分12秒

64_尚硅谷_用户行为采集_采集通道脚本

370

266

7分29秒

65_尚硅谷_用户行为采集_生成测试数据

440

267

3分8秒

66_尚硅谷_业务数据采集_简介

320

268

7分26秒

67_尚硅谷_业务数据采集_电商理论_电商业务流程

420

269

3分30秒

68_尚硅谷_业务数据采集_电商理论_Spu_Sku

340

270

6分48秒

69_尚硅谷_业务数据采集_电商理论_电商表结构

360

271

8分31秒

70_尚硅谷_业务数据采集_电商理论_电商表详解

430

272

12分47秒

71_尚硅谷_业务数据采集_MySQL安装

380

273

5分37秒

72_尚硅谷_业务数据采集_Sqoop官网说明

340

274

8分59秒

73_尚硅谷_业务数据采集_Sqoop安装

370

275

5分29秒

74_尚硅谷_业务数据采集_MySQL中初始化表

370

276

6分39秒

75_尚硅谷_业务数据采集_业务数据生成_配置文件说明

330

277

3分32秒

76_尚硅谷_业务数据采集_生成2天业务数据

390

278

14分21秒

77_尚硅谷_业务数据采集_同步策略（上）

390

279

17分25秒

78_尚硅谷_业务数据采集_同步策略（下）

330

280

4分24秒

79_尚硅谷_业务数据采集_分析表同步策略

390

281

11分35秒

80_尚硅谷_业务数据采集_脚本中前一天时间获取

380

282

16分46秒

81_尚硅谷_业务数据采集_Sqoop参数说明

330

283

6分21秒

82_尚硅谷_业务数据采集_Sqoop参数说明_回顾

340

284

9分18秒

83_尚硅谷_业务数据采集_Sqoop脚本_具体表同步策略

380

285

10分23秒

84_尚硅谷_业务数据采集_Sqoop脚本完成

340

286

2分31秒

85_尚硅谷_业务数据采集_Sqoop脚本执行

330

287

29分2秒

86_尚硅谷_业务数据采集_20200310数据导入过程

400

288

24分11秒

87_尚硅谷_业务数据采集_20200311数据导入过程

360

289

2分1秒

88_尚硅谷_业务数据采集_数据导入成功后查看

330

290

7分48秒

89_尚硅谷_业务数据采集_Hive安装

370

291

3分11秒

90_尚硅谷_业务数据采集_Tez框架原理

320

292

3分58秒

91_尚硅谷_业务数据采集_Tez解压安装

310

293

8分0秒

92_尚硅谷_业务数据采集_Tez集成Hive

390

294

6分41秒

93_尚硅谷_业务数据采集_Tez注意事项

390

295

8分57秒

94_尚硅谷_数仓理论_课程介绍

340

296

13分57秒

95_尚硅谷_数仓理论_数仓分层及好处（上）

330

297

7分54秒

96_尚硅谷_数仓理论_数仓分层及好处（下）

360

298

3分43秒

97_尚硅谷_数仓理论_数据集市与数据仓库概念

340

299

4分14秒

98_尚硅谷_数仓理论_命名规范

450

300

8分39秒

99_尚硅谷_数仓理论_范式概念

350

268_尚硅谷_即席查询_Druid_架构

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐