文章/答案/技术大牛

发布

首页视频21-数据模型-Aggregate模型介绍

21-数据模型-Aggregate模型介绍

2022-12-022022-12-02 16:02:29播放39

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Apache Doris/视频/21-数据模型-Aggregate模型介绍.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
接下来我们看一下数据模型啊，前面一直聊了很多数据模型，对吧？啊，现在好好了解一下Doris的数据模型主要分为三类啊，分别是聚合模型啊，这个前面提了很多次，还有唯一模型，也就是去虫模型，还有这个doate是重复的意思，对吧？但这里我们理解为明细模型，就是说数据允许重复也不聚合，就是明细原来什么样成什么样，那我们先来看一下这个聚合模型，这个应该是用的非常多啊。聚合模型那表中的列按照是否设置了聚合类型分为T列和value列，这个我们在前面已经谈到了，对吧？再回忆一下吧。比如说就这个例子。啊，全结了吧。来往下走，你看我们当前这个例子啊，那前面这些就是所谓的替列对吧，那后面这几个就是所谓的value列，为什么呢？哎，我们说除了字段名跟类型之外，它又单独定义了什么replace。
01:16
还有some max me，那这种呢，就是指定的聚合类型，那所以下面这种就是value列，上面这个就是key列，并且聚合模型一定在后面有一个什么aggreg key指定key列啊。就把前面这几个列都给它写进来就OK了。这个就是聚合模型的直观体现啊。那么具X来了解一下。四种续和方式来，其实我们案例里面都有体现啊，一个是上求和。一个是replace，是替代。
02:00
我们挨个来看吧。Some呢，就是呃，会进行累加。进行累加。那。相当于说我做了一个group by some能理解吧，它的作用就相当于根据我前面指定那些key列，Group by这些维度列。然后呢，做了一个上。就是我指定为some类型的这一列，比如说这个就是cost。相当于说你写了一个这种circle，但是在do里面就不用啊，你直接指定一个聚合类型，然后这边指定为some这种value列就可以了，它就自动会完成group和some的这种操作啊。那replace是什么意思呢？Replace是不是代替替代的意思啊，其实就是什么，下一批数据中的value会替换之前的value，说明这个replace是什么，只保留最新的一条。
03:01
对吧。相当于说我们做了一个group。呃，然后取第一条。下来开窗取第一条有点像吧，Group，然后取每个分组的第一条啊，那这就是啊不最后一条啊，最最最最新一条啊，最新一条。然后肯定要跟上一个order对吧。这个就是一个应用场景，这个应用也也比较多吧，啊，但它还有一个叫replace if not now，遇到not值时，它不会去替代更新掉，也就是说我新来这条数据是个now啊，那我不会把它替代掉，那麦克同理可得，相当于说我按照key列做了一个group，然后呢，根据group的。这个每个分组我取一个最大值对吧，那取最大值的列就看你上面是哪个value列了啊。那同样最小值一样的道理是吧，那这种场景我们在分析中非常常用啊。
04:06
那他这些相当于说是不是相当于帮我们做了什么预聚合呀。正是因为有预聚合，而不是等到说你需要的时候才去聚合，所以它才能达到一个什么对实时场景的支撑，对不对？你想想吧，呃，来一什么叫就相当于有点像来一条处理一条对吧，也可以是来一批处理一批。那这样是不是就能。那现在我需要查这个结果，我是不是直接查就能达到。拿到一些预聚合的结果。对吧，不用像做离线的时候说我做T加一，我等一整天的明细数据到了，我才开始做group，才开始做sum，才开始group by取最大取最新，才开始group by取最大最小，那样的话，你这个计算的时间延迟肯定比较大，对吧？啊，因为你要处理全量的数据。
05:02
那这种聚合模型就非常适合我们这种分析场景啊，指标计算的时候这个特别常用啊，也认为这个特性才能很好的满足实时性的要求来，那数据的预聚合发生在几个阶段，第一个每一批次数据导入都会进行聚合，比如说我这一批次导入ABC。啊，三条数据啊，三条数据是一次导入，也就同一批数据，好，那根据我定义的这个聚合类型，它会对这批数据就按照聚合类型去处理啊，比如说我要的replace，那肯定是保留最新的字段值啊。还有一种就是be底层进行合并的时候。它会对已导入的不同批次的数据进一步的聚合。比如说我第一批次导了ABC3条，后面我又导入了第二批次A。
06:01
De，这个批次。这是不是两批数据啊，那这两批数据之间是不是也得啊，按照我们定义的聚合方式进行聚合啊，这个也会还有第三种数据查询阶段，为什么有第三种呢？大家想一想。如果。我们还没有compassion的时候。他肯定不是无时无刻compassion，那这个时候我要查了。但是他还没帮我提前预计和好，那这个时候岂不是会出现啊，结果不正确的问题嘛，对吧？啊，所以他设计了一个什么，最终的保证数据查询阶段，如果我执行查询。对涉及到的数据也会强行进行聚合，可能这个时候还没到合并阶段，但是我要查了，那你查的时候，它就会相当于说强行触发聚合，强行触发它的聚合逻辑啊，就是由于第三个这个保证才能，呃，保证对用户而言只查到聚合后的数据。
07:08
你不可能查到未聚合的数据，对吧？啊，这样你才能保证结果的一致性啊。所以啊，用户始终认为数据是以最终的完成聚合程度存在啊，也就是说你不用去等合并这个问题。如果了解过house应该就。比较熟悉的对吧，我们经常碰到一个场景，就是肯定house怎么保证。呃，数据是呃一致，呃，它是一致的。也就是说没有重复的，我们知道click house这个框架呀，这个数据库啊。它是也有分片的概念，它是不是等到也是进行底层合并的时候，才会真正的去重。比如说你用了一个去虫表引剂啊，如果了解应该就知道啊，简单提一嘴，他是不是只能保证最终一致性对吧？但是如果你查的时候，他并没有达到它的分片合并的时候，那可能这个时候即使你用了去虫的表引擎，你查到的数据仍然可能存在重复。
08:12
啊，那如果对于DOS来讲呢，你只要查询它就会强行进行聚合，对吧，保证你查到的结果一定是聚合后的结果。你就不用担心这个事了，对吧，那其实click house也有对应的功能对吧，比如说那个final啊，行啊，House可能有的不了解，那你就呃，就听听就得了，好吧，那了解的应该就有体会。好了，这个是聚合模型。啊给大家多讲几句，因为这个比较重要啊，也不是比较重要，因为比较常用。而且大家担心的这个数据一致的问题，结果准确性来讲啊，不用担心啊，因为他查询，只要你查询一定会触发聚合。
09:00
给你的结果一定是。对的，准的。好了。这是对于呃，聚合模型我们一个理解啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Apache Doris

（21/92）

3分21秒

01-课程介绍

500

9分8秒

02-Doris简介-概述

470

11分17秒

03-Doris简介-架构

660

10分33秒

04-Doris编译-安装Docker

570

16分42秒

05-Doris编译-使用Docker镜像编译

480

10分32秒

06-安装要求-软硬件需求

480

5分14秒

07-安装要求-默认端口号

430

9分7秒

08-集群部署-拷贝编译后文件&修改系统限制

390

12分20秒

09-集群部署-部署并启动FE

350

11分23秒

10-集群部署-部署BE

470

12分21秒

11-集群部署-向FE添加BE并启动

510

9分40秒

12-集群部署-部署FS_Broker

400

13分46秒

13-扩容缩容-FE扩缩容

410

4分55秒

14-扩容缩容-BE和Broker的扩缩容

360

9分24秒

15-数据表创建-基本概念

490

11分42秒

16-建表示例-基本语法&字段类型

370

7分53秒

17-建表示例-建表示例介绍

410

14分22秒

18-数据划分-列定义&分区

500

19分28秒

19-数据划分-分桶&多列分区

400

8分36秒

20-数据划分-表属性&引擎

380

9分12秒

21-数据模型-Aggregate模型介绍

390

8分12秒

22-数据模型-Aggregate模型-导入数据聚合演示

410

3分45秒

23-数据模型-Aggregate模型-保留明细数据演示

420

8分8秒

24-数据模型-Aggregate模型-导入数据与已有数据聚合演示

420

4分30秒

25-数据模型-Uniq模型

400

2分26秒

26-数据模型-Duplicate模型

450

7分5秒

27-数据模型-选择建议&聚合模型局限性

410

8分0秒

28-动态分区-原理&使用方式

420

12分52秒

29-动态分区-动态分区规则参数&创建历史分区

380

10分50秒

30-动态分区-动态分区演示

440

16分56秒

31-Rollup-Aggregate模型和Uniq模型的Rollup使用

390

8分35秒

32-Rollup-Duplicate模型的Rollup使用

340

3分28秒

33-Rollup-几点说明

370

7分45秒

34-物化视图-简单介绍&与Rollup区别

550

17分15秒

35-物化视图-原理介绍

510

6分41秒

36-物化视图-案例一演示

430

3分14秒

37-物化视图-案例二演示

290

3分57秒

38-物化视图-案例三演示

390

10分6秒

39-修改表-rename和partition的操作

310

5分32秒

40-删除数据-两种方式

430

7分13秒

41-数据导入-概述

320

18分14秒

42-数据导入-BrokerLoad-原理&语法

420

16分16秒

43-数据导入-BrokerLoad-示例演示

460

10分52秒

44-数据导入-StreamLoad方式

440

9分49秒

45-数据导入-Routine Load语法及参数说明

440

13分8秒

46-数据导入-Routine Load使用演示

510

12分29秒

47-数据导入-BinlogLoad-原理&配置MySQL端

370

8分59秒

48-数据导入-BinlogLoad-配置Canal端

370

3分42秒

49-数据导入-BinlogLoad-准备Doris表&基本语法

410

11分19秒

50-数据导入-BinlogLoad-示例演示

350

3分23秒

51-数据导入-Insert into及S3导入方式的说明

390

6分2秒

52-数据导出-Export方式-原理

470

10分2秒

53-数据导出-Export方式-示例演示

380

5分31秒

54-数据导出-查询结果导出-语法&并发导出

420

13分26秒

55-数据导出-查询结果导出-示例演示

420

7分59秒

56-查询设置-查询内存&查询超时时间

450

28分17秒

57-查询设置-查询重试和高可用&ProxySQL使用演示

370

7分57秒

58-查询-简单查询

460

11分49秒

59-Join查询-Broadcast Join&Shuffle Join

370

15分27秒

60-Join查询-Colocation Join

360

12分8秒

61-Join查询-Bucket Shuffle Join

370

12分47秒

62-Join查询-Runtime Filter原理&使用

350

14分50秒

63-Join查询-Runtime Filter参数说明

420

7分15秒

64-查询-SQL函数说明

460

12分20秒

65-集成Spark-使用Spark-Doris-Connector

880

4分34秒

66-集成Spark-官方Connector的配置项及字段映射

370

3分30秒

67-集成Spark-使用JDBC的方式（不推荐）

350

16分47秒

68-集成Flink-演示

340

12分12秒

69-集成DataX-编译DorisWriter&集成到DataX

350

9分39秒

70-集成DataX-案例演示

450

6分24秒

71-ODBC外部表-使用方式介绍

370

25分21秒

72-ODBC外部表-MySQL外表

440

16分31秒

73-ODBC外部表-Oracle外表

500

9分1秒

74-Doris On ES-原理和使用演示

370

7分9秒

75-Doris On ES-几个建表参数&使用注意

450

19分34秒

76-监控和报警-使用Prometheus和Grafana

430

10分36秒

77-优化-查看QueryProfile统计信息

360

9分31秒

78-优化-Join Reorder

450

10分54秒

79-优化-导入导出任务参数调整

460

6分19秒

80-优化-Bitmap索引&BloomFilter索引

420

4分55秒

81-优化-合理设置分桶分区数

340

8分7秒

82-数据备份及恢复-说明

370

9分18秒

83-数据备份及恢复-备份演示

570

8分35秒

84-数据备份及恢复-恢复演示

380

12分49秒

85-1.0新特性-1.0版本的部署

410

11分7秒

86-1.0新特性-向量化执行引擎

390

4分20秒

87-1.0新特性-Hive外表介绍

420

7分36秒

88-1.0新特性-Hive外表使用示例

400

9分22秒

89-1.0新特性-Table Function函数

400

4分49秒

90-1.0新特性-mySQLDump功能

340

4分35秒

91-1.0新特性-版本通告介绍(1)

330

4分35秒

91-1.0新特性-版本通告介绍

370

21-数据模型-Aggregate模型介绍

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐