文章/答案/技术大牛

发布

首页视频86-1.0新特性-向量化执行引擎

86-1.0新特性-向量化执行引擎

2022-12-022022-12-02 16:02:30播放39

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Apache Doris/视频/86-1.0新特性-向量化执行引擎.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那在1.0里面最重要的一个更新呢，就是向量化执行引擎。那这个词大家并不陌生，因为在很多oip的数据库里面都会有这么一种优化措施，像click house啊，还有其他的一些，对吧？甚至我们常用的have里面也有一个向量化的功能，那向量化是什么意思啊？如果我们直白来讲就是。自动把门做了。一个性能上的优化啊。那传统的一个SQ执行引擎是基于行式的。那么简单来讲，就是我一条指令，因为这个涉及到底层一点的原理了，咱们简单点讲啊，一条指令呢，它只会去处理一行数据。这种就是传统的行式的一个执行引擎，那么向量化执行引擎呢，它基于现代的CPU，现在不一样了，对吧，现代CPU啊，它呃，比如说那个叫什么SIM啊。
01:04
那比如说他一个指令。这一次啊，他就可以处理什么一批数据，那这样效率是不是得到了提升啊，对吧，是不是减少了这个指定的执行次数。这是涉及到什么CPU底层的一个寄存器啊，等等一些东西啊，我们简单说，呃，简单理解一下，那现在一条指令可以处理多条数据，就一批数据，那这样整体来讲效率啊就得到了一个提升。对吧。你看但是呢，这种一般是出现在劣势存储的数据库才有，对吧，现代化执行肯定是只有在劣势存储的时候才有用啊。那么呃，具体细节我们看，如果你感兴趣，这边我粘了两个文章啊。你可以简单了解一下。你看克里卡耗子也有吧，什么矢量化查询，还有power DB。
02:06
等等一些东西，那这边有一些介绍。啊，现在我们就不展开了。呃，还有一个知乎。也有别人分享啊。啊，向量化执行简单理解就是为了消除程序循环的优化，你现在一个指令执行一行，那你有，呃，很多行数据都要的话，它是不是要很多个指令要去循环去执行，对吧？那现在一个指令多行，那就简单了，那还有一个我刚才提到SIM。这个是在CPU的寄存器层面实现了一个什么并行操作啊。那包括我们熟知的click house也是基于4.2这么一个指令集实现的。那这一块不需要我们去关心。我们也没法去改什么东西啊，那唯一我们能做的是开启向量化执行的功能，那首首先呢，我们从使用上，第一个有一个绘画集的变量。
03:08
叫。向量化引擎默认呢是false，我们把它制成处将它打开，第二一个我们不是说了吗？它一次是不是可以处理一批数据啊，那么这一批数据是多少呢？就是通过这个参数来指定啊，那官方建议是我们配置为4096。那默认值呢，是1024啊，我们来看一下这个变量吧，受。现在是在1.0里面对吧，Variables。呃，我们找一找enable里面有没有一个，诶这里。这是不是向量化引擎默认是false，那还有一个be size默认呢，是1024，那现在我们就是要改这两个东西啊，直接set就可以了。
04:00
开，这样呢，我们就开启了一个向量化。下量化之后呢，我们怎么去查看验证它生效的呢？哎，我们准备一张表。这张表其实是在我们前面创建过了，就U乐表，那现在我们是一个新的环境，在1.0的Doris里边，那我们再创建一遍啊。建表我现在是在test DB下面啊。呃，我看看啊。需要三个啊，那就是副本数啊，因为我们现在是单机的，对吧，那我把副本数啊也设成一个，那你看我改造啊。我顺便也放到我们这个地方吧。方便大家去使用。把副本数指定为一，那就OK了嘛。
05:00
好了，现在就创建成功了，Show tables。Select from you了，现在是空的对吧？那我们插入几条数据。好在的心不容易了。现在有这么几条数据啊。接下来我们通过查询计划就能判断这个执行，呃，向量化引擎有没有生效啊，Explain，比如说在新from u了，那么在这里找一找呗。大家呃，注意观察啊，那哪些地方有区别，第一个这个op扫描节点前，前面加了一个什么V，好再往上走。这个意思，Change多了一个什么V？Result think多了一个什么V？那么如果你成功开启了向量化引擎呢？那么在执行计划里面很多个地方你都能看到前缀V。
06:06
那说明呢，那就OK了。那如果你觉得不需要，那可以随时可以关掉那向量化引擎呢，我们大家呃，有一些注意事项要跟大家聊一聊，第一个呢是闹纸。呃，在我们向量化执行引擎里面，那值会导致什么呢？性能劣化，也就是说不一定性能会更好。那所以我们用的时候建议是什么？建表的时候对应的列设置为什么not now。这是建议啊，不是说必须你不设也行，但可能性能没那么达到预期，你像我前面建表，其实我都指定什么notno，那有的人就问了，那如果我业务上我就是得有一个闹值，那怎么办呢？那你可以用一些默认值或其他业务上没有意义的呃值来替代，比如说数字，比如说数字你。
07:01
没意义，比如说你可以给个零麦。那比如说字符串啊，字符串类型的，你可以给个空串的。啊，就是用这种替代方案来实现，这是第一个not子啊注意的第二一个跟传统的航程的执行引擎的一个差异在哪里。呃，主要分两类啊，第一类呢，是。回头，呃，航存引擎这些要被丢弃，或者。不推荐使用的一些功能，第一个呢是我们的浮点型flow跟double，它有一个精度误差，对吧，它会影响小数点后五，呃，小数点后面五位之后的数字，那如果对精度有特别有要求，我们还是用dison。另外呢，就时间日期类型data time，我们说是支持到秒级对吧，那么如果你是要到秒级以后啊，如果在向量化引擎后面会直接丢弃。会直接丢弃啊，只能到秒级。
08:02
那么还有一个呢，就。有符号类型啊，这写错了，应该是符号，有符号类型，比如说零跟负零，那么在向量化里面认为是相等的，是同一回事，那你要注意这种带符号的业务上是不是要做区分。对吧，这样会影响像我们discount distinct的，还有group这些计算结果啊。还有呢，就是bit，还有log log。在里面呢？输入均为now，则输出结果为闹而不是零。对吧，也就是说我输入的时候是个，那我输出的时候会变成什么零。啊不不输出的结果也会变成闹啊不不是零啊，就这几个细节啊，提醒一下第二一类呢。呃，是目前。还不支持，但是未来可能会进一步的去优化和实现的啊，就是目前1.0版本这些事儿还做不到。也不是还做不到，还还还没做到，第一个呢，是不支持原有的udf跟udf，那其实即使是行式引擎呢，这个udf模块还是处于一个，呃开发实验阶段啊，那么直接上生产的话可能。
09:15
还不到时候啊，还不到时候。那其实我们通过安装包里面是不是有个udf文件夹呀，对吧，那里面现在是已经开发到一定阶段了啊。另外就是stream stream类型我们之前介绍是不是最大是2G啊，对吧，那么在1.0里面，目前如果是向量化引擎，它最大长度是一兆，而不是2G。那这个时候会有什么问题呢？我们查询和导入的时候，大于一兆的字符串，呃，它没法得到结果。那么。这个时候你可以选择先把向量化关闭，然后再正常的去做查询，正常去做导入，这是允许的啊。你就把它当成一个功能性的开关啊，选择性的开启关闭就好了。
10:03
还有呢，我们之前导出的时候介绍过一个什么。呃，查询结果导出，那这种呢，如果我们是向量化引擎，目前目前还不支持，但我们说了这这一类，下面提到这一类未来呢，可能会得到支持啊。另外呢，就不支持一个broker的外表啊。这还有错别字啊？那像这种，如果大家发现有错别字，比如说官网或者什么的描述错别字啊。啊，大家可以去提对吧，啊，去提你的意见建议啊，参与到我们的贡献来也，这个时候也是大家加入一个贡献的好时机啊。也欢迎大家去贡献。好，这个是向量化引擎要给大家聊的事，那么另外要提醒大家的一句就是什么？目前1.0向量化引擎是被标注为实验性功能。所以呢，呃，如果大家在生态环境要用的话，还是做好全面的一个测试啊，全面的测试。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Apache Doris

（86/92）

3分21秒

01-课程介绍

500

9分8秒

02-Doris简介-概述

470

11分17秒

03-Doris简介-架构

660

10分33秒

04-Doris编译-安装Docker

570

16分42秒

05-Doris编译-使用Docker镜像编译

480

10分32秒

06-安装要求-软硬件需求

480

5分14秒

07-安装要求-默认端口号

430

9分7秒

08-集群部署-拷贝编译后文件&修改系统限制

390

12分20秒

09-集群部署-部署并启动FE

350

11分23秒

10-集群部署-部署BE

470

12分21秒

11-集群部署-向FE添加BE并启动

510

9分40秒

12-集群部署-部署FS_Broker

400

13分46秒

13-扩容缩容-FE扩缩容

410

4分55秒

14-扩容缩容-BE和Broker的扩缩容

360

9分24秒

15-数据表创建-基本概念

490

11分42秒

16-建表示例-基本语法&字段类型

370

7分53秒

17-建表示例-建表示例介绍

410

14分22秒

18-数据划分-列定义&分区

500

19分28秒

19-数据划分-分桶&多列分区

400

8分36秒

20-数据划分-表属性&引擎

380

9分12秒

21-数据模型-Aggregate模型介绍

390

8分12秒

22-数据模型-Aggregate模型-导入数据聚合演示

410

3分45秒

23-数据模型-Aggregate模型-保留明细数据演示

420

8分8秒

24-数据模型-Aggregate模型-导入数据与已有数据聚合演示

420

4分30秒

25-数据模型-Uniq模型

400

2分26秒

26-数据模型-Duplicate模型

450

7分5秒

27-数据模型-选择建议&聚合模型局限性

410

8分0秒

28-动态分区-原理&使用方式

420

12分52秒

29-动态分区-动态分区规则参数&创建历史分区

380

10分50秒

30-动态分区-动态分区演示

440

16分56秒

31-Rollup-Aggregate模型和Uniq模型的Rollup使用

390

8分35秒

32-Rollup-Duplicate模型的Rollup使用

340

3分28秒

33-Rollup-几点说明

370

7分45秒

34-物化视图-简单介绍&与Rollup区别

550

17分15秒

35-物化视图-原理介绍

510

6分41秒

36-物化视图-案例一演示

430

3分14秒

37-物化视图-案例二演示

290

3分57秒

38-物化视图-案例三演示

390

10分6秒

39-修改表-rename和partition的操作

310

5分32秒

40-删除数据-两种方式

430

7分13秒

41-数据导入-概述

320

18分14秒

42-数据导入-BrokerLoad-原理&语法

420

16分16秒

43-数据导入-BrokerLoad-示例演示

460

10分52秒

44-数据导入-StreamLoad方式

440

9分49秒

45-数据导入-Routine Load语法及参数说明

440

13分8秒

46-数据导入-Routine Load使用演示

510

12分29秒

47-数据导入-BinlogLoad-原理&配置MySQL端

370

8分59秒

48-数据导入-BinlogLoad-配置Canal端

370

3分42秒

49-数据导入-BinlogLoad-准备Doris表&基本语法

410

11分19秒

50-数据导入-BinlogLoad-示例演示

350

3分23秒

51-数据导入-Insert into及S3导入方式的说明

390

6分2秒

52-数据导出-Export方式-原理

470

10分2秒

53-数据导出-Export方式-示例演示

380

5分31秒

54-数据导出-查询结果导出-语法&并发导出

420

13分26秒

55-数据导出-查询结果导出-示例演示

420

7分59秒

56-查询设置-查询内存&查询超时时间

450

28分17秒

57-查询设置-查询重试和高可用&ProxySQL使用演示

370

7分57秒

58-查询-简单查询

460

11分49秒

59-Join查询-Broadcast Join&Shuffle Join

370

15分27秒

60-Join查询-Colocation Join

360

12分8秒

61-Join查询-Bucket Shuffle Join

370

12分47秒

62-Join查询-Runtime Filter原理&使用

350

14分50秒

63-Join查询-Runtime Filter参数说明

420

7分15秒

64-查询-SQL函数说明

460

12分20秒

65-集成Spark-使用Spark-Doris-Connector

880

4分34秒

66-集成Spark-官方Connector的配置项及字段映射

370

3分30秒

67-集成Spark-使用JDBC的方式（不推荐）

350

16分47秒

68-集成Flink-演示

340

12分12秒

69-集成DataX-编译DorisWriter&集成到DataX

350

9分39秒

70-集成DataX-案例演示

450

6分24秒

71-ODBC外部表-使用方式介绍

370

25分21秒

72-ODBC外部表-MySQL外表

440

16分31秒

73-ODBC外部表-Oracle外表

500

9分1秒

74-Doris On ES-原理和使用演示

370

7分9秒

75-Doris On ES-几个建表参数&使用注意

450

19分34秒

76-监控和报警-使用Prometheus和Grafana

430

10分36秒

77-优化-查看QueryProfile统计信息

360

9分31秒

78-优化-Join Reorder

450

10分54秒

79-优化-导入导出任务参数调整

460

6分19秒

80-优化-Bitmap索引&BloomFilter索引

420

4分55秒

81-优化-合理设置分桶分区数

340

8分7秒

82-数据备份及恢复-说明

370

9分18秒

83-数据备份及恢复-备份演示

570

8分35秒

84-数据备份及恢复-恢复演示

380

12分49秒

85-1.0新特性-1.0版本的部署

410

11分7秒

86-1.0新特性-向量化执行引擎

390

4分20秒

87-1.0新特性-Hive外表介绍

420

7分36秒

88-1.0新特性-Hive外表使用示例

400

9分22秒

89-1.0新特性-Table Function函数

400

4分49秒

90-1.0新特性-mySQLDump功能

340

4分35秒

91-1.0新特性-版本通告介绍(1)

330

4分35秒

91-1.0新特性-版本通告介绍

370

86-1.0新特性-向量化执行引擎

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐