文章/答案/技术大牛

发布

首页视频78-优化-Join Reorder

78-优化-Join Reorder

2022-12-022022-12-02 16:02:30播放45

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Apache Doris/视频/78-优化-Join Reorder.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
Order。那这个是应该是不管是什么op引擎都会提供的一个优化功能，说白了就是自动调整九引的顺序啊，比如说我有很多张表abcd啊，四张表要做九引，按照我的语法是A跟B，先九引，再跟C9引，再跟D9引，对吧，那么这样就比较。能实现，但是效率不一定高，那如果D表示数据量比较小，那我能不能先用A表跟D表进行交易，那这样产生的中间结果是不是就变少了，那整体效率就能提高了。好，那我们知道在circle。里边通常呢，我们呃，解析的时候是不是有一个叫逻辑执行计划的优化，还有一个物理执行计划的优化，对吧？那如果是逻辑计划一般是基于r Bo r Bo就是类呃基于规则的一些优化，像什么位置下推这种规则，那还有一个物理执行计划阶段做的一个优化叫CPU。
01:09
CBO啊，就是基于代价的一个优化，那这个joiner一般就是在CVO里面去实现。那同样你看啊，通过代价模型就是指的CPU啊，自动调整so中的就是顺序获得最优的，就像那这个参数，我们一般也是建议开启，那呃，我们了解一下它的原理。呃，比如说看下面这张图啊，是三张表要做Q引啊，啊根一是跟二跟三分别代表三张表，那我们正常一个，比如说我们写的可能是1Q引二啊对吧，然后再继续Q引三，按照circle口语法顺序是一跟二，先join再跟3Q引，那我们看啊第一次交引的时候。
02:02
表一一千行，表二一百行，这时候中间结果是多少？比如说是有2000行，这个时候他们交引完的结果，再跟表三才实行数据做一个交易啊，这是一个不优化的逻辑，但是通过自动调整之后，他发现表三数据量这么小，为什么不先把它交引处理完呢？对吧？啊，所以它会自动调整成什么样呢？啊，我表一一千行跟表三这个小表，我先做就业，那得到的中间结果只需要100条。啊，这个这个得到几条不一定，看你的关联条件是不是啊，咱们这边只是一个一个案例说明啊，那中间结果肯定是少了的，那接下来再去扫描表二啊，也就是有100张一百一百条数据的这张表再做一个交，你看中间数据量少了，第一次交引效率提高了，那最终这个整体执行。呃，效率就非常高了，这个就是自动做的事啊。
03:04
那我们了解一下它的底层逻辑啊，它的底层逻辑是怎么优化呢？尽量的让大跟小做一个交易，对吧，优先让小去跟大表做交易。那这样它生成的中间结果是尽可能小，这是它优化的第一个原则。呃，第二一个呢，把有条件的join表放前面，也就是说，比如说我表一表二啊1JOIN2JOIN3对吧？啊，那如果我只的三这张表有加过滤条件。不管是where写还是on写也好，那优先呢？呃，跟他做一个，就因为它有过滤，过滤完的数据量就比较少，数据条数也比较少。尽量让有条件的先啊，先过滤啊。呃，另外一个就哈希交蚓优先级高于另外的这种就蚓这种就是什么呢？像比如说迪卡尔基的那种就对吧啊非等值啊哈希交引，我们前面介绍过，主要是在等值交引的场景啊，要做一个哈希交换啊数据交换。
04:07
嗯，好，那说这么多，我们直接通过一个案例来演示啊，那我们之前建的表有这么一张表，还有一张表二啊，还有一个表三。啊，表三这三张表作为一个交易啊，那关联条件都是什么呢？UID啊。那按照我们的顺序，是不是这个一跟二先揪完再跟三是不是啊。那我们现在先来，呃，我先看一下那个参数吧，So。Variables like什么reorder，对吧？Join的，嗯。看一下这个参数的默认值是一个什么呢？In cost base就默认是不开启，那这个时候呢，我们来执行这个SQL语句，那我们是查看它的一个执行计划，并且我以图的方式来看啊，不然太长了不好看，我们图片呢就特别明显了，对吧？好，我们先来看一眼粘贴，哎，我缩小一点。
05:13
我们看一下第一次灸隐发生在哪，先找第一次就好，这是第一次就这是第二次就蚓对吧？那我们现在要看的是第一次交运是谁跟谁来往檄翻啊。是不是表一啊，好，那看另一边是谁。是表二对吧，也来啊，也就是说这个交引是表一含有表二的交是跟我们搜狗的写的顺序是一样的对吧？呃，然后呢，第二次交易是把中间结果跟表三做一个交易。对吧，你就往这边往下拉，右边往下拉，这个是表三。啊，这个是不帮我们做调整，那接下来我们要做一个事儿啊，我们将这个参数设为处，再来看一下刚才这个舌头。
06:06
好，现在是处了对吧，那我直接上翻，上翻还是这个色口啊，回车来注意看找第一次就。这是第一次。这第二次，那接下来看第一次是谁跟谁还是一个表一啊，再看另一边变成了谁呀，表三。对吧，当我们调整了顺序，这里变成了一就三。那另一边这个肯定是什么。第二次经才join那个表二啊，那往下往下看一点对吧，表二那这个就是reorder啊，那为什么会这么调整，因为我表上是没数据，还记得吧，我前面是不是建了一张空表。啊，这个是一个空表吧，我没记错的话，它数据量比较小，对不对，这是我前面建了一张空表，好，这个就是joyro自动的帮我们调整顺序。
07:04
达到一个最优的效果。那接着呢，我们顺便了解一下join的一个优化原则啊，就怎么样来使用join啊，效率会更好一点啊，第一个原则呢，我们尽量。关联的字段选择同类型的或者简单类型的列同类型呢？当然不同类型也可以做，但是它是不是要自动做一个类型转换，对吧，它会呃自动做一个cast。那做这个事儿肯定是多做了一些事情。另外一个使用简单的列，本身它的效率肯定就高嘛，复杂力量肯定就慢啊，这当然是尽量啊，如果你实际需求没办法，那你就啊也无所谓了，其实呃，第二一个尽量选择T列进行交易，你不要呃，比如说在聚合模型里面啊，你用一个sum类型的列去。Join，这个原因呢，在runtime Fi的时候我们也提到过，对吧，它key列呢，在延迟物化上能提到一个比较好的效果，或者说key列本身是排序列啊，那它效率是本身就高啊。
08:12
呃，其次呢，大表之间的交易，我们尽量用什么？会对对吧，使用呃，这样可以避免一个shuffle。那如果再不行，我们再去考虑用那个bucket的沙join，这个我们前面介绍join的时候都有提到过啊，还是一样的道理。还有一个就我们提到过的RO Fi啊，前面也演示过了，呃，它是目的呢，是为了提高我们的效率啊，去做一个下推是吧，甚至呢，下推到那个存储引擎。那要注意的时候，他也是有一定副作用的，要根据具体情况去使用，就比如说我们用那个布隆。对吧。布隆的方式过滤是不是还有些情况，注意事项我们也提过，还有呢，印用印这种方式，它是不是有个限制，超过1024，默认超过1024，它是不是就失效了？
09:08
啊，等等，这些都是可以去考虑的。第三一个涉及多表join，就我们刚才提到，我们可以开启一个reorder，让它自动帮我们调整。那下面这张图就是官方在分享的时候给到的一个建议啊，一张PPT啊，那也给我们上面讲的，呃，就差不多啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Apache Doris

（78/92）

3分21秒

01-课程介绍

500

9分8秒

02-Doris简介-概述

470

11分17秒

03-Doris简介-架构

660

10分33秒

04-Doris编译-安装Docker

570

16分42秒

05-Doris编译-使用Docker镜像编译

480

10分32秒

06-安装要求-软硬件需求

480

5分14秒

07-安装要求-默认端口号

430

9分7秒

08-集群部署-拷贝编译后文件&修改系统限制

390

12分20秒

09-集群部署-部署并启动FE

350

11分23秒

10-集群部署-部署BE

470

12分21秒

11-集群部署-向FE添加BE并启动

510

9分40秒

12-集群部署-部署FS_Broker

400

13分46秒

13-扩容缩容-FE扩缩容

410

4分55秒

14-扩容缩容-BE和Broker的扩缩容

360

9分24秒

15-数据表创建-基本概念

490

11分42秒

16-建表示例-基本语法&字段类型

370

7分53秒

17-建表示例-建表示例介绍

410

14分22秒

18-数据划分-列定义&分区

500

19分28秒

19-数据划分-分桶&多列分区

400

8分36秒

20-数据划分-表属性&引擎

380

9分12秒

21-数据模型-Aggregate模型介绍

390

8分12秒

22-数据模型-Aggregate模型-导入数据聚合演示

410

3分45秒

23-数据模型-Aggregate模型-保留明细数据演示

420

8分8秒

24-数据模型-Aggregate模型-导入数据与已有数据聚合演示

420

4分30秒

25-数据模型-Uniq模型

400

2分26秒

26-数据模型-Duplicate模型

450

7分5秒

27-数据模型-选择建议&聚合模型局限性

410

8分0秒

28-动态分区-原理&使用方式

420

12分52秒

29-动态分区-动态分区规则参数&创建历史分区

380

10分50秒

30-动态分区-动态分区演示

440

16分56秒

31-Rollup-Aggregate模型和Uniq模型的Rollup使用

390

8分35秒

32-Rollup-Duplicate模型的Rollup使用

340

3分28秒

33-Rollup-几点说明

370

7分45秒

34-物化视图-简单介绍&与Rollup区别

550

17分15秒

35-物化视图-原理介绍

510

6分41秒

36-物化视图-案例一演示

430

3分14秒

37-物化视图-案例二演示

290

3分57秒

38-物化视图-案例三演示

390

10分6秒

39-修改表-rename和partition的操作

310

5分32秒

40-删除数据-两种方式

430

7分13秒

41-数据导入-概述

320

18分14秒

42-数据导入-BrokerLoad-原理&语法

420

16分16秒

43-数据导入-BrokerLoad-示例演示

460

10分52秒

44-数据导入-StreamLoad方式

440

9分49秒

45-数据导入-Routine Load语法及参数说明

440

13分8秒

46-数据导入-Routine Load使用演示

510

12分29秒

47-数据导入-BinlogLoad-原理&配置MySQL端

370

8分59秒

48-数据导入-BinlogLoad-配置Canal端

370

3分42秒

49-数据导入-BinlogLoad-准备Doris表&基本语法

410

11分19秒

50-数据导入-BinlogLoad-示例演示

350

3分23秒

51-数据导入-Insert into及S3导入方式的说明

390

6分2秒

52-数据导出-Export方式-原理

470

10分2秒

53-数据导出-Export方式-示例演示

380

5分31秒

54-数据导出-查询结果导出-语法&并发导出

420

13分26秒

55-数据导出-查询结果导出-示例演示

420

7分59秒

56-查询设置-查询内存&查询超时时间

450

28分17秒

57-查询设置-查询重试和高可用&ProxySQL使用演示

370

7分57秒

58-查询-简单查询

460

11分49秒

59-Join查询-Broadcast Join&Shuffle Join

370

15分27秒

60-Join查询-Colocation Join

360

12分8秒

61-Join查询-Bucket Shuffle Join

370

12分47秒

62-Join查询-Runtime Filter原理&使用

350

14分50秒

63-Join查询-Runtime Filter参数说明

420

7分15秒

64-查询-SQL函数说明

460

12分20秒

65-集成Spark-使用Spark-Doris-Connector

880

4分34秒

66-集成Spark-官方Connector的配置项及字段映射

370

3分30秒

67-集成Spark-使用JDBC的方式（不推荐）

350

16分47秒

68-集成Flink-演示

340

12分12秒

69-集成DataX-编译DorisWriter&集成到DataX

350

9分39秒

70-集成DataX-案例演示

450

6分24秒

71-ODBC外部表-使用方式介绍

370

25分21秒

72-ODBC外部表-MySQL外表

440

16分31秒

73-ODBC外部表-Oracle外表

500

9分1秒

74-Doris On ES-原理和使用演示

370

7分9秒

75-Doris On ES-几个建表参数&使用注意

450

19分34秒

76-监控和报警-使用Prometheus和Grafana

430

10分36秒

77-优化-查看QueryProfile统计信息

360

9分31秒

78-优化-Join Reorder

450

10分54秒

79-优化-导入导出任务参数调整

460

6分19秒

80-优化-Bitmap索引&BloomFilter索引

420

4分55秒

81-优化-合理设置分桶分区数

340

8分7秒

82-数据备份及恢复-说明

370

9分18秒

83-数据备份及恢复-备份演示

570

8分35秒

84-数据备份及恢复-恢复演示

380

12分49秒

85-1.0新特性-1.0版本的部署

410

11分7秒

86-1.0新特性-向量化执行引擎

390

4分20秒

87-1.0新特性-Hive外表介绍

420

7分36秒

88-1.0新特性-Hive外表使用示例

400

9分22秒

89-1.0新特性-Table Function函数

400

4分49秒

90-1.0新特性-mySQLDump功能

340

4分35秒

91-1.0新特性-版本通告介绍(1)

330

4分35秒

91-1.0新特性-版本通告介绍

370

78-优化-Join Reorder

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐