前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hive优化器原理与源码解析系列--优化规则HiveIntersectMergeRule(十九)

Hive优化器原理与源码解析系列--优化规则HiveIntersectMergeRule(十九)

作者头像
用户7600169
发布2022-04-25 15:40:23
4960
发布2022-04-25 15:40:23
举报
文章被收录于专栏:BigDataplusBigDataplus

目录

背景

优化规则HiveIntersectMergeRule

  • matches方法逻辑详解
  • onMatch方法逻辑详解

总结

背景

这篇文章来讲优化规则HiveIntersectMergeRule,主要功能是把多个Intersect操作合并为一个Intersect操作。具体逻辑是把多个Intersect子输入RelNode收集到一个RelNode列表inputs中,使inputs作为子输入创建一个新Intersetc操作对象,这样就把多个Intersect操作合并为一个Intersec操作。

HiveIntersect是对Calcite框架中一操作RelNode关系表达式Intersect操作继承实现,Hive 2.3开始SQL中支持Intersect语法和操作。

先介绍一下Intersect,返回其输入行的交集的关系表达式。如果“all”为true,则执行“multiset intersection” 含有重复项;否则,执行“set set intersection”表示结果中没有重复项。

此优化规则转换操作树形如下:

把两个Interset操作连接的T1,T2和T3,合并为一个Intersect操作。

优化规则HiveIntersectMergeRule

1)matches方法逻辑详解

matches方法返回此规则Rule是否可能与给定的操作数operands匹配,但是此方法的任何实现都可以给出误报,也就是说虽然规则与操作数匹配,但随后具OnMatch(ReloptRuleCall)而不生成任何后续任务。

判断由RelOptCall调用的优化规则Rule是否与输入参数RelNode关系表达式匹配,即此优化规则Rule能否应用到一个RelNode关系表达式树上。但此matches方法是继承自父类方法,默认返回true。

代码语言:javascript
复制
public boolean matches(RelOptRuleCall call) {  
  return true;
}

2)onMatch方法逻辑详解

接收有关一条规则匹配的通知。同时此方法被调用,call.rels保存了与规则Rule的操作数Operands匹配上的关系表达式RelNode集合;call.rels[0]是根表达式。通常一条规则Rule会检查这些节点是否有效匹配,创建一个新表达式RelNode(等价的)然后调用RelOptRuleCall.transformTo(org.apache.calcite.rel.RelNode, java.util.Map<org.apache.calcite.rel.RelNode, org.apache.calcite.rel.RelNode>)注册表达式。而RelOptRuleCall用一系列RelNode关系表达式集合作为参数,对RelOptRule优化规则的调用。

根Root RelNode是call.rel(0)获取的HiveIntersect对象。

满足条件的情况一:

左侧T1分支为call.rel(1),右侧分支为call.rel(2)为bottomHiveIntersect

满足条件的情况二:

左侧分支为call.rel(1)为bottomHiveIntersect,右侧侧T3分支为call.rel(2)

因操作树的形状不同或Intersect操作位置不同来确定底部Interset操作符的位置。

代码语言:javascript
复制
 final HiveIntersect topHiveIntersect = call.rel(0);
  final HiveIntersect bottomHiveIntersect;
  if (call.rel(2) instanceof HiveIntersect) {//对应的上图情况一
    bottomHiveIntersect = call.rel(2);
  } else if (call.rel(1) instanceof HiveIntersect) {//对应上图情况二
    bottomHiveIntersect = call.rel(1);
  } else {
    return;
  }

如果顶部top是distinct去重复的,不管底部bottom是all还是distinct都能合并,如果顶部top是all,那底部bottom也是all才能合并,否则退出优化。

代码语言:javascript
复制
boolean all = topHiveIntersect.all;
if (all && !bottomHiveIntersect.all) {
  return;
}

把多个Intersect输入存储到inputs输入RelNode列表中,针对操作树形状不同,又分两种情况,如下:

  • 对应上述情况一,即根RelNode右侧分支call.rel(2)为HiveIntersect对象,把topHiveIntersect.getInput(0)左侧第一个元素即T1添加到inputs输入列表。
  • 对应上述情况二,把左侧HiveIntersectd对象的所有输入加入inputs列表,并把topHiveIntersect.getInputs()顶部输入除了第一个元素外,都加入到inputs列表即T3。
代码语言:javascript
复制
List<RelNode> inputs = new ArrayList<>();
if (call.rel(2) instanceof HiveIntersect) {
  inputs.add(topHiveIntersect.getInput(0));//左侧第一个元素
  inputs.addAll(bottomHiveIntersect.getInputs());//底部Intersect所有输入
} else {//如果call.rel(1)为HiveIntersect
  inputs.addAll(bottomHiveIntersect.getInputs());
  inputs.addAll(Util.skip(topHiveIntersect.getInputs()));//除了顶层topHiveIntersect的第一个元素外,都添加到inputs列表
}
//把多个Intersece所有输入RelNode作为一个InterSect的输入
HiveIntersect newIntersect = (HiveIntersect) topHiveIntersect.copy(
    topHiveIntersect.getTraitSet(), inputs, all);
call.transformTo(newIntersect);//进行优化转换

最后,把上述多个Intersect输入子RelNode收集到Inputs的RelNode列表,使其作为输入RelNode集合来创建一个新Intersect操作对象,相当于将多个Intersect操作合并为一个Intersect操作等价变换。

总结

优化规则HiveIntersectMergeRule,把多个Intersect的子输入RelNode进行收集,使用这些子输入RelNode集合作为输入创建一个新的Intersect操作,把多个Intersect操作合并为一个Intersect操作。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 BigDataplus 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档