学习
实践
活动
专区
工具
TVP
写文章
专栏首页牛肉圆粉不加葱Calcite - 看懂 Parser.jj 中的 SqlSelect

Calcite - 看懂 Parser.jj 中的 SqlSelect

javacc 会根据 parser.jj 中定义的相互穿插的 Token、Java 代码来自动生成 org.apache.calcite.sql.parser.impl.SqlParserImpl 的代码。本文期望以一个简单的 Select 语句为例来说清楚 Sql 语句、Sql 语法定义、SqlParser 之间的关系。

sql 文本如下:

select * from emp where empno > 5 and gender = 'F'

Parser.jj(语法定义文件)和类 SqlParserImpl 中的 SqlSelect 部分定义如下(左为 Parser.jj、右为 SqlParserImpl 类),SqlParserImpl 是由 JavaCC 根据 Parser.jj 定义的语法自动生成,自动生成说白了也就是根据什么样的语法定义生成什么样的 java 代码,我们希望搞明白的就是这样的映射关系:

一、方法声明

会根据

SqlSelect SqlSelect()

生成

final public SqlSelect SqlSelect() throws ParseException

规则也很简单:头加 final public,尾加 throws ParseException

二、Java 代码调用

在 Parser.jj 中,JavaCC 对于 Java 代码调用是直接将其复制到 Parser 的相应位置

2.1、声明/初始化

Parser.jj 中,使用 {} 包围的部分都是代码声明,这部分代码会被直接 Copy 为 Parser 相应的代码,如:

这部分代码的作用是声明用于声明一些局部变量,这些局部变量会通过后续的 Token 解析和代码调用来赋值,最终用于构造 SqlSelect

2.2、代码调用

如下箭头所指即语法定义中的代码调用被直接复制到 Parser 的相应位置

三、Token 校验

在 Parser.jj 中定义了 token < SELECT: "SELECT" >,在 Parser.jj 中定义的语法要去匹配这个 Token,则在相应的位置写一个 <SELECT> 即可,JavaCC 会在 Parser 的相应位置增加一行 jj_consume_token(SELECT) 方法。

我们知道,词法解析器会将一段 Sql 解析为一个 Token list(有序的),当我们拿一组 Token 去匹配一段语法定义时,每次遇到语法中如上所述的 Token 定义(我们这里称之为 expectedToken(s)),就会从 Token list 中取出一个或多个连续的 Token(我们称之为 actualToken(s)),会去校验实际的和期望的 kind 是否一致:

  • 如果两者类型一致,继续往下走代码生成
  • 如果两者类型不一致,说明 Sql 文本(可能是局部的)与当前的定义不匹配,抛异常

jj_consume_token 的主要实现逻辑如下(去除了一些非关键代码):

// SELECT 的 kind 值为 489
final private Token jj_consume_token(int kind) throws ParseException {
    Token oldToken;
    if ((oldToken = token).next != null) {
        // 只要不是最后一个 token,取 next Token 为当前 token;即将 Token 往后移一位。
        // token 初始值为 null,第一次往后移一位后得到的是 sql 即系出来的 Token list 的第一个
        // 在本例中为 SELECT
        token = token.next;
    } else {
        token = token.next = token_source.getNextToken();
    }
    if (token.kind == kind) {
        // 真实的 Token 类型与期望的 Token 类型相同,则校验通过
        return token;
    } else {
        // 真实的 Token 类型与期望的 Token 类型不同,则校验不通过,并抛异常
        token = oldToken;
        jj_kind = kind;
        throw generateParseException();
    }
}

举几个例子,比如:<SELECT> 会生成 jj_consume_token(SELECT) 代码,在 SqlSelect() 的语法定义中,是定义的第一个 Token,所以这里检查的是第一个 Token 是不是 SELECT;而且这里是单个、必选的,不是可能是多个或者可选的

关于 Token 校验更加复杂的情况,我们将在后文中介绍

四、正则相关

4.1、可选

// 使用正则的 [] 表示这一部分是可选的,这部分包含了 token <HINT_BEG> 和 <COMMENT_END> 以及两者之间的方法调用
// 如 /*+ NO_HASH_JOIN, RESOURCE(mem='128mb', parallelism='24') */
//     - **/*+** 即 <HINT_BEG>
//     - ***/** 即 <COMMENT_END>
//     - **NO_HASH_JOIN, RESOURCE(mem='128mb', parallelism='24')** 会喂给 CommaSepatatedSqlHints(hints) 的语法、代码用来为 hints 赋值
[
    <HINT_BEG>
    CommaSepatatedSqlHints(hints)
    <COMMENT_END>
]

将生成如下代码,在语法定义中使用正则 [] 和 Token 来定义可选部分是怎么样的,在 Parser 中先检查下一个 Token 类型是否符合再调用相应方法

// jj_ntk 表示 next token
//    - 若为 -1,表示刚开始遍历 token,往后移动一位拿到第一个 token
//    - 若不为 -1,表是已经拿到了 next token
// 总结来说 (jj_ntk==-1)?jj_ntk():jj_ntk 就是拿到下一个 token
switch ((jj_ntk==-1)?jj_ntk():jj_ntk) {
  // 如果下一个 token 是 HINT_BEG,则进入相应的分支流程
  case HINT_BEG:
    // 校验 token 类型
    jj_consume_token(HINT_BEG);
    CommaSepatatedSqlHints(hints);
    // 校验 token 类型
    jj_consume_token(COMMENT_END);
    break;
  default:
    jj_la1[29] = jj_gen;
    ;
}

4.2、0 次或 1 次

(
    <STREAM> {
        keywords.add(SqlSelectKeyword.STREAM.symbol(getPos()));
    }
)?

将生成如下代码,在语法中使用正则 (...)? 表示只出现 0 次或 1 次,在这一点上是和用 [] 表示效果相同,我们看下面的 switch case 的实现也能验证这一点。其余部分也是 Token 的校验和代码调用

switch ((jj_ntk==-1)?jj_ntk():jj_ntk) {
  case STREAM:
    jj_consume_token(STREAM);
          keywords.add(SqlSelectKeyword.STREAM.symbol(getPos()));
    break;
  default:
    jj_la1[30] = jj_gen;
    ;
}

4.3、或逻辑

(
    <DISTINCT> {
        keywords.add(SqlSelectKeyword.DISTINCT.symbol(getPos()));
    }
    |   <ALL> {
        keywords.add(SqlSelectKeyword.ALL.symbol(getPos()));
    }
)?

将生成如下代码,在语法定义中:

  • 使用 (...)? 来表示可选的,所以在生成的代码中,使用 CASE ALL: CASE DISTINCT 来表达可选
    • 下一个 Token 是 ALL 或 DISTINCT 则进入分支流程;否则进入 default
  • 在内部,语法定义中使用 | 表示或逻辑,在生成的代码中使用 switch、case 来表达
switch ((jj_ntk==-1)?jj_ntk():jj_ntk) {
    case ALL:
    case DISTINCT:
        switch ((jj_ntk==-1)?jj_ntk():jj_ntk) {
            case DISTINCT:
                  jj_consume_token(DISTINCT);
                      keywords.add(SqlSelectKeyword.DISTINCT.symbol(getPos()));
                  break;
            case ALL:
                  jj_consume_token(ALL);
                      keywords.add(SqlSelectKeyword.ALL.symbol(getPos()));
              break;
            default:
                 jj_la1[31] = jj_gen;
                 jj_consume_token(-1);
          throw new ParseException();
        }
        break;
    default:
        jj_la1[32] = jj_gen;
        ;
}

除了上面介绍的一些 pattern,还有更多的,但是基于上面介绍的,相信看懂其他的形式也不是问题,这里就不再一个个介绍了

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!
本文分享自作者个人站点/博客:https://www.jianshu.com/u/001d44710e2e复制
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • flink sql 知其所以然(六)| flink sql 约会 calcite(看这篇就够了)

    全网第一个 flink sql 实战,本文主要介绍 flink sql 与 calcite 之间的关系。flink sql 的解析主要依赖 calcite。

    公众号:大数据羊说
  • 基于JDBC实现VPD:SQL解析篇

    接着之前的文章《浅谈基于JDBC实现虚拟专用数据库(VPD)》的内容,今天我们重点来说一下SQL解析的问题。

    麒思妙想
  • 使用Calcite做Sql语法解析

    Flink SQL中使用Calcite作为sql语法解析、校验、优化工具,本篇是实操篇,介绍一下calcite做sql语法解析使用方式。

    Flink实战剖析
  • 看这篇就够了丨基于Calcite框架的SQL语法扩展探索

    Calcite 在大数据系统中有着广泛的运用,比如 Apache Flink, Apache Drill 等都大量使用了 Calcite,理解 Calcite ...

    袋鼠云数栈
  • 基于Calcite自定义SQL解析器

    这本应该是《我也能写数据库》系列文章中的一篇,但是最近一直在反思这个系列标题是不是有点不亲民,所以,暂时放弃这个系列标题了。

    麒思妙想
  • 【Calcite源码学习】SqlNode方言转换

    我们知道,Calcite一般会有四个阶段:parse、validate、optimize和execute。其中,在parse和validate阶段,会生成一个...

    skyyws
  • Apache Calcite 功能简析及在 Flink 的应用

    • Apache Calcite 是一个动态数据的管理框架,可以用来构建数据库系统的语法解析模块

    KyleMeow
  • 使用Calcite解析Sql做维表关联(一)

    维表关联是离线计算或者实时计算里面常见的一种处理逻辑,常常用于字段补齐、规则过滤等,一般情况下维表数据放在MySql等数据库里面,对于离线计算直接通过ETL方式...

    Flink实战剖析
  • 我也能写数据库 —— UDF

    在上期文章撰写的时候,我还认为只完成了单表查询,但经过几天的研究发现,上次那寥寥几十行代码,其实已经可以完成了表联接,过滤等功能了,只是由于当时粗心写错了一些东...

    麒思妙想
  • 个推基于Flink SQL建设实时数仓实践

    作为一家数据智能企业,个推在服务垂直行业客户的过程中,会涉及到很多数据实时计算和分析的场景,比如在服务开发者时,需要对App消息推送的下发数、到达数、打开率等后...

    个推
  • [源码分析] 带你梳理 Flink SQL / Table API内部执行流程

    本文将简述Flink SQL / Table API的内部实现,为大家把 "从SQL语句到具体执行" 这个流程串起来。并且尽量多提供调用栈,这样大家在遇到问题时...

    罗西的思考
  • 使用Calcite解析Sql做维表关联(二)

    继上一篇中使用Calcite解析Sql做维表关联(一) 介绍了建表语句解析方式以及使用calcite解析解析流表join维表方法,这一篇将会介绍如何使用代码去实...

    Flink实战剖析
  • Apache Calcite 框架 50 倍性能优化实践

    某天临时被当成壮丁拉去参加一个非常牛逼的应用监控平台(后续会开源),然后大佬就给我派了一个任务,要将项目中的查询性能优化 50 倍以上,大佬对我如此地寄予厚望,...

    张乘辉
  • 怎么看懂UML中的类图?

    统一建模语言(Unified Modeling Language,UML)是用来设计软件蓝图的可视化建模语言,1997 年被国际对象管理组织(OMG)采纳为面向...

    乱敲代码
  • 一文看懂pandas中的透视表

    皮大大
  • ​一文看懂 Pandas 中的透视表

    透视表在一种功能很强大的图表,用户可以从中读取到很多的信息。利用excel可以生成简单的透视表。本文中讲解的是如何在pandas中的制作透视表。

    刘早起

扫码关注腾讯云开发者

领取腾讯云代金券