SQL解析-词法分析

有内涵、有价值的文章第一时间送达!

精品专栏

sharding-jdbc对SQL解析的源码主要在下图所示parsing模块中,由下图可知SQL解析主要分为两部分:lexer和parser。lexer就是本文需要分析的词法分析:

sharding-jdbc sql解析

分析sharding-jdbc源码的词法分析之前,先大概说一下词法分析是干嘛的,后面理解起来就会更容易,例如对于SQL:"/! hello, afei /delete ignore from where userid=? "_而言,词法分析结果如下:

SQL解析结果初探

前面分析SQL重写的时,其测试用例代码在SQLRewriteEngineTest.java中,列举其中一个用例源码如下,assertRewriteForLimit()方法中的selectStatement就是SQL解析的结果:

SQL解析分析

核心类为 ,核心源码如下:

从parse()方法的结果可知,SQL解析的结果就是SQLStatement,上面的测试用例是SelectStatement,是SQLStatement的子类,关系如下图所示:

1. 得到LexerEngine

对应源码为 ,核心实现源码如下:

从这里可知,sharding-jdbc只支持这些数据库:H2,MySQL,Oracle,SQLServer,PostgreSQL;其他数据库如DB2是不支持的;

以Mysql数据库为例,获取MySQLLexer源码如下,可知Lexer两个主要属性为SQL和关键词字典:

2. 获取第一个token

对应的源码是 ,核心实现源码如下:

由这段代码可知,忽略的token主要包括:

空格,如下图所示:

hint与后面的空格,例如MySQL的hint语法为 , 这条SQL有hint ;(Oracle的hint语法有所不同,通过OracleLexer.java中的isHintBegin()可知,Oracle的hint语法为 );

注释与后面的空格,,参考sharding-jdbc源码可知注释语法有3种: , , ,这三种注释的处理有所不同, 和 被认为是单行注释(isSingleLineCommentBegin()),sharding-jdbc会直接通过当前一整行;而 被认为是多行注释(isMultipleLineCommentBegin()),sharding-jdbc会直接掉到 后面,例如MySQL的注释语法为 这条SQL有注释 ;

判断是否为注释的源码如下:

nextToken()分析

由于接下来的SQL解析都会调用这个nextToken()方法,所以为了更好的分析SQL解析过程,接下来详细剖析它的逻辑,由其源码可知,其逻辑主要分为两个部分:

调用skipIgnoredToken()跳过忽略的token(上面已经分析了哪些属于忽略的token)

调用 方法判断类型然后构造Token; 主要有下面提到的这些:

isVariableBegin()--是否变量开头,即@,例如这种SQL:select @a from dual(连续两个@符号即@@也是可以的),其中a是一个定义的变量;select @a from dual这条SQL解析到@的时候,得到的token为(这个token的endPostion就是@a后面的位置)

isNCharBegin()--SQLServer的特殊语法,其他数据库都不支持。例如INSERT INTO employees VALUES(N'29730', N'Philippe', N'Horsford', 20, 1),申明字符串为nvarchar类型;

isIdentifierBegin()-- 是否标识符开头,即az,AZ, userid userid user_id`, endPostion:16}**;

isHexDecimalBegin()-- 是否16进程符号开头,即0x。例如这种SQL:select 0x21 from dual,解析0x21的时候,得到的token为

isNumberBegin()-- 是否数字开头,即0~9,例如这种SQL:select 'afei' from t_user limit 1,limit 1这个1就是数字,解析到limit后面的1的时候,得到的token为

isSymbolBegin()-- 是否特殊符号开头,例如这种SQL:select from t_user limit ?,,解析?的时候,得到的token为

isCharsBegin()-- 是否字符开头,即单引号或者双引号,例如这种SQL:select 'afei' from t_user limit 1,解析 的时候,得到的token为

isEnd()-- 是否SQL尾部,判断条件是offset >= input.length(),即遍历位置offset是否到了sql(input就是sql)尾部。得到的token为

nextToken()的解析非常重要,其调用贯穿在整个sharding-jdbc的SQL解析过程中;根据这段分析逻辑就能得出文章前面词法分析结果表格了。

3. 得到SQL解析器

对应的源码是 ,lexerEngine.getCurrentToken().getType()就是上面解析得到的第一个token的类型,核心实现源码如下:

从上面的代码可知,得到的SQL解析器的一些主要属性有:

数据库类型dbType;

分库分表规则shardingRule;

词法分析器引擎lexerEngine;

lexerEngine的属性为Lexer lexer,它的一些核心属性在上面有分析过:SQL语句input,包含SQL关键词的字典dictionary,SQL解析位置偏移量offset,当前解析得到的词令currentToken;

4. SQL解析

这篇文章分析了sharding-jdbc中SQL解析的准备工作,下一篇文章将详细分析insert(增),delete(删),update(改),select(查),等SQL语句的解析过程;

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180803G085H800?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券