用ANTLR实现数据加载器、语言解释器、语言翻译器。基于自动生成的语法分析树解析文件。...简单来说就是,ANTLR根据用户自定义的语法文件自动生成词法分析器和语法分析器,并将输入文本处理为语法分析树(可视化)。...ANTLR 是一款强大的语法分析器生成工具,可用于读取、处理、执行和翻译结构化的文本或二进制文件。...generate parse tree visitor -no-visitor don't generate parse tree visitor (default...语法分析树监听器语法分析树访问器3.1 入门例子编写一个ArrayInit.g4文件// 定义文件,程序语言的名称必须同文件名称一致,都为ArrayInitgrammar ArrayInit;// 规则
antlr v4相对于v3,v4更注重于用更接近于自然语言的方式去解析语言。比如运算符优先级,排在最前面的规则优先级最高; 层次更清晰更易维护。...生成的分析树定义一个完整的访问器 HiveSqlBaseBaseVisitor 实现了HiveSqlBaseVisitor访问器接口的空类 HiveSqlBaseLexer...对于存在多个子节点,直接使用父类继承的visitXXX()方法有问题的,visitChildren(RuleNode node)默认实现只会返回最后一个子节点的内容,使用的话需要重写做遍历子节点并整合子节点信息...如果ctx.getChild(i)为叶子节点时visit(ctx.getChild(i))返回值为null,因为叶子节点没有相关visitXXX()方法。...语法树片段,如图: 在使用Visitor访问器模式,对语法树进行遍历时,把HQL语法转换为目标引擎的语法如Presto语法。
第二阶段:语法分析,从输入的词法符号中识别语句结构,antlr生成的语法分析器会构建语法分析树(parse tree),它记录了语法分析器识别出输入语句结构的过程,以及该结构的各组成部分。?...遍历模式Antlr4有两种遍历模式:Listener模式由Antlr提供的walker对象自动调用,而Visitor模式则必须通过显式的访问调用遍历其子级,如果忘记在节点的子节点上调用visit方法,意味着子树不会被访问...;Listener模式不能返回值,而Visitor模式可以返回任何自定义类型。...Antlr内建的树遍历器会去触发在Listener中像enterStat和exitStat的一串回调方法。?...小结通过parser返回一个context的树,ParserTree tree = parser.stat();visitor.visit(tree),在visit中调用context的accept方法
如果随着这类组件的增加,查询功能复杂度的增加,那边每套接口的复杂度也会随之增加,对于后续的扩展和维护也是很不方便的。...而图右边在我们引入SQL解析器后,只需要一套接口来完成业务逻辑,对于不同的技术组件进行适配即可。三、什么是SQL解析器?...具体语法分析树如下图所示:4.1.2 GrammarANTLR官方提供了很多常用的语言的语法文件,可以进行修改后直接进行复用:https://github.com/antlr/grammars-v4在使用语法的时候...和 Calcite SQL解析对比4.3.1 ANTLR4解析SQLANTLR4解析SQL的主要流程包含:定义词法和语法文件、编写SQL解析逻辑类、主服务调用SQL逻辑类。...ANTLR是比较简单的,开发中无需关注词法和语法文件的定义和编写,只需关注具体的业务逻辑实现。
这里说的是整数,如果输入了一个字母,我们一定是要拒绝的...对于这一块要写对应的词法规则,这个阶段的过程就叫做词法分析 输入满足词法的规则,并不代表我们就能接受,如果是【加号】【整数】【整数】或者【整数...运行调试,点击图标中的小甲虫 ? 在弹出来的调试界面中,选择 text 输入 1+2 ? ? 之后将会在output窗口看到被识别出来的token流,以及具体语法分析树和ASTTree的结果 ? ?...创建语法文件: 在grammar上面右键, New -> Other,选择 ANTLR中的Combined Grammar ? 输入文件名Caculator ?...以上设置完了之后,点ok 在Calculator.g文件中输入内容: ? 点击Interpreter,在expr区域输入表达式1+2 点击执行按钮: ? 我们可以看到下图中具体语法分析树的结果 ?...创建测试类:TestCalculator.java ? 能够获取生成的ASTTree
使用ANTLR4工具处理g4文件,生成词法分析器、句法分析器代码、词典文件。 编写代码继承Visitor类或实现Listener接口,开发自己的业务逻辑代码。...其实在定义好与法规中,编写完成g4文件后,ANTLR4已经为我们完成了50%的工作:帮我们实现了整个架构及接口了,剩下的开发工作就是基于接口或抽象类进行具体的实现。...Vistor需要自行控制访问的子节点,如果遗漏了某个子节点,那么整个子节点都访问不到了。 Listener模式的方法没有返回值,Vistor模式可以设定任意返回值。...然后基于visitor模式实现自己的解析类AstBuilder (这里为了简化问题,依然从presto源码中进行裁剪)。...理解ANTLR4的用法能够帮助理解SQL的定义规则及执行过程,辅助业务开发中编写出高效的SQL语句。同时对于理解编译原理,定义自己的DSL,抽象业务逻辑也大有裨益。纸上得来终觉浅,绝知此事要躬行。
Visitor与Listener 在上一篇文章中使用Antlr和Visitor实现了一个可以计算表达式的程序MarvelCalc。这个程序非常简单,相当于Antlr的HelloWorld。...不过Antlr除了Visitor方式外,还支持Listener方式,也就是监听器方式。...,所以antlr还为我们生成了一个默认实现类CalcBaseListener,该类位于CalcBaseListener.java文件中。...类中有一个error变量,用来标识分析的过程中是否有错误,在Listener中同样需要; (3)每一个visitXxx方法都有返回值,其实这个返回值是向上一层节点传递的值。...而Listener中的方法并没有返回值,但仍然需要将值向上一层节点传递,所以需要想其他的方式实现向上传值; 那么为什么要向上传值呢?
对于SQL语言,ANTLR的应用广度和深度会更大,这是由于Hive, Presto, SparkSQL等由于需要对SQL的执行进行定制化开发,比如实现分布式查询引擎、实现各种大数据场景下独有的特性等。...使用ANTLR4工具处理g4文件,生成词法分析器、句法分析器代码、词典文件。 编写代码继承Visitor类或实现Listener接口,开发自己的业务逻辑代码。...其实在定义好与法规中,编写完成g4文件后,ANTLR4已经为我们完成了50%的工作:帮我们实现了整个架构及接口了,剩下的开发工作就是基于接口或抽象类进行具体的实现。...Vistor需要自行控制访问的子节点,如果遗漏了某个子节点,那么整个子节点都访问不到了。 Listener模式的方法没有返回值,Vistor模式可以设定任意返回值。...通过这个类图,可以清晰明了看清楚SQL语法中的各个基本元素。 然后基于visitor模式实现自己的解析类AstBuilder (这里为了简化问题,依然从presto源码中进行裁剪)。
其实,简单讲,antlr就是一个非常方便的词法分析和语法分析的类库,基于这个类库,可以很容易的实现很多场景,比如计算器算术表达式的解析、各种编程语言的解析等。...印象很深刻的记得,大学编译原理的课程里面就有类似的两个练习,一个是实现计算器算术表达式的解析,一个是实现C-语言(C语言的简化版)的解析,当时肯定是需要自己手动实现,不能借助这些类库,那如何做的呢?...下面仅分享一些我使用antlr(antlr 4)解析odata filter条件表达式的经验总结: antlr的简单使用流程:定义grammar->生成对应语言(比如c#)的词法和语法分析代码->实现自己的...Visitor遍历抽象语法树AST(abstract syntax tree)。...4.5开始,c#的runtime换成了Antlr4.Runtime.Standard;之前的版本是用Sam Harwell提供的一个Runtime。
image.png image.png 1.3、语义分析 语义分析的目的是消除语义中模棱两可的“二义性”。比如一个变量同时定义在花括号外部和内部,那么到底该用哪一个。...虽然是java实现的编译工具,但是antlr支持生成cpp、java、python、c#等的解析运行库,可以当做多种语言的解析工具用。...Bbcode.g4的规则如下: image.png 生成命令: antlr4 -Dlanguage=Cpp -visitor ..../Bbcode.g4 -o antlr4-bbcode -Dlangguage是生成Cpp,如果不指定,默认是java -visitor额外生成vistor模式访问的工具代码,没有指定默认是listener...3.2 antlr的访问模式 listener模式是antlr解析AST树的各个节点,并调用相应的hook函数,而visitor需要实现遍历访问,如果没有主动visit,则不会进行处理。
其实并没有grun这个东西,grun是一个别名,真实的工具在是antlr-4.8-complete.jar中的 org.antlr.v4.gui.TestRig类,在macOS或Linux下,可以使用alias...这里先要知道Antlr4是如何遍历AST的。Antlr4有如下两种方式遍历AST: (1)listener (2)visitor 第一种方式更灵活,但不容易使用。visitor不灵活,但容易使用。...还生成了一个默认实现类,如本例的HelloBaseVisitor,默认实现类已经默认实现了所有的回调方法,我们的Visitor类只需要从该类继承,就只需要实现必要的回调方法即可。...对于Hello类来说,就是最终的调用代码了。...现在看一下EvalVisitor类的实现。该类的实现原理是当直接计算两个值时,如3 * 5、4 - 1,就分别由visitMulDivhe visitAddSub方法计算,并通过返回值返回计算结果。
Antlr4 的两种AST遍历方式:Visitor方式 和 Listener方式。...采用全大写字母的形式,对于parser rule命名,推荐首字母小写的驼峰命名; 不区分字符和字符串,都是用单引号引起来的,同时,虽然Antlr g4支持 Unicode编码(即支持中文编码),但是建议大家尽量还有英文...的东西,包括最后的toResult(parser)也是调用访问者模式的类去遍历语法树来生成Logical Plan spark提供了一个.g4文件,编译的时候会使用Antlr根据这个.g4生成对应的词法分析类和语法分析类...访问者模式简单说就是会去遍历生成的语法树(针对语法树中每个节点生成一个visit方法),以及返回相应的值。我们接下来看看一条简单的select语句生成的树是什么样子: ?...我们可以通过继承这个类,重写对应节点的visit方法,实现自己的访问逻辑,Spark SQL中这个继承的类就是org.apache.spark.sql.catalyst.parser.AstBuilder
Listener模式是被动式遍历,antlr生成类ParseTreeListener,这个类里面包含了所有进入语法树中每个节点和退出每个节点时要进行的操作。...我们只需要实现我们需要的节点事件逻辑代码即可,再实例化一个遍历类ParseTreeWalker,antlr会自上而下的遍历所有节点,以完成我们的逻辑处理; Visitor则是主动遍历模式,需要我们显示的控制我们的遍历顺序...表达式的关键类。...可以看到代码3中parsePlan方法先执行parse方法(代码4),在代码4中先后实例化了分词解析和语法解析类,最后将antlr的语法解析器parser:SqlBaseParser 传给了代码3中的柯里化函数...,使用astBuilder转化为catalyst表达式,可以看到首先调用的是visitSingleStatement,singleStatement为语法文件中定义的最顶级节点,接下来就是利用antlr
运行期:从编译期中生成的符号表、类型表中获取数据,执行具体的代码逻辑。 访问 AST 对于刚才提到的编译期和运行期其实分别对应两种访问 AST 的方式,这也是 Antlr 所提供两种方式。...Listener 模式 第一种是 Listener 模式,就这名字也能猜到是如何运行的;我们需要实现 Antlr 所提供的接口,这些接口分别对应 AST 树中的不同节点。...接着 Antlr 会自动遍历这棵树,当访问和退出某个节点时变会回调我们自定义的方法,这些接口都是没有返回值的,所以我们需要将遍历过程中的数据自行存放起来。...https://github.com/crossoverJie/gscript/blob/main/resolver/type_scope_resolver.go Visitor 模式 Visitor...关键代码试下如下图: 第四步获取变量的值也是需要访问到 AST 中的字面量节点获取值即可,核心代码如下: 函数 函数的调用最核心的就是在运行时需要把当前函数中的所有数据入栈,访问完毕后出栈,这样才能实现函数退出后自动释放函数体类的数据
理论基础 ANTLR Antlr4是一款开源的语法分析器生成工具,能够根据语法规则文件生成对应的语法分析器。...现在很多流行的应用和开源项目里都有使用,比如Hadoop、Hive以及Spark等都在使用ANTLR来做语法分析。...ANTLR 语法识别一般分为二个阶段: 1.词法分析阶段 (lexical analysis) 对应的分析程序叫做 lexer ,负责将符号(token)分组成符号类(token class or token...ANTLR的语法文件,非常像电路图,从入口到出口,每个Token就像电阻,连接线就是短路点。 ?...().jackyExpression().get(0)) } 好了,到这里从逻辑计划处理就完成了,有了逻辑计划,就可以在后续物理计划中添加相应的处理逻辑就可以了(还没研究明白...
从源码的角度看: presto-main模块的execution包中SqlQueryManager的createQuery发起了Query操作, Antlr4工具具体分为lexer和parser,lexer...针对不同的statement将使用不用的statement实现类进行处理,在analyzer后将得到一个Analysis类的实例。...在相同的SubPlan(执行逻辑一样,数据split不通)中可以多个节点的task中并发执行。...在presto中的划分是依据logicalPlan逻辑执行计划树的PlanNode来决定的。...通过PlanFragMenter深度优先遍历逻辑执行树,使用visitor模式遍历到需要分段的节点则加入不同的subPlan。
从源码的角度看: presto-main模块的execution包中SqlQueryManager的createQuery发起了Query操作, Antlr4工具具体分为lexer和parser,lexer...是在presto-parser中定义,其中分词器: 1525596488_53_w554_h268.png 由于Antlr4是业内使用最多也是最成熟的方案,所以资料也非常多,这里就不赘述了,工具更多内容可参考...针对不同的statement将使用不用的statement实现类进行处理,在analyzer后将得到一个Analysis类的实例。...在相同的SubPlan(执行逻辑一样,数据split不通)中可以多个节点的task中并发执行。...在presto中的划分是依据logicalPlan逻辑执行计划树的PlanNode来决定的。
在该类中,每条规则都有对应的方法,除此之外,还有一些其他的辅助代码在后续的listener、visitor类中访问。...ZCubeParserVisitor.java Antlr提供了listener、visitor两种访问器,目前我们采用自定义更加灵活的visitor方式。...要想改变针对规则及当前访问点的执行数据,需要我们新建类来继承此父类,并覆盖其中的方法。保证修改点与生成点分离。 该表中是ANTLR生成的Java类以及每个类用途的具体介绍。...如果CriteriaActivity的模式匹配为False:则结束当前Path的匹配,返回Null【回到上一节点】,否则为True时:将该节点的Pass置为True,同时继续遍历该节点的Paths【重复...(3)如果To为AndActivity,遍历该节点所有的FromPaths,如果有一个为False:则返回Null【回到上一节点】,否则:如果每一个FromPaths的Passed都为true:则将该节点的
我根据一些Antlr4的语法规则,生成了对应的代码,并将输入内容丢进这些类,让它们吐出结果。在了解Antlr相关的语法规则时,让我特别震撼——类似于刚毕业一年时接触到DSL时的震撼。...保留字就是这个语言的关键字,比如SQL中的select,Java中的int等等,标识符就是你用于命名的文字。...比如public class Person中的Person,select f1 as f1_v2 from t1 中的f1,f1_v2,t1。...scanIden()识别标识符和关键字,并结束循环 case 0之后是X或x,或者1-9 调用scanNumber()识别数字,并结束循环 case , ; ( ) [ ]等字符 返回代表这些符号的...errors = visitor.getErrors(); 编译器其实分前端编译部分和后端编译部分的。
每一个树都被交给Enter类来进行处理,它会将所遇到的符号都输入到符号表中.这必须在分析树是否会引用这些符号前完成.这个阶段的输出是一个待办事项列表(TO DO list),包含需要分析并生成类文件的树...中,对于内部类,它们沿着树递归下降的输入到封闭范围。类符号被赋予一个成员对象作为完成符。...分析树和生成类文件的工作是由一系列visitor 执行的,这些访问者处理编译器的To Do列表上的条目。...唯一的要求是,To Do列表中的每个条目最终都应该由这些visitor来处理,除非由于错误而提前终止编译。...对于处理的每个类,Lower返回已转换的类及其所有已转换的嵌套类和内部类的树列表 虽然Lower通常处理顶级类,但它也将处理顶级的package-info.java。
领取专属 10元无门槛券
手把手带您无忧上云