首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

antlr4入门篇

所有文字串的一个或多个字符的长度被包围在单引号如’;’,’if’,’>=’,和’\’(是指含有单引号字符的一个字符的字符串)。文字绝不包含正则表达式。...<= line 3:0 extraneous input ';' expecting {INT, ID} 如果主语法或任何导入的语法中存在模式,则导入过程将导入这些模式并在不覆盖它们的情况下合并其规则...ANTLR以深度优先的方式学习所有导入的语法。如果两个或多个导入的语法定义了规则r,则ANTLR会选择r它找到的第一个版本。...并非每种语法都可以导入其他所有语法: •词法分析器语法可以导入词法分析器,包括包含模式的词法分析器。•解析器可以导入解析器。•组合语法可以导入没有模式的解析器或词法分析器。...ANTLR在主词法语法中将导入的规则添加到规则列表的末尾。这意味着主语法中的词法分析器规则优先于导入的规则。

4.4K10

探究Presto SQL引擎(1)-巧用Antlr

规则prog 表示prog是一个或多个stat。 规则stat 适配三种子规则:空行、表达式expr、赋值表达式 ID’=’expr。...最后定义的是组成复合规则的基础元素,比如:规则ID: [a-zA-Z]+表示ID限于大小写英文字符串;INT: [0-9]+; 表示INT这个规则是0-9之间的一个或多个数字,当然这个定义其实并不严格。...Listener模式的访问栈清晰明确,Vistor模式是方法调用栈,如果实现出错有可能导致StackOverFlow。 通过这个简单的例子,我们驱动Antlr4实现了一个简单的计算器。...接下来图穷匕首见,展示出我们的真正目的:研究ANTLR4在Presto中如何实现SQL语句的解析。 支持完整的SQL语法是一个庞大的工程。...五、总结 本文基于四则运算器和使用SQL查询csv数据两个案例阐述了ANTLR4在项目开发中的应用思路和过程,相关的代码可以在github上看到。

2.2K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    探究Presto SQL引擎(1)-巧用Antlr

    规则prog 表示prog是一个或多个stat。 规则stat 适配三种子规则:空行、表达式expr、赋值表达式 ID’=’expr。...最后定义的是组成复合规则的基础元素,比如:规则ID: [a-zA-Z]+表示ID限于大小写英文字符串;INT: [0-9]+; 表示INT这个规则是0-9之间的一个或多个数字,当然这个定义其实并不严格。...定义ANTLR4规则需要注意一种情况,即可能出现一个字符串同时支持多种规则,如以下的两个规则: ID: [a-zA-Z]+; FROM: ‘from’; 很明显,字符串” from”同时满足上述两个规则...Listener模式的访问栈清晰明确,Vistor模式是方法调用栈,如果实现出错有可能导致StackOverFlow。 通过这个简单的例子,我们驱动Antlr4实现了一个简单的计算器。...接下来图穷匕首见,展示出我们的真正目的:研究ANTLR4在Presto中如何实现SQL语句的解析。 支持完整的SQL语法是一个庞大的工程。

    1.7K30

    Antlr4 语法解析器(下)

    基于IDEA调试Antlr4语法一般步骤: 1) 创建一个调试工程,并创建一个g4文件 这里,我自己测试用Java开发,所以创建的是一个Maven工程,g4文件放在了src/main/resources...Maven Antlr4插件自动生成(针对Java工程,也可以用于Gradle) 此处使用第一种方式 访问者模式遍历Antlr4语法树 java -jar /usr/local/lib/antlr-4.7.2...通过代码展示访问者模式在Antlr4中使用: public class App { public static void main(String[] args) { CharStream...访问者模式简单说就是会去遍历生成的语法树(针对语法树中每个节点生成一个visit方法),以及返回相应的值。我们接下来看看一条简单的select语句生成的树是什么样子: ?...通过观察这棵树,我们可以发现针对我们的SELECT语句,比较重要的一个节点,是querySpecification节点,实际上,在AstBuilder类中,visitQuerySpecification

    3.6K20

    Antlr4实战:统一SQL路由多引擎

    语句由词组组成,词组由子词组组成,子词组又由更小的子词组组成,依次类推。 语法 语法定义来语言的语义规则。语法中的每条规则定义来一种词组结构。...它以树状的形式表现编程语言的语法结构,树上的每个节点都表示源代码中的一种结构。...会为每条规则自动生成一个方法,并生产一个相应规则Context上下文对象,若为规则的备用选项添加标签,就必须全部添加标签,会自动为每个标签自动生成一个方法,并生成一个相应规则Context上下文对象,标签相当于方法来用...词法规则: 词法语法由词法规则组成,且可被分解成多个模式,词法规则不能包含参数,返回值或局部变量。词法规则名称必须以大写字母开头,与语法规则名称区别开来。...两者唯一区别:有时,语法分析器引入的tokens在词法分析器中没有发现,通常这是一个bug 实现访问器模式 继承HiveSqlBaseBaseVisitor返回类型为String类型

    10K41

    打破国外垄断,开发中国人自己的编程语言(1):编写解析表达式的计算器

    当然,还有更先进的超生态技术(UnityMarvel的Ori语言正是基于超生态技术的),总之,作为一种新的编程语言,利用其他的生态是最廉价的方式,当然,在语言发展的过程中,也可以逐渐建立自己的生态(相当于骑驴找马...在Ori语言中,拥有一些创新的语法,需要同时适应类似JavaScript的单线程模式和Java的多线程模式。因此,拥有多维度的想象力才是最终取得胜利的关键。 3....其实并没有grun这个东西,grun是一个别名,真实的工具在是antlr-4.8-complete.jar中的 org.antlr.v4.gui.TestRig类,在macOS或Linux下,可以使用alias...其实这两种遍历AST的方式的原理类似,都是遇到了一个节点,就会调用相应的回调方法,然后将必要的信息作为参数传入回调方法,用户可以在回调方法中完成代码生成、数据处理、中间代码优化等工作。...那么这些回调方法放在哪里呢?这就要说到前面创建的MyHelloVisitor类。

    2.4K40

    分布式sql引擎原理分析-逻辑执行计划生成

    Parser Parser的过程实际是一个把sql语句根据分词规则及语法规则再组装成基本AST的过程。当前大部分都是使用的Antlr4工具。...是在presto-parser中定义,其中分词器: 1525596488_53_w554_h268.png 由于Antlr4是业内使用最多也是最成熟的方案,所以资料也非常多,这里就不赘述了,工具更多内容可参考...将由依旧是根据visitor模式 RelationPlanner 生成RelationPlan后,在visitQuery中将使用QueryPlanner使用visitor模式来生成QueryPlan...的优化思路上最基本的分为基于规则和基于代价(rbo和cbo),基于规则是传统数据库积累的一套经验,指定一些规则,然后遍历逻辑执行树模式符合规则时则等价转换(AST转换)进行优化,比如谓词下推(Predicate...在相同的SubPlan(执行逻辑一样,数据split不通)中可以多个节点的task中并发执行。

    6.8K226

    分布式sql引擎原理分析-逻辑执行计划生成

    Parser Parser的过程实际是一个把sql语句根据分词规则及语法规则再组装成基本AST的过程。当前大部分都是使用的Antlr4工具。...SqlQuery的数据也即是DQL的数据通过SqlQueryExecution执行器被拉起。真正实现是doAnalyzeQuery方法中。...将由依旧是根据visitor模式 RelationPlanner 生成RelationPlan后,在visitQuery中将使用QueryPlanner使用visitor模式来生成QueryPlan...的优化思路上最基本的分为基于规则和基于代价(rbo和cbo),基于规则是传统数据库积累的一套经验,指定一些规则,然后遍历逻辑执行树模式符合规则时则等价转换(AST转换)进行优化,比如谓词下推(Predicate...在相同的SubPlan(执行逻辑一样,数据split不通)中可以多个节点的task中并发执行。

    1.1K20

    一文了解函数式查询优化器Spark SQL Catalyst

    Reference Overview Spark SQL的核心是Catalyst优化器,是以一种新颖的方式利用Scala的的模式匹配和quasiquotes机制来构建的可扩展查询优化器。 ?...SparkPlanner 优化后的逻辑执行计划OLP依然是逻辑的,并不能被spark系统理解,此时需要将OLP转换成physical plan 从逻辑计划/OLP生成一个或多个物理执行计划,基于成本模型...token,再根据一定语义规则解析为一个抽象语法树/AST。...然后在parsePlan过程中,使用AstBuilder.scala将ParseTree转换成catalyst表达式逻辑计划LogicalPlan。...RBO的优化策略就是对语法树进行一次遍历,模式匹配能够满足特定规则的节点,再进行相应的等价转换,即将一棵树等价地转换为另一棵树。

    3K20

    如何愉快地写个小parser

    我亲眼看见一个同事在费力地用perl一行行解析某个系统的数据文件,却压根没想到写个BNF。BNF对他来说,不是一种选择。」 很多同学不解,问我:lex/yacc不是写编译器 [1] 的么?...如果你经常使用函数式编程语言,你会发现,这种规则的撰写似曾相识。 bison使用的描述规则的语法是BNF的变体。 以下是编译和执行的结果,作为展示,我仅仅把语法树中我感兴趣的内容打印出来了: ?...从上面的编译过程里,你可以看到,flex/bison是一个C语言的DSL。因此,你可以在处理词法和语法的过程中嵌入C代码,处理(transform)你需要的结果。...我也是在撰写这篇文章的时候才接触antlr4,还在第一次亲密接触中。...但parsec可以。在parsec里,你可以从一个很细力度的parser写起,一路将其compose成一个非常复杂的parser。

    3.2K100

    Spark SQL源码研读系列01:ParseTree

    遍历模式Antlr4有两种遍历模式:Listener模式由Antlr提供的walker对象自动调用,而Visitor模式则必须通过显式的访问调用遍历其子级,如果忘记在节点的子节点上调用visit方法,意味着子树不会被访问...;Listener模式不能返回值,而Visitor模式可以返回任何自定义类型。...Antlr内建的树遍历器会去触发在Listener中像enterStat和exitStat的一串回调方法。?...小结通过parser返回一个context的树,ParserTree tree = parser.stat();visitor.visit(tree),在visit中调用context的accept方法...备注:ANTLR语法的学习,可以参考书籍《ANTLR权威指南》SQL解析Spark SQL通过Antlr4定义SQL的语法规则,完成SQL词法,语法解析,最后将SQL转化为抽象语法树。.

    1.2K20

    主要执行流程

    预备知识 先介绍在Spark SQL中两个非常重要的数据结构:Tree和Rule。...SparkSql的第一件事就是把SQLText解析成语法树,这棵树包含了很多节点对象,节点可以有特定的数据类型,同时可以有0个或者多个子节点,节点在SparkSQL中的表现形式为TreeNode对象。...): 两个表达式的和 x + (1 + 2) 在代码中的表现形式为:Add(Attribute(x), Add(Literal(1), Literal(2))) ?...而Rule则是应用在Tree上的规则,通过模式匹配,匹配成功的就进行相应的规则变换,若不成功则继续匹配子节点,如在Optimizer模块中有个常量累加的优化规则,通过该规则,可以将两个常量节点直接转化为值相加后的一个常量节点...可以看见先匹配第一个Add节点没有匹配成功,再匹配其子节点Add成功了。

    1.8K10

    用antlr解析odata filter条件表达式

    我最早接触antlr,是在刚开始工作后不久,那次需要用antlr实现一个功能:把gemfire的OQL(object query language)翻译成SQL语句,以便进行数据库操作。...一个很关键的点是状态机,在真正开始实现功能之前,需要根据具体问题的需求画一个状态机(个人觉得和状态图有些类似,或者说是状态图的一种形式),用状态机来描述哪些字符连一起可以构成哪种token,基于这个状态机就可以很方便的实现词法解析...其实,状态机在很多其它地方也有用途,比如:订单的状态变化,其实就可以用状态机来定义。...具体odata filter条件表达式的定义可以参考odata官方文档,这里为了描述问题方便,简化基本规则如下: 最小的表达式符合模式 key operator value 表达式和表达式可以用逻辑运算符连接成一个新的表达式...首先,有一种方案:利用关键字(比如eq, AND等)来split这个filter string,在比较简单的情况下也许这个方案可行,但是如果有表达式嵌套的情况(上面第三个例子),直接split string

    3.1K10

    JS常用设计模式解析02-策略模式

    这其实就是一个典型的策略模式,当我们在定义一个方法时,如果涉及到了太多的条件分支时,就应该思考一下,这些分支有没有必要定义在这个方法中。...不过实际业务中,策略模式并不只是封装算法,如果一系列业务规则指向目标一致,并且可以被互相替换使用,我们都可以用策略模式来封装它们。下面我们举几个策略模式的使用场景,让大家详细体会一下。 2....这要求我们在函数中将所有现阶段可能出现的规则都列出来,并且当未来对规则有删减或者改动时,都需要重新修改该方法逻辑,这样的方法在扩展性和可维护性上显然是不好的。...美中不足的是,如果我们要为一个输入框添加多个规则时,需要重复调用多次add。那么有没有办法,只用调用一次add就可以为输入框添加多种规则呢? 模式来消除众多的条件分支是利大于弊的。在JS中,使用策略模式有时是隐形的,不必要将策略放在特殊的类或者对象中,其策略往往是一个个单独的函数。

    81530

    元数据:跨引擎超完备字段级血缘关系解题方法

    字段逻辑问题排查,因一般模型划分主题或数据域,一个数据难免出现跨数据域数据,当数据消费者发现数据口径不准确无法清晰地是哪里出现问题,问题定位方法也是是从一个又一个冗长SQL代码脚步或任务层层血缘追溯排查...其次遍历到每个层级的字段,字段别名、所属源表(也包括子查询或其他),表所属数据库及集群,存储到一个Field字段对象,并构成一个字段对象集合 再次遍历逻辑字段LogicField(包含多个字段Field...对象之间的区别: LogicField对象和Field对象在同一层级,一个LogicField一对多个Field对象。...LogicField对象是Field对象的集合,含有多个Field对象(来自多个库多张表加工的字段)加工而成,LogicField对象会把多个Field对象字段、表名、表别名、数据库名遍历存放列表。...、Mysql等引擎同样可以使用此方法来字段级血缘解析,从而形成跨各种引擎的完备的字段级血缘关系网络,形成数据的一条“龙脉”。

    2.9K50

    日常运维|语法分析解析工具之ANTLR4(一)

    ANTLR 是一款强大的语法分析器生成工具,可用于读取、处理、执行和翻译结构化的文本或二进制文件。...1)下载,当前我下载的是antlr-4.9-complete.jar这个版本的jar包下载jar文件,下载地址参考官网或Github。...='java -jar [antlr-path] ',然后可以使用命令antlr4方式四:将上述命令写入/usr/local/bin目录下4)小测试步骤编写.g4文件antlr4 执行.g4文件自动生成...语法分析树监听器语法分析树访问器3.1 入门例子编写一个ArrayInit.g4文件// 定义文件,程序语言的名称必须同文件名称一致,都为ArrayInitgrammar ArrayInit;// 规则...ArrayInitParser(tokens); ParseTree tree = parser.init(); System.out.println(tree.toStringTree(parser));}在程序中执行

    1.3K20

    源码解析之Parser

    我们写的sql语句只是一个字符串而已,首先需要将其通过词法解析和语法解析生成语法树,Spark1.x版本使用的是scala原生的parser语法解析器,从2.x后改用的是第三方语法解析工具ANTLR4,...antlr4的使用需要定义一个语法文件,sparksql的语法文件的路径在sql/catalyst/src/main/antlr4/org/apache/spark/sql/catalyst/parser.../SqlBase.g4 antlr可以使用插件自动生成词法解析和语法解析代码,在SparkSQL中词法解析器SqlBaseLexer和语法解析器SqlBaseParser,遍历节点有两种模式Listener...该模式可以实现在不改变各元素的类的前提下定义作用于这些元素的新操作。SparkSql用的就是此方式来遍历节点的。...可以看到代码3中parsePlan方法先执行parse方法(代码4),在代码4中先后实例化了分词解析和语法解析类,最后将antlr的语法解析器parser:SqlBaseParser 传给了代码3中的柯里化函数

    2.5K31

    Spark SQL 整体介绍

    关系数据库中sql执行流程 那么在关系数据库中,当我们写完一个查询语句进行执行时,发生的过程如下: 整个执行流程是:query -> Parse -> Bind -> Optimize -> Execute...将SQL/Dataset/DataFrame转化成一棵未经解析(Unresolved)的树,在Spark中称为逻辑计划(Logical Plan),它是用户程序的一种抽象。...Analyzer有一系列规则(Rule)组成,每个规则负责某项检查或者转换操作,如解析SQL中的表名、列名,同时判断它们是否存在。通过Analyzer,我们可以得到解析后的逻辑计划。...注意在转化过程中,一个逻辑算子可能对应多个物理算子的实现,如join可以实现成SortMergeJoin或者BroadcastHashJoin,这时候需要基于成本模型(Cost Model)来选择较优的算子...在整个运行过程中涉及到多个SparkSQL的组件,如SqlParse、analyzer、optimizer、SparkPlan等等 hiveContext总的一个过程如下图所示 1.SQL语句经过HiveQl.parseSql

    8310

    Java设计模式之(二)——工厂模式

    需要说明的是:GOF 在《设计模式》一书中将工厂模式分为两类:工厂方法模式(Factory Method)与抽象工厂模式(Abstract Factory),将简单工厂模式(Simple Factory...有没有更优雅的写法呢? 有,就是下面要介绍的 工厂模式。 2.2 工厂方法(Factory Method) 为了解决上面的问题,我们可以为工厂类在创建一个工厂,也就是工厂的工厂,用来创建工厂类对象。...抽象工厂模式就是针对这种特殊的场景诞生,我们可以让一个工厂复制创建多个不同类型的对象,而不是只创建一个 parser 对象。...简单工厂:将创建不同对象的逻辑放在一个工厂类中。...工厂方法:将创建不同对象的逻辑放在不同工厂类中,先用一个工厂类的工厂类得到某个工厂,在某这个工厂来创建对象。

    34820
    领券