前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >sql解析的一些计划

sql解析的一些计划

作者头像
哒呵呵
发布2018-08-06 15:02:39
6560
发布2018-08-06 15:02:39
举报
文章被收录于专栏:鸿的学习笔记

关于sql解析的一些概述: 因为最近在研究如何将oracle的sql语句迁移到hive上去,前期是准备写一些udf函数去弥补hive缺失oracle函数的遗憾, 其次会使用python开始开发一套轮子去实现转换。目前是实现了DDL建表语句的迁移,之后会慢慢不上DML的迁移。 目前的整体架构和一般的sql解析引擎无异,有如下几个部分: Catalog:这部分相当于字典表,使用了pyhs2去检查hive是否存在这张表,后续的话,应该也会利用pyhs2直接建表。 DDL_parser:现在只是实现了建表语句的互换 sql_parser:打算是正常的select语句,不支持insert语句。解析关键字,生成一棵树。主要是对oracle语句和hive语句的join做出处理,变成一个逻辑执行计划。 analyzer:将逻辑执行计划,重新组装成hive sql语句。 具体细节如下: 逻辑执行计划主要是树的数据结构,分为三种节点: 一元节点:主要是存放Project,Sort,Limit,Filter这四种操作。一个子节点 二元节点:主要是Except(也就是类似于not in),Intersect(也就是join,这里目测实现难度会最大),两个子节点 parser的设计: 对于传入的语句将\r\n\t这些都替换为空格,设为空格标识符。 对sql语句进行拆分,会使用stack的结构,处理子查询。 DDL的解析:对create和table进行匹配,create table设为DDL标识符。表名就是identifier,再就是匹配括号,将括号里面的语句进行处理转换成hive的语句。 其中特别提到的是数据类型的转换,通常来讲是会全部转成string类型,number会转成decimal类型。 sql_parser:会对里面的函数进行匹配,使用字典的形式去匹配,赋值相应的标识符。将相应的字段名,处理到keyword的执行计划中,放入树中。会处理oracle的一些特殊表示连接 的方式 analyzer:目前再将sql_parser的数再拼接回来,将oracle简写的sql语句变成hive的。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鸿的学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档