Apache Kylin是一个开源的大数据分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力(可以把Kylin定义为OLAP on Hadoop)。Apache Kylin于2015年11月正式毕业成为Apache基金会(ASF) 顶级项目,是第一个由中国团队完整贡献到Apache的顶级项目。
Apache Kylin作为OLAP引擎包含了从数据源(Hive/Kafka等)获取源数据,基于MapReduce构建多维立方体(Cube),并充分利用HBase的列式特性来分布式的存储立方体数据,提供标准SQL解析与查询优化,以及ODBC/JDBC驱动及REST API等多个模块。可插拔的灵活架构,允许支持更多的数据源接入Kylin,也支持采用其它技术作为存储引擎。
Kylin的工作原理
Kylin的核心思想是预计算,即对多维度可能用到的度量进行预计算,将计算好的结果保存到Cube并写入到HBase中,这样在查询的时候直接查询HBase即可。Kylin拥有很好的快速查询能力和高并发处理能力,原因是kylin将高复杂度和多表连接操作转换成预计算结果的查询。
Kylin的一个主要特点之一就是 空间换时间。
kylin的计算逻辑:
介绍两个kylin中的两个概念:cube和cubeid
Cubeid:kylin中将维度任意组合成为一个cubeid
Cube :kylin中将所有维度组合为一个cube,即包含所有的cubeid
如上图:
假设我们有4个dimendisons(time,item,location,supplier),这个cube中每个节点都是这4个dimension的不同组合,每个组合定义了一组分析的dimension,meature的聚合结果就保存在cubeid中,查询时根据sql找到对应的cubeid。读取meature的值,返回即可。
kylin组件介绍
kylin架构体系
kylin通常从hive中读取数据源,使用mapreduce作为cube构建引擎(目前也支持spark 不过是beta版本),并把预计算结果保存在HBase中,对外暴露Restful API/JDBC/ODBC的查询接口。kylin支持标准的ANSI SQL ,所以可以和常用分析工具(如superset,Excel等)进行无缝连接。
kylin模块架构图:
1 ):数据源Hadoop /Hive
上面也说到,kylin通常从hive中读取数据,使用mr进行预计算,kylin获取的表时星型结构的,也就是包括一张事实表和多张唯独表,如果遇到业务场景比较复杂,那么可能就要考虑在Hive中先进行一些处理,比如宽表或者视图(后面会在优化篇章中进一步讲到)。
2 ):存储模块HBase
HBase时kylin中用来存储OLAP分析的Cube数据的地方,实现多维数据集的交互查询
3 ):Kylin内部核心模块
REST Server :提供了Restful 接口,通过restfule接口我们可以很方便的对kylin进行一些操作,比如:创建cube,获取元数据信息,动态配置等。
Query Engine :kylin使用开源的框架calcite来进行sql解析,calcite实现的功能是提供了JDBC Interface ,接收用户的查询请求。然后转换为逻辑执行计划
Routing :负责将解析Sql生成的执行计划转换成Cube缓存的查询,Cube是通过预计算缓存在HBase中,这部分是在秒级甚至毫秒级完成的
Metadata:Kylin中包含了大量的元数据信息,包括cube的定义,星型模型的定义,job的执行和输出信息,模型的维度信息等。kylin的元数据信息和cube信息都存储在hbase中
cube build engine :这个是所有模块的基础,主要负责kylin预计算中创建cube,创建的过程首先通过hive读取原始数据,然后通过一些mapreduce/spark计算生成Htable,最后将数据load到HBase表中。
4):kylin对外接口
kylin对外提供了REST API 和 JDBC/ODBC,从而方便第三方web和基于sql的BI工具接入,比如superset,power bi等。
kylin提供的JDBC驱动的classname为org.apache.kylin.jdbc.Driver, url前缀为jdbc:kylin:;使用jdbc接口和使用restful接口走的流程是相同的
kylin的特性和生态圈
- 可扩展超快OLAP引擎:
Kylin是为减少在Hadoop上百亿规模数据查询延迟而设计
- Hadoop ANSI SQL 接口:
Kylin为Hadoop提供标准SQL支持大部分查询功能
- 交互式查询能力:
通过Kylin,用户可以与Hadoop数据进行亚秒级交互,在同样的数据集上提供比Hive更好的性能
- 多维立方体(MOLAP Cube):
用户能够在Kylin里为百亿以上数据集定义数据模型并构建立方体
- 与BI工具无缝整合:
Kylin提供与BI工具,如Tableau,的整合能力,即将提供对其他工具的整合
- 其他特性:
- Job管理与监控
- 压缩与编码
- 增量更新
- 利用HBase Coprocessor
- 基于HyperLogLog的Dinstinc Count近似算法
- 友好的web界面以管理,监控和使用立方体
- 项目及立方体级别的访问控制安全
- 支持LDAP
kylin生态圈
Kylin 核心: Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,查询引擎,Job引擎及存储引擎等,同时包括REST服务器以响应客户端请求
扩展: 支持额外功能和特性的插件
整合: 与调度系统,ETL,监控等生命周期管理系统的整合
用户界面: 在Kylin核心之上扩展的第三方用户界面
驱动: ODBC 和 JDBC 驱动以支持不同的工具和产品,比如Tableau
资料参考:
http://kylin.apache.org/cn/
书籍:基于kylin构建大数据分析平台