首页
学习
活动
专区
工具
TVP
发布

大数据Kylin(六):Kylin构建Cube算法

Kylin构建Cube算法Kylin中Cube的思想是用空间换时间, 通过预先的计算,把索引及结果存储起来,以换取查询时候的高性能。...在Kylin v1.5以前,Kylin中的Cube只有一种算法:layered cubing,也称逐层算法,它是逐层由底向上,把所有组合算完的过程。...Kylin v1.5以后,推出Fast Cubing,也称快速数据立方算法,是一个新的Cube算法。...三、​​​​​​​​​​​​​​算法选择用户无需担心使用什么算法构建cube,Kylin会自动选择合适的算法。...在对上百个Cube任务的时间做统计分析后,Kylin选择了7做为默认的算法选择阀值(参数kylin.cube.algorithm.auto.threshold):如果各个Mapper的小Cube的行数之和

58251
您找到你想要的搜索结果了吗?
是的
没有找到

Kylin垃圾清理

4:已经过时的Cube构建的日志和任务历史 kylin 本身提供了如何清理垃圾数据的操作,在这里要注意一点就是元数据的清理要做好备份准备,同时kylin也提供了元数据备份的操作。...一 :kylin 元数据的清理 元数据主要包括无用的字典,表的快照等无用信息,可以通过下面的命令来查看和清理无用的元数据 1):检查元数据(这个命令只是一个查询,不会对kylin做其它操作,是安全的).../metadata.sh restore $KYLIN_HOME/metadatabackup/metadata_xx_xx_xx 二 :清理存储器数据 kylin在构建Cube过程中会在HDFS上生成中间数据...1):列出kylin 存储在hdfs上面的所有中间数据,也可以认为是可删除数据 ${KYLIN_HOME}/bin/kylin.sh org.apache.kylin.storage.hbase.util.StorageCleanupJob...(我这里已经执行删除过了,所以是空的) 2 ):执行删除操作 ${KYLIN_HOME}/bin/kylin.sh org.apache.kylin.storage.hbase.util.StorageCleanupJob

1.5K20

kylin简单优化cube

请注意,在Kylin中,如果您选择FK为维度,相应的PK将自动排队,无需任何额外费用。...文件合并     如果启用了Hive的文件合并,你可以在conf/kylin_hive_conf.xml里关闭它,因为Kylin有自己合并文件的方法(下一节):     <name...);" 首先,Kylin计算出中间表的行数,然后基于行数的大小算出重新分发数据需要的文件数。...如果你观察到reducer数目较小且性能较差,你可以将“conf/kylin.properties”里的以下参数设小一点,比如: kylin.hbase.region.cut=2 kylin.hbase.hfile.size.gb...总结 基于kylin的ui,可以看到kylin在构建cube时各个流程的耗时,可以依据这些耗时做相应的优化,常见的,可以从耗时最长的步骤开始优化,比如: 遇到创建hive中间表时间很长,考虑对hive表进行分区处理

67120

Kylin的技术框架

kylin主要是对hive中的数据进行预计算,利用hadoop的mapreduce框架实现。...kylin的出现就是为了解决大数据系统中TB级别数据的数据分析需求 如上图所示,Kylin从Hadoop Hive中获取数据,然后经过Cube Build Engine,将Hive中的数据Build成一个...组件: 核心组件:Kylin的OLAP引擎框架包括元数据引擎、查询引擎、作业引擎、存储引擎以及用来处理客户端请求的REST服务器 元数据管理工具(Metadata Manager): Kylin是一款元数据驱动型应用程序...Kylin还能够通过扩展实现对其它键-值系统的支持,例如Redis REST Server: REST Server是一套面向应用程序开发的入口点,旨在实现针对Kylin平台的应用开发工作。...我们的目标是让用户能够更为顺畅地采用这套Kylin平台 jdbc驱动程序:kylin提供了jdbc的驱动,驱动的classname为org.apache.kylin.jdbc.Driver,使用 的url

49240
领券