前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Apache Kylin目录详解

Apache Kylin目录详解

作者头像
create17
发布2019-04-17 15:21:47
1.3K0
发布2019-04-17 15:21:47
举报
文章被收录于专栏:大数据实战演练

每一个成功人士的背后,必定曾经做出过勇敢而又孤独的决定。

放弃不难,但坚持很酷~

一、Kylin二进制源码目录解析

  • bin: shell 脚本,用于启动/停止Kylin,备份/恢复Kylin元数据,以及一些检查端口、获取Hive/HBase依赖的方法等;
  • conf: Hadoop 任务的XML配置文件,这些文件的作用可参考http://kylin.apache.org/docs/install/configuration.html
  • lib: 供外面应用使用的jar文件,例如Hadoop任务jar,JDBC驱动,HBase coprocessor 等.
  • meta_backups: 执行 bin/metastore.sh backup 后的默认的备份目录;
  • sample_cube 用于创建样例 Cube 和表的文件。
  • spark: 自带的spark。
  • tomcat: 自带的tomcat,用于启动Kylin服务。
  • tool: 用于执行一些命令行的jar文件。

二、HDFS 目录结构

Kylin 会在 HDFS 上生成文件,根目录是 “/kylin” (可以在conf/kylin.properties中定制),然后会使用 Kylin 集群的元数据表名作为第二层目录名,默认为 “kylin_metadata”。

通常,/kylin/kylin_metadata目录下会有这么几种子目录:cardinality, coprocessor, kylin-job_id, resources, jdbc-resources.

  1. cardinality:Kylin 加载 Hive 表时,会启动一个 MR 任务来计算各个列的基数,输出结果会暂存在此目录。此目录可以安全清除。各个列的基数计算如下图所示:
  1. coprocessor:Kylin用于存放HBase coprocessor jar的目录;请勿删除。
  2. kylin-job_id:Cube 计算过程的数据存储目录,请勿删除。 如需要清理,请遵循 http://kylin.apache.org/cn/docs/howto/howto_cleanup_storage.html。在构建Cube过程中,会在该目录下生成中间文件,如下图所示:

如果cube构建成功,该目录会自动删除;如果cube构建失败,需要手动删除该目录。

  1. resources:Kylin 默认会将元数据存放在 HBase,但对于太大的文件(如字典或快照),会转存到 HDFS 的该目录下,请勿删除。如需要清理,请遵循 http://kylin.apache.org/cn/docs/howto/howto_backup_metadata.html.
  2. jdbc-resources:性质同上,只在使用 MySQL 做元数据存储时候出现。

执行Kylin官方自带的sample.sh文件,会将数据都临时加载到/tmp/kylin/sample_cube文件中,等到脚本执行完毕,会将该目录删除。

三、Zookeeper存储

Kylin启动成功后,会在Zookeeper中注册/kylin的Znode节点,里面包含job_enginecreate_htable的Znode节点,其中create_htable与HBase服务有关。

四、Hive表

Kylin的数据来源于Hive数据库。在构建cube的时候,会在Hive数据库中生成中间表,如果cube构建成功,中间表会被删除;如果cube构建失败,中间表就会被遗留在Hive中,需要手动执行命令清理。

五、HBase表

kylin中有大量的元数据信息,包括cube的定义,星状模型的定义、job的信息、job的输出信息、维度的directory信息等等,元数据和cube都存储在hbase中,其中元数据默认存储在hbase的kylin_metadata表里面,存储的格式是json字符串。

当清理/删除/合并cube时,一些HBase表可能被遗留在HBase表。如果需要清理,请咨询:

http://kylin.apache.org/cn/docs/howto/howto_cleanup_storage.html


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据实战演练 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、Kylin二进制源码目录解析
  • 二、HDFS 目录结构
  • 三、Zookeeper存储
  • 四、Hive表
  • 五、HBase表
相关产品与服务
TDSQL MySQL 版
TDSQL MySQL 版(TDSQL for MySQL)是腾讯打造的一款分布式数据库产品,具备强一致高可用、全球部署架构、分布式水平扩展、高性能、企业级安全等特性,同时提供智能 DBA、自动化运营、监控告警等配套设施,为客户提供完整的分布式数据库解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档