Kylin的入门实战

1. 基于Kylin的预警分析

1.1. Kylin简介

  1. Kylin的诞生背景

1.Kylin 是一款大数据OLAP引擎,由ebay-中国团队研发的,是第一个真正由中国人自己主导、从零开始、自主研发、并成为Apache顶级开源项目

2.Hive的性能比较慢,支持SQL灵活查询

3.HBase的性能快,原生不支持SQL

4.Kylin是将先将数据进行预处理,将预处理的结果放在HBase中。效率很高

1.2. 为什么要使用Kylin

Kylin 是一个 Hadoop 生态圈下的 MOLAP 系统,是 ebay 大数据部门从2014 年开始研发的支持 TB 到 PB 级别数据量的分布式 Olap 分析引擎。其特点包括:

1.可扩展的超快的 OLAP 引擎

2.提供 ANSI-SQL 接口

3.交互式查询能力

4.MOLAP Cube 的概念(立方体)

5.与 BI 工具可无缝整合

1.3. Kylin的应用场景

Kylin 典型的应用场景如下:

1.用户数据存在于Hadoop HDFS中,利用Hive将HDFS文件数据以关系数据方式存取,数据量巨大,在500G以上

2.每天有数G甚至数十G的数据增量导入

3.有10个以内较为固定的分析维度

Kylin 的核心思想是利用空间换时间,在数据 ETL 导入 OLAP 引擎时提前计算各维度的聚合结果并持久化保存

1.4. Kylin的总体架构

Kylin 依赖于 Hadoop、Hive、Zookeeper 和 Hbase

2. Kylin启动

2.1. 启动集群

1、启动zookeeper

(1) zkServer.sh start

2、启动HDFS

(1) start-all.sh

3、启动YARN集群

4、启动HBase集群

start-hbase.sh

5、启动 metastore

nohup hive --service metastore &

6、启动 hiverserver2

nohup hive --service hiveserver2 &

7、启动Yarn history server

mr-jobhistory-daemon.sh start historyserver

8、启动spark history server【可选】

sbin/start-history-server.sh

9、启动kylin

./kylin.sh start

10、登录Kylin

http://node01:7070/kylin

url

http://IP:7070/kylin

默认用户名

ADMIN

默认密码

KYLIN

用户名和密码都必须是大写

3. Kylin实战 - 使用Kylin进行OLAP分析

3.1. 测试数据表结构介绍

1、(事实表)dw_sales

列名

列类型

说明

id

string

订单id

date1

string

订单日期

channelid

string

订单渠道(商场、京东、天猫)

productid

string

产品id

regionid

string

区域名称

amount

int

商品下单数量

price

double

商品金额

2、(维度表_渠道方式)dim_channel

列名

列类型

说明

channelid

string

渠道id

channelname

string

渠道名称

3、(维度表_产品名称)dim_product

列名

列类型

说明

productid

string

产品id

productname

string

产品名称

4、(维度表_区域)dim_region

列名

类类型

说明

regionid

string

区域id

regionname

string

区域名称

3.2. 导入测试数据

为了方便后续学习Kylin的使用,需要准备一些测试表、测试数据。

1.Hive中创建表

2.将数据从本地文件导入到Hive

操作步骤

1、使用 beeline 连接Hive

!connect jdbc:hive2://node01:10000

2、创建并切换到 itcast_dw 数据库

create database itcast_dw;use itcast_dw;

3、创建测试数据文件夹,并将测试数据文件上传到该文件夹中

mkdir -p /export/servers/tmp/kylin

将“4.资料> 02.Kylin> 4.kylin_实战_hive_建表语句> 数据文件”中的数据上传至此目录

4、找到资料中的“4.资料> Kylin> 4.kylin_实战_hive_建表语句> hive.sql”文件,执行sql、创建测试表,并导入数据到表中

– 查看表是否创建成功show tables;

5、执行一条SQL语句,确认数据是否已经成功导入

select from dw_sales;

3.3. 按照日期统计订单总额/总数量(Hive方式)

操作步骤:

1、使用beeline连接Hive

2、切换到itcast_dw数据库

3、编写SQL语句

操作步骤:

1、使用beeline连接Hive

2、切换到itcast_dw数据库

use itcast_dw;

2、在代码目录中创建sql文件,编写SQL语句

select date1, sum(price) as total_money, sum(amount) as total_amount from dw_sales group by date1;

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!
本文分享自作者个人站点/博客:https://blog.csdn.net/xianyu120复制
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • Kylin快速入门系列(2) | Kylin的快速入门

    不温卜火
  • Apache kylin 入门

    本篇文章就概念、工作机制、数据备份、优势与不足4个方面详细介绍了Apache Kylin。

    用户1217611
  • Apache Kylin的入门安装

    我是攻城师
  • 快速学习-Kylin入门

    在Hive中创建数据,分别创建部门和员工外部表,并向表中导入数据。 (1)原始数据

    cwl_java
  • Kylin快速入门系列(1) | Kylin的简单介绍及安装部署

      Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eB...

    不温卜火
  • Kylin快速入门系列(5) | 如何使用JDBC连接操作Kylin

    可以发现与在页面上进行查询返回的结果是一样的,说明我们使用JDBC连接操作Kylin就成功了。

    不温卜火
  • Kylin快速入门系列(6) | 如何通过Zepplin来访问Kylin服务

    不温卜火
  • Apache Kylin 入门介绍与学习资源

    近日 Kylin v2.6.4 版本发布,包含很多问题修复与各种改进。翻阅三年前写的Kylin测试文档,当时版本还是1.5.3。近两年 Kylin 版本迅速迭代...

    大数据技术架构
  • Apache Kylin 入门介绍与学习资源

    近日 Kylin v2.6.4 版本发布,包含很多问题修复与各种改进。翻阅三年前写的Kylin测试文档,当时版本还是1.5.3。近两年 Kylin 版本迅速迭代...

    ICT售前新说
  • Kylin快速入门系列(4) | Cube构建优化

    上一篇博文我们已经介绍过,在没有采取任何优化措施的情况下,Kylin会对每一种维度的组合进行预计算,每种维度的组合的预计算结果被称为Cuboid。假设有4个维度...

    不温卜火
  • Kylin快速入门系列(3) | Cube构建原理

      我们知道,一个N维的Cube,是由1个N维子立方体、N个(N-1)维子立方体、N*(N-1)/2个(N-2)维子立方体、…、N个1维子立方体和1个0维子...

    不温卜火
  • 大数据开发:OLAP分析引擎Apache Kylin入门

    在OLAP分析引擎领域,Apache Kylin可以说是一个重要的成员,相比于大规模并行处理指导思想下的Hive、Presto等组件,Apache Kylin采...

    成都加米谷大数据
  • 【硬刚Kylin】Kylin入门/原理/调优/OLAP解决方案和行业典型应用

    现今,大数据行业发展得如火如荼,新技术层出不穷,整个生态欣欣向荣。作为大数据领域最重要的技术的 Apache Hadoop 最初致力于简单的分布式存储,然后在此...

    王知无-import_bigdata
  • Kylin的技术框架

    kylin是一个MOLAP系统,通过预计算的方式缓存了所有 需要查询的的数据结果,需要大量的存储空间(原数据量的10+倍)。一般我们要分析的数据可能存储在关系数...

    美食江湖
  • 这么有趣的Kylin入门实操,你值得一试!

    上一篇博客已经为各位朋友带来了Kylin的简介以及安装部署(?第一个"国产"Apache顶级项目——Kylin,了解一下!)。本篇博客,博主为大...

    大数据梦想家
  • 大数据学习过程中需要看些什么书?学习路线

    很多朋友对大数据行业心向往之,却苦于不知道该如何下手。作为一个零基础大数据入门学习者该看哪些书?今天给大家推荐一位知乎网友挖矿老司机的指导贴,作为参考。

    用户2292346
  • Superset之安装Kylin的插件

        最近需要将Superset和kylin整合,在Superset中能看到Kylin的数据,自己记录下。

    克虏伯
  • Apache Kylin的实践与优化

    从2016年开始,美团到店餐饮技术团队就开始使用Apache Kylin作为OLAP引擎,但是随着业务的高速发展,在构建和查询层面都出现了效率问题。于是,技术团...

    美团技术团队
  • 大数据实战【千亿级数仓】阶段五

    本篇博客,为大家带来的是关于大数据实战【千亿级数仓】阶段五的内容。

    大数据梦想家

扫码关注腾讯云开发者

领取腾讯云代金券