00:00
好了,同学们啊,那咱们接下来就来一起看一下咱们这个上硅谷大数据技术知识KB啊和咱们这个MDX这是一个插件,好吧,那我们先看一下咱们这个文档啊,咱们这个文档一共分为八个章节啊,第一章就是给大家简单介绍一下kding,第二章就是kding的一个环境搭建,就是带大家一起在这个虚拟机上面是吧?啊,咱们安装一下咱们的K,第三章就是K的一个快速入门的使用啊,第四章咱们介绍了一下咱们这个K的一个查询引擎啊,第五章给大家讲一下啊,咱们这个K点它的一个Q在构建的时候一个优化方式,那第六章就是一个查询的一个性能优化方式,好吧,第五第六章啊,稍微这个底层的一些,给大家讲一讲咱们这个点底层的一个优化方式方式啊,第七章是讲的是咱们这个K点的一个BI工具的一个集成。啊,最后一章讲示咱们这个FDX这么一个插件,那我们先来看第一章啊,我们来看一下这个kin的一个定义啊,阿法kin是一个开源的分布式分析引擎。
01:02
它提供了基于这个哈杜普或者是Spark啊,基础之上的一个circle查询接口啊,另外咱们这个K还支持一个基于o lap的一个多维分析这么一个能力。啊,并且啊,我的KLY还支持超大的数据规模啊,这么一个数据集最初是由咱们这个eBay这么一个公司,它的一个中国团队开发的,并且贡献给了阿帕奇开源社区,然后呢,咱们这个K点啊,它支持在亚秒内查询我巨大的一个哈国表,所以说啊,咱们刚才已经讲过了很多公司,那把它作为咱们的一个计息查询工具,好吧,那明白了这个kin的定义以后呢,你发现啊,在咱们整个文档里边有很多名词。啊,大家应该都没听过,就比如说咱们的一些cub啊,包括下边啊,还有一些别的词,那所以说啊,咱们在讲整个课程之前呢,大家打开我的这个资料,在我这个资料里边呢,有一个什么呀,咱们有一个前置概念啊,先给大家介绍一下啊,咱们这个学习K它的一些前置概念,好吧,啊,我接下来就打开这个PPT,我们一起来看一下啊。
02:09
首先咱们先来看一下咱们的一个K林术语啊,在讲这个K数据之前呢,给大家简单介绍一下啊,咱们的数立仓库这么一个概念,数立仓库的英文名字相信很多同学已经知道了,叫做data warehouse,这个就是数仓啊,数仓的英文名字,那数据仓库是个什么呀?数据仓库它是一个各种数据的。呃,中心存储系统,其中这个数据,它包含历史数据和这个当前数据,然后呢,咱们这个数据仓库是一个BI工具的一个核心部件啊,就是BI什么呀,就是这个business intellIgEnce叫做商业智能,或者叫做商务智能,就咱们这个数据仓库啊,它就是这个BI的一个具体实现,一个核心实现,好吧啊。那然后他就说了啊,这里边谈的这个数据它都有,都有什么数据啊,有各种数据,那有什么各种数据啊,就比如说哎,我们来自企业业务系统的订单,库存,交易账目,包括这个客户和这个供应商的啊,所有的这个数据,咱们都称之为各种数据,把这所有的数据给它汇集到一起,就组合成了咱们这个数据仓库的这么一个数据,好吧,啊,那再往下,哎,给大家介绍一下咱们这个商业智能啊,到底什么是BI啊。
03:23
这个商业智能啊,通常被理解为将企业中现有的数据我转化成知识。帮助这个企业做出明智的一个业务经营决策的工具。就是企业在经过多年的发展,它肯定有很多数据,那这些数据是杂乱无章的,是没有规律的。那我们这个大数据程序员,哎,就要根据这些数据哎。给他干嘛呀,给他做一个数据的分析,然后通过咱们分析的指标啊,帮助咱们这个公司,帮助咱们这个企业的老板做出这个明智的一一这个业务经营决策,像这个东西咱们就是就称之为商业智能,那为了将这些海量的数据转化成知识,那我们就需要利用数据仓库这些工具了,包括啊有数仓啊,有这个o lap的工具啊,包括这个数据挖掘等技术,其实还是三零事呗,就是采存算啊,先把这些海量数据给它采出来。
04:26
然后呢,存储一下,最后咱们再计算分析一下,好吧,这个是给大家复习了一下这个数仓的概念,那咱们再往下,哎,就到了咱们这个o lap了,在介绍数仓的时候,咱们强调了这个o lap叫联机分析处理,那我们接下来给大家讲讲到底什么叫做o lap,好吧,首先啊,O lap是四个。啊,是英文单词缩写三个啊,什么online analytical processing叫联机分析处理。它什么意思啊,它是一种软件技术,它能够使咱们这个分析人员能够迅速的,一致的、交互的从这个各个方面来观察咱们这个数据信息,从而达到深入理解这个数据的目的。
05:14
从各方面我都可以观察这个数据。说白了观察就是从什么呀,就是从这个不同维度来分析咱们这个数据,因此我这个o lap有的人也叫什么呀,也叫多维分析工具啊,就是多维分析嘛,那么就是称就是就称之为o lap。那光这样讲感觉太干了是吧,大家还是不理解什么是o lap,就给大家举一个简单的例子,你就比如说啊,我给大家放一下这个PPT啊,嗯。动画,哎,不是啊,开始,呃,放映从当前开始啊。就比如说啊,咱们现在有这么一张订单表。那这么一张表大家看一下啊,它有一个订单ID,有一个下单地区,下单品类,下单时间,然后呢,还有一个订单金额。
06:03
那现在让你分析这个订单金额总和的一个规律,就是需要从不同的维度去观察这个订单金额,那我们一共有哪些维度啊?哎,大家想想了一下是吧,我们因因为从单个来看,我们一共有三个维度,一个叫地区维度,一个叫品类维度,一个叫时间维度。那相信有的小伙伴已经算出来了。咱们这个东西涉及到一个公式,什么公式啊,就是那个就是那个多个维度两两组合,它一共的这个组合情况是不是咱们咱们在高中学过一个公式叫二项式定理,有一个二的N次方减一啊。就比如说咱们这个时候啊,咱们有三个维度,那我这三个维度任意组合,它一共几种组合,那它应该有二的三次方减一应该是七种,因为二的三次方是八嘛,八减有七种,那一共有哪七种啊,相信大家已经看到答案了,我们来放一下,首先你想分析这个订单金额,那我从这三个分类单独去看是可以的,这是我角度,一是地区维度。
07:10
我我想看一看我这单个地区一共的订单金额是我们是可以计算的,大家通过这个表是吧,按照这个下单地区,你给办我们萨一下这个订单金额就可以了。那除了这订单介绍以外呢,我还可以这个有品类,有时间,因此我这个角度123就是单独的一个品类,111个维度组合,那既然有单独的,那我们还有两两组合的,就比如说我的这个地区加品类,我想知道华北地区电子品类它一共的订单金额。那这个也可以也可以啊,那既然有两两组合,那因此我们又得了三个是吧,地区品类,地区时间,还有这个品类时间,那除了这个两两组合以外呢,我们还有第最后一种就是三个品类都有的,那就是地区品类加十年,因此啊,咱们一共有三个维度。
08:01
所以说我们这三个三个维度随机组合,一共组合成了七种维度组合,就有有这么七个情况,有这七种角度,我们都可以观察咱们这个订单金额。哎,那咱们明白这个以后呢,再给大家讲一下o lap它有什么类型,首先啊,这个o lap就是多维分析,它分为两两类,第一类叫r Mo lap,第二类叫mop,这个R全称什么呀?叫relational mop,就它是基于这个关系型数据库的一个o lap,它是不需要允许计算的。啊,就是它说白了底层还是二维表格,有有行有列,那我基于这些二维表格,我就可以做这个多维分析,我go by就可以了,就比如说咱们学的那个P,它就属于Mo,那咱们今天哎,还有什么呀,还有这个Mo,那这个什么意思啊,是什么more today missional是吧,多维分析的一个o lap。
09:03
那这个multi o lap什么意思啊?它就是基于这个多维数据集的这么一个op,它是需要予以计算的。这个能理解吧,啊,那咱们今天讲这个K,它就属于一个mop。啊,就提前给大家说啊,就咱们这个KLY属于Mo LA,你们之前学的那个P属于Mo lap,好吧,OK啊嗯,那既然大家明白了咱们这个K里它是属于这个mop,但是这块也告诉你们了,咱们这个Mo Mo lap是基于这个多维数据集的。因此咱们给他讲一个新的概念啊,就是这个o lap,它基于多维数据集,那我这一个多维数据集叫什么呀,咱们称之为一个o lap的Q部。啊,Cube这个词是吧,叫cube在这个英文单词里边叫什么意思啊,叫这个立方体啊,数据体就这个意思啊,那么接下来。
10:04
那我们明白了这个QB以后呢,大家想啊,咱们这么一个表,我我一共有一个QB,那我这个多维数据集有几种集合,大家刚才也分析过了,咱们是不是有七种组合,首先我单个的有七个,然后我两两组合的有三个,然后我三个的一会有一个三加三加一,一共有七个,那因此咱们这一个Q补就包含七个数据体。啊竖立题,你比如说哎,咱们在咱们在咱们通过这个表,你可以给它画一个画一个三维的空间坐标系是吧,我有这个横轴是这个地区,我这个竖的这么一轴叫品类,然后呢,还有一个Z轴,就是XYZ嘛,Z轴就是时间,那基于这个啊,那我就能表把这个订单金额给它表示出来。那这个大家要深刻理解一下好吧,那明白了这个QB以外呢,那咱们再往下给大家讲什么呀,给他讲一下这个q boy的,那这个q boy的。
11:02
又是个什么东西啊,大家思考一个问题啊,咱们刚才给大家看的这么一个图,大家要要要要想明白,咱们这一个图,它属于咱们的七个组合的一种啊,还是七种全部包含了呢?大家可以思考一下啊,咱们这么一个三维坐标。空间坐标系是吧,它是属于七种里边的一种组合,那属于哪一种组合呢?它属于那三个维度都有的组合,就比如说在这个图里边,我随便给你点一个块。那我们就以这个块为例,大家大家眼前看到的中间这个块儿,那这一个块它是什么样的数据啊,它属于西南地区食品品类,然后呢,二月份儿的订单总金额,因此大家要明白啊,咱们这么一个图,它指的。它指的可不是一个QB,它指的是什么呀?是一个QB里边的一个q boy的,你就比如说这么一张图,它属于咱们这个角度七这么一个角度的q boy的,就这么一种,就是这同就是一个角度的数据集合,咱们称之为q boy的,那我这七个q boy的加起来组合而成我这个Q5,大家要深刻理解一下咱们这个Q5跟q boy的。
12:28
就是我这所有的维度集合的数据组合,组合到一起,我称之为一个Q补,那我这每一种维度组合,我称之为一个q boy的,就是我这七个q boy的组合成了一个Q。大家把这个捋明白好吧,那捋明白了这个以后呢,那我们接着再往后看,咱们刚才有一个三维的,那到这儿有一个二维的,那这个二维的是怎么来的呢。二维大家可以看到,明显它只有品类跟这个地区这两种维度组合了,它没有这个时间了,大家可以思考一下这个二维是怎么来的呀。
13:06
大家思考了一会儿,应该能够想明白,咱们这个二维是通过这个三维把时间这个维度你纵向是吧,你从外向里,你给它拍扁,把咱们这整个时间维度这么一个轴,我给它拍扁聚合而成的二维,也就是什么意思啊,我基于这个二维坐标体系,对吧,我随便我随便选一个,我们还选这一个,好吧,它是指的是什么呀?它指的是。西南地区食品品类所有时间下的一个订单金额,所以说通过这个大家应该能够想明白,咱们这个二维是通过三维给他拍扁得来的啊,拍扁得来的。那我们明白了这个二维以后呢,我们还有一个一维,那这个一维这是怎么来的呀,是通过这个二维再给他拍扁得来的,你就比如说我们基于品类跟地区这两个维度是吧,我把品类这个维度从上到下,我再给他拍,拍成了一条线,那这样一来,那咱们这三个画就分就只有一个维度了,那就只有地区这么一个维度了,那就比如说我随便选一个画是吧,那咱们中间这个画,那它就是西南地区所有品类,所有时间的这么一个订单金额。
14:16
因此你会发现是吧,我们这个,我们这个是什么?我们这个立方体就是这个块能够拍成面是吧?这是由块给它拍成面,然后这个面能够拍成线。大家应该能够想明白是吧,那如果说给他扩充一下,那我这个线再给他拍呢,我线是不是还可以拍成点呢。那我把这一条线再给你拍成一个点,大家可以思考一下,那这个时候我是属于什么维度啊。哎,对,你们回答的非常正确,它属于零为,如果说你把这个块给它拍成了面,面拍成了线,线再给它拍成点,那这个时候你得到的就是所有维度的这么一个组合,不是所有维就是没有维度的这么一个组合,什么意思啊,就是我基于我这整个表,我把我这整个表的所有的订单金额我加起来,加上一个数字,那这个数字就是我那个点。因此,哎,讲到这儿,很多小伙伴仿佛是打开了新世界大门,他明白啊,原来咱们这些维度可以组合成这种立方体,这种数据立方体来做这个计算,做这个分析和计算这个东西,它的这个思想非常重要,它就称之为咱们的QB和QB,也就是说这个数据立方体就出来了。
15:37
而咱们马上讲这个kding就是全程基于这个cube来做的,好吧,啊,那明白这个以后,那我们那那我们再往下是吧,给大家回顾一下,咱们在这个数仓项目里边讲的这个模型,就比如说什么新型模型啊,大家应该知道还记得什么新型模型吗?新型模型是由一张事实表。哎,还有什么呀,还有多张维度表组合而成的一个模型,之所以叫做星形模型,是因为它这个维度表周围没有子表啊,咱们就称为星形模型,那这个咱就不说了,好吧,那再往下在这个新型模型里边,咱们有这个实时表跟这个维度表,那中间这个订单表咱们就称之为实时表,那周围的这些子表,就比如说地区表啊,品类表和这个时间表,咱们称之为维度表啊,因为在这个K里边,它也。
16:26
它也有这个事实表跟这个维度表的分类,所以说咱们给大家回顾一下好吧,啊,那再往下,那我们这个事实表里边这个字段还分为两种,大家应该还记得吧,第一种叫维度外键ID,就是维度字段,第二种叫度量值啊,也就是咱们这个定单径额,它属于度量值字段,就咱们咱们咱们要把这个把把这些数加到一起的这个字段,咱们称之为度量值字,那前面这些维度字段呢,就是维度ID字段,就是维度字段好吧啊。维度就是分析数据的这么一个角度,那度量呢,就是被分析的一个指标数据,一般这个度量值都是可加类型的数字啊。
17:08
那这样一来啊,咱们kding的一个前置概念就给大家讲明白了啊,这个概念是吧,如果学过数仓的听起来应该比较清楚,如果没有学过收藏的小伙伴,你听起来应该是有很多新东西,好吧,需要你深刻的理解一下,那就算你学过收仓而没学过kidding,那在我讲这个数据立方体的时候,希望也能够帮你打开这个新世界大门,那你明白咱们这个数据有的时候是可以这么去分析的,OK,那咱们这个kidding的前置概念。就给大家讲到这儿啊。
我来说两句