00:00
好,那在我们进一步学习麒麟之前,我们先来补充一些麒麟当中的核心的概念啊,来这儿有一个PPT,我们一起来看一下,我先给它放映一下啊好,我们一起来看啊,我们先看第一个概念,第一个概念是不是就是data warehouse数据仓库啊,对吧?这个数仓的概念咱们不用再多说了吧?啊,因为麒麟啊,它与数仓是紧密相关的,你其实可以看一下麒麟官网是怎么去定义的啊,大家来看一下这一个什么东西。是不是analytical data warehouse for big data呀,对吧?从这儿我是不是能看出来麒麟与数据仓库是息息相关的呀,对吧?啊,那所以说在这我们首先得先搞清楚数仓的概念,那数仓的概念我们不用再多说了,咱们刚做完数仓项目对不对啊,那这儿有一个概念啊,咱们简单也看一眼吧,他说什么是数据仓库,是一个各种数据的中心存储系统啊,对吧?那这个各种数据呢,是不是包括历史数据和当前数据啊,对吧?那再往后走,那是BI,这个也就是business intellIgEnce,商业智能的核心部件。啊,是这样的啊,那这个BI又是什么东西呢?我们往下看啊,所以BI呢,就是商业商务智能或商业智能,对吧,那一句话来说就是啥啊,就是商业智能呢,通常被理解为将企业中现有的数据转化为知识。
01:09
对不对,那然后呢,帮助企业做出明智的业务经营决策的一个工具啊,这就是BI对吧?OK,那这里面呢,有一个关键点,什么关键点呢,是不是将数据转化为支持啊,对吧,那怎么能够转化呀。怎么转呀?诶有同学提到了一个报表对吧,但是报表呢,能不能做也可以,但只是他只是能够去,呃做一些简单的工作,对吧?啊,那我我为了将数据转化成更加有价值的知识,或者说我从数据里边去挖掘更有价值的信息,你得怎么办呢?是不是得借助一些手段啊,或者借助一些工具,对不对,那用什么呢?我往下看。来大家看,那为了将数据转化为知识呢,我们需要利用到数据仓库,需要用到联机分析处理啊,以及数据挖掘等技术啊,那首先仓肯定得有。对吧,你要想将数据转换知识,首先得有个地方是保存或和管理数据,对不对,那这就是是不是就是收藏,这个咱不多说,然后看后边,后边呢,有一个联机分析处理,联机分析处理它后边是不是有括号,里边写的是o lap啊对不对,刚才我们在麒麟的文档当中是不是也看到了,呃,是不是有一个什么多维分析,后边扩的也是orp,那这几个概念之间到底啥关系啊,那一会儿咱们再说,那一会再说,那也就是说这个所谓的orp呢?诶是我们将数据转化为知识的一种手段或者一种技术。
02:31
对不对,那有了它哎,我们就能够去,呃,其实说白了就是一种分析数据的一个方式啊,说白了就是分析数据的一个方式啊,这就所谓的RVP啊,那一会我们再详细的说啊,那除此之外呢,还可能有什么呢?比如说还会有诶数据挖掘等等的这样的一些技术啊,这样当然数据挖掘呢,这个要求要高一些啊对吧,数学得好,还得这个算法技术也得好,对不对啊啊,那现在呢,我们重点来看一下这个o lap来我们往下走。大家来看一下啊,Orp呢,它实际上是一个呃这个呃,英文的一个首字母啊,拼凑而成的or AP啊,哪几个呢,分别是online analytical processing是这样的啊,那直译过来就啥呀。
03:11
直译过来就是我们刚才看的这个联机分析处理对不对啊,是这样的啊,那它到底是什么东西呢?这个翻译跟不翻译其实没啥区别,翻译过来之后还是不知道它啥意思,对吧?啊,那现在我们看一下它通俗的理解啊,来一起看啊,那op呢?诶,它是一种软件技术啊,它能干什么啊,它能够使分析人员啊,迅速的,一致的交互的从各个方面观察信息。啊,从各个方面观察信息,那以达到深入理解数据的目的啊,是这样的啊,那从各个方面观察信息,那也是啥意思,其实也就是我们从不同的维度去分析数据啊,是这样的啊那所以说我们通常情况下呢,也管op称为多维分析,哎,这就是这几个概念之间的联系,Orp啊,联机分析处理多维分析,其实说的都是一回事,对吧?啊那说的就是啥?就是一种软件技术,这种软件技术能够干啥呢?能够让我们从各个方面去观察这个数据。
04:11
啊,是这样的啊啊,那当然这个概念说完之后,呃,感觉是能理解了啊,但但是实际上我们真正去做的时候,我到底应该怎样从各个方面观察信息呢,对不对,我到底怎样从不同的维度去分析数据呢?那这个可能还是想象不到啊,那所以接下来呢,我们来看一个例子啊,来大家一起来看一下。好,来看这儿啊,这个呢是一个比较简陋的一个订单表,比较简陋一个订单表,大家来看一下这张表每行数据是不是就是一订单对不对?那这里边呢,都有什么字段,简单看一下啊,首先有订单ID,下单地区,下单品类,下单时间,还有订单金额等等等,那这些字段大家能看出来吧,里边是不是有维度信息,有度量值对吧?啊,这个大家先先先搞清楚啊好,那接下来我们就往下走,那现在我们要做的工作就是啥呢?就是要对这个简陋的订单表当中的数据去做一个多维分析。
05:00
咱们就要对它做一个多维分析啊,那怎么去做这个多维分析呢?我们来看一下看,先看一下具体要求啊,大家看。他让我们从不同的角度去观察这个订单金额总和的规律。从不同的角度去观察订单金额总和的变化规律,诶,大家说我要想去,呃,从不同的角度去观察,我应该怎么观察呀?啊,咱们先不说怎么观察啊,咱们先来分析一个问题啊,什么问题,我们先来分析一下这个不同的角度,到底一共有几种角度。大家想想,你说应该有几种角度。好好想想,应该有几种,有同学说三种啊。有的人说四种到底应该是几种,刚才说了不同的角度是不是就是不同的维度啊,对吧,是这个是这个意思,是这个意思吧,对不对,哎,那这个到底几种呢。咱是几个维度啊,是不是三个维度,那是不是就是三种,是三种吗?不是对,你得考虑到这个组合对不对,没错吧,咱们中学的时候应该学过排列组合这个概念,对不对?那在这儿呢,我们到底应该几种啊,六七种啊,一看高中这个数学学的不咋样啊,应该是七种啊,这个七种分别是哪七种呢?大家一起来看一下。
06:18
应该是这七种,分别是地区品类时间,这是单个维度的,对吧,那下面呢,是两维的,呃,地区品类,地区时间,品类时间,还有地区品类时间,是不是一共这七种啊,对吧?为什么我们要从这七种角度去观察这个数据啊,因为你想一想,影响订单金额这个因素是不是不只有一个呀,对吧?我可能会同时由地区和时间去影响这个订单金额,比如举个例子啊,比如说东北地区,它可能到了冬天。对不对,它比较冷,它比较冷,它是不是这个,比如说这个棉服啊,或者一些取暖设备,它是不是卖的就比较好啊,对吧?啊,比如金额就高啊,是这样的,那与之对应的,你比如说南房,呃,南方是不是相对来说就没有那么多呀,对吧?所以有时候这个地区和时间诶,会同时去影响我们这个订单金额,就这个意思,所在这儿呢,大家理解一下就行了啊,所以我们要想全面的去观察数据,那就得从这样的几个角度去观察。
07:08
啊是这样的啊好,那这里边有没有什么规律呢?这个是其中,那假如说我这我我以后我要去分析一个其他的问题,那它的角度应该有多少个呢?这里边有没有什么规律啊。其他是有规律的啊,这个气它是怎么来的呀。其实这么来是有计算公式的,应该是啥啊对,应该是C31加上C32加上C33啊,这个三指的是啥呀?为什么是C3级,是不是一共有三个维度啊,对吧?相当于从三个里边拿一个,三个里边拿两三个,里边拿三个对不对,就这个意思啊,OKOK,那这里边其实这个东西咱们可以总结一下啊,那假如说我这儿一共有N个维度。一共有N个维度,那那我这个角度应该有多少个呢?CN1加CN2一直加到CNN对吧,那这个等于多少啊,等于二的N次方减一。
08:01
啊,这个其实就是咱们这个计算公式啊,这个N指的就是维度字段的个数啊,那你看你带进来是不是这么回事,二的三次方等于八八减一是不是等于七对吧?这个怎么来的啊,假然我就不给大家推了,你要是感兴趣的话呢,你可以使用那个二项式定理去推一下,还记得二式定理吗?A加B啊括起来N次方等于多少多少多少对不对?然后呢,你把这个呃,A和B都用一替换,都用一替换啊,都用一替换之后是不是得到就是二的N次方对不对,后边是不是就是CN1加CN2一直加加加加到CNN,最后还有一个什么,还有一个CN0对吧?CN0是不是我们不需要,不需要,是不是得减掉C0等于几?是不是就是一,是不是就二的N次方减一就等于CN1加到CNN啊,就这个意思啊,这个当然这个无所谓的啊,大家把这个公式记住就行了啊,当然这个公式你不记也没事啊,在这我之所以给大家说这个公式啊,我的目的不是为了修一把这个二项式定理哈,我的目的是什么呢?是想让大家知道啊。
09:00
就是我们观察这个数据的这个角度的个数是什么样的呀。是能够计算出来的,对不对,也就这个角度呢,我们是能够怎么样的,是能够穷举出来的,是是这个道理吧,你看我分析任何一个问题,我只要知道它的维度个数,它的维度个数肯定是有限的,维度个数是有限的,那我的这个观察问题的角度是不是就是有限的,没错吧?诶,那这就为我们的预计算提供了基础。是不是这个道理啊,对吧?预计算什么叫预算?前面说了,所以预计算呢,你需要在我发送查询请求之前把这个结果计算出来,那有同学可能会问了,你怎么知道我将来要发送什么查询呢?是这个道理吧,诶,那现在是不是这个问题应该就给你解答了呀,对吧,我不管你将来你你查询什么数据啊,你不管你查什么,我我是不是我都可以提前给你算出来呀,对吧?因为你查询的这个角度,我是能够提前穷举出来的,对不对,所以说我就不用关心你到底查啥了,我我你爱查啥啥,我都给你算出来,哎,我都算的时候,那你是不是查询的时候我肯定能拿到结果,就这个意思啊,那大家这块呢,一定要理解一下啊,好了,那这个咱们理解完之后,我们再继续往下思考啊,那现在我们就来一起分析一下,你说我这个多维分析到底怎么做。
10:12
对不对,那这个表给你摆在这儿了,角度也摆在这儿了,比如说我现在呢,就让大家去看一下啊,从地区品类这个角度去观察一下这个订单金额,你说你怎么观察。怎么观察?是不是就是看一看地区品类跟订单金额总和之间的关系啊,对吧,怎么去看呀。怎么去看?这个是不是就很很简单,怎么做是不是就写一个serve就搞定了,对吧?你就把它当做数据库当中的一张表对不对,我怎么做是不是select select from这张表对吧?那select什么字段呢?是不是就是地区品类some订单金额对不对?然后呢,是不是得分组格外地区品类,那这样一来咱是不是就能看到地区品类和这个订单金额总和之间的关系了,对吧?或者这个规律能理解吧?诶就是这么简单啊,就写S就能搞定啊,是这样的啊啊,那现在假如说我还想去分析一下这个地区品类食盐跟订单金额的关系,那怎么办?
11:09
是不是一样的写法,只不过分组字段改一下就行了,对吧,就是这样的啊,那也就是这其实就是我们一种多维分析的手段啊,那当然了,我们多维分析呢,不只有这一种方式,还有其他的方式,那还有啥呢?我们继续往下看。这块呢,有一个o lap的类型,那实际上2OP的类型总共目前为止是有三种啊有三种,那实际上第三种呢,是前两种的一个组合,那所以现在呢,我们就重点看一下前两种就行了啊前两种是哪两种呢?我们先看第一个啊,那第一个呢叫做RO lap。RO lap啊,那第二个呢,叫做Mo lap,诶这俩分别是啥意思呢?我们一个来看啊,先看第一个啊,第一个molap呢,指的是relational Mo lap。这个relation是不是就是关系型的意思能理解吧?啊,那也就是它是基于关系型数据库的,是这样的啊,那也就是说你要想做rop,那你的数据是以什么样的形式存在的呢?
12:09
就类似于我们关型数据库当中的那个库以及表,哎,通过这种形式存在啊,是这样的,一张一张的表,一张张表,那我们去分析的条就是怎么做,是不是写circle考,是是这个道理吧,诶,我写成circle考,然后呢,从对应的表里边去查询数据,然后进行相应的计算啊,那这种计算方式呢,它是不需要去做预计算的。啊,它跟预计算没关系,什么时候计算呢?是不是就得你把这个circle写完,Circle写完之后生成执行计划,然后去计算对吧?哎,就这个意思,这是RP,那像我们刚才做的是不是就是所谓的一个RP,对吧?这就是一张表,那我查询是不是就写S,就这个意思啊好,我们继续往下走。下边一种方式呢,我们叫做。Mop,什么叫做Mo?这个指的是啥?看看啊,是multi dimensional是不是多维的意思啊,对吧?那这个多维指的是啥?往下看啊,MRP呢,是基于多维数据集的啊,是基于多维数据集的啊,那什么叫做多维数据集呢?
13:10
这个是不是又是一个陌生的概念对吧?那一会儿呢,我会给大家去解释这个多维数据集的啊,然后往下走啊,那下边它的一个特点呢,就是需要进行预计算,那为什么2P是需要进行预计算的呢?哎,那其实这里边都跟谁有关,都跟这个多维数据集有关,只要大家把这个多维数据集的概念搞清楚了啊,那你就知道它为什么需要进行预计算了啊,那所以说接下来呢,我们就看一下这个多维数据集的概念来往后翻啊。好,大家一起来看这个啊,这个呢是o lapq吧,诶那我们刚刚不是要讲的是那个什么多维数据集嘛,对吧,你这怎么又蹦出来一个opq吧呢,其实呃,一会大家知道,其实这俩呢相对是同一个概念啊来我们一起来看一下。Mo呢,是基于多维数据集的,那一个多维数据集,我们称之为一个op,所以这俩是不是相同的概念啊,对吧?那所以接下来呢,我们就来看一下啊,那这个cube cube cube这个直译过来是什么意思?
14:08
是不是立方体方块的意思对不对啊,是这样的啊,OK,那接下来大家一起来看一下,我在这儿呢,给大家画了一个Q吧,来看看它长什么样啊,那首先大家来看这这个是不是还是我们刚刚所看的那个捡到的一个订单表啊,对吧?那接下来我们看一下后边。那这个呢,就是一个与之对应的olaq。大家看一下这个能不能看懂啊,这个Q吧,是不是看起来就像一个三维坐标系啊,对吧,里边诶每一个维度是不是代表的就是一个坐标对吧?有地区,有时间,有这个品类应该是能看懂的对吧?啊好,那现在我检查一下,看看大家是不是真的看懂了啊,看一下是不是真的看懂了,来给大家举个例子啊,比如看这。这是不是一个小方块儿,对不对,那大家说这一个小方块儿对应到我们左边这个订单表里边啊,你说它对应的是一条数据还是多条数据。好好想想。
15:01
好好想想啊,你先分析分析这一个小方块儿,在右边这个cube当中,它是什么含义。是几条,是一条还是多条,有同学说一条,有同学说有的同学是多条,对吧,那实际上应该是几条到底。多条。为什么多条啊,咱们来分析一下啊,来你分析一下,那刚才说了这个小方块儿啊,它在右边这个图当中应该是什么含义,是不是应该是东北地区。对不对,居家品类二月份儿的订单对不对,那你想居家品类东北地区二月份订单是不是应该有多个对不对,有多个是不是肯定对应的是左边的多条数据啊,所以这会儿大家一定要理解一下啊好,那我现在问一下大家,你想一下,我要想把左边这个表当中的数据给它存入到这个所谓的多维数据集当中,你说我需要做什么操作?是不是需要做聚合,没错吧,刚才说了这一个小块对应的是不是就是多条数据,多条数据到一条,是不是肯定是多进一出,是一个聚合的操作,是这个道理吧,那所以说诶,那我们把这个数据放在这儿是需要计算的,那其实这个计算的过程就是什么过程啊。
16:11
就是咱们提到那个所谓的预计算的过程啊,是这样的啊,那也就是说我们要想使用这种P,那我们就需要提前把数据写到这种多维数据集里边,你写进来的时候,那就是啥,是不是就是一个聚合的操作,对不对,这是预计算啊,那我们后续再进行查询,你从哪查,你是从原始数据查还是从这个所谓的Q6查呀。是不是肯定CU里边查对不对,那这样一来我们查的是不是就是直接就是就啥就是结果对吧?啊就这样的啊,那这就是为什么这个M2AP它需要进行预算啊,因为这个OBCU当中存的本身就是计算结果。啊,是这样的啊,好,那这样一来的话,Orpq这个概念基本上就讲完了,好,那现在我们再来思考一个问题啊,我们前面说了啊,去分析这个问题,我们一共有七个角度,对不对,那我问一下大家。
17:00
问一下大家啊,那这个or APq吧啊,它能够为我们提供几个角度的结果。咱们说了啊,这个O这个预计算,预算是不是直接从QB里边查出啊,对吧?啊,那我问一下我们七个角度啊,这个Q吧,能够为我们提供几个角度的查询结果,注意这个提供我说的是直接提供啊,你不能说我从这里边查出来,我再进行计算,那还叫预计算吗?这不就不叫了,对吧?啊,直接提供结果能有几个角度?几个呀?七个吗?到底几个三个是哪三个呀?其实只有一个。它能够直接提供结果的角度是不是只有这个地区、品类和时间啊,对吧,没错吧,什么意思?比如说我给一个地区,给一个品类,给一个时间,那是不是根据对应的坐标能够拿到直接的结果,是这个道理吗?那只能提供这一个角度的结果啊,那我其他的角度怎么办呢?其他的结果你要从想从这个cub里边查出来,能不能查,其实也能查对不对,你查出来之后是不是大大不了再聚合一下呗,对吧,但是那个是不是就尾巴的这个预计算的初衷了呀,对吧?啊,那所以说我正常应该怎么办?
18:10
我是不是可以再来几个Q吧,是这个道理吧,比如说我对于这种二维的角度对不对,我可以再放几个二维的Q吧,对不对啊,那问一下大家,你说我假如说啊,咱们就以它为例,这个品类和地区,你说这个它可以怎么来呀。这个Q可以怎么来?是不是可以由这个三维的聚合而来,是这个道理吧,我把这个时间维度给它降掉,也给它拍扁,那是不是咱这个第二一个Q呗,是这个道理吧,哎,就这个意思啊,好,那下来我们就往下走,那除了这个二维的是不是还有一维的对不对?往后走,那这个是不是就一维的啊啊这个大家理解一下啊,那当然呢,我们理论上应该是一个角度,是不是对应一个这样的图对吧,我在这没没有空间了啊,所以说我在后边呢,就只画了一个这个大家理解一下就行了啊,是这样了啊好了,那到现在为止,我们这个olap q相关的概念基本上就完事了啊,然后最后最后我需要再给大家纠正一个概念。
19:02
纠正一个概念,纠正一个什么概念呢?我们前面说啊,我们说它是不是就是一个OPQ呗,对吧,说它也是一个2OR PQ啊对吧,那其实这个是不对的啊,那它到底应该是一个什么呢?我们来看一下。大家一起来看啊,那这里边呢,应该是什么?应该是一个是Q吧,一个是q boy对吧,有俩概念对不对,那Q刚才说了是什么,是那个呃,立方体那Q包围的,我们直译过来应该是啥呢。是长方体的意思啊,是长方体意思,那实际上呢,我们刚刚提到这个所谓的cube应该是一个啥呀。应该是一个boy,这个是一个,那这个呢也是一个boy,那它呢也是一个boy啊,那这些东西加在一起,我们才称之为一个OLAPq吧。这块大家一定要搞清楚啊,好了啊,那这个cubad和cube的概念我们就说完了啊,是这样的啊,那最终咱们总结一下啊,就是为了保存我们这张表的数据,你说我们一共需要几个qvod。
20:00
是不是七个对不对,那一共有几个Q吧呢?是不是一个,这七个加一起是不是就是一个Q吧呀,对吧?好,那到现在为止,这个olp q的概念我们才算是真正的说完了啊,真正说完了啊,啊,那接下来我们再继续往下走啊,还有其他的概念,其他概念比较简单了,比如说这个什么模型,那这个我们大家是不是很熟悉啊,对吧?这属于维度模型当中一种啊,那在这儿为什么要提一下星型模型这个概念啊,是因为麒麟啊,在分析我们数仓的数据的时候,它对接的就是维度模型。麒麟对接的就是咱的维度模型啊,麒麟呢是需要去识别你的实时表,去识别你的维度表的啊,这个理解一下啊,好,我们继续往下走,这儿呢,还有两个概念啊,那这个是不是就是实时表和维度表了,这个不用多说了吧,好,继续往下走。那再往下呢,这叫啥?是不是还有一个dimension和measure的概念啊,对吧?Dimension指的是什么,是不是就是维度,Measure是啥?就是度量,对不对,那实际上嗯,这个dimension和这个measure这两个概念呢,是o lap当中的概念啊。
21:02
啊,这两个概念是o lap这样的概念,当然呢,我们的维度模型里边是不是也有这样的概念,对不对,维度加度量值啊,是一致的,它们是一致的啊,那OK,那什么叫做维度,什么叫做度量?这个不用再多说了吧,OK,好,那这就是我们呃学习麒麟之前需要掌握的一些基本概念啊,其实这里边儿最主要的一个概念就是啥呀。是不是就是一个o lap以及o lapq啊对吧,啊啊,那这个完事之后我把视频停一下。
我来说两句