00:00
好,那咱们今天呃开始学习这个,呃,及时查询。机析查询啊,其实就是几个框架,就这几个框架啊,那到底什么叫做及析查询呢?呃,我们先给大家把这个及析查询的概念呢给大家先,呃说一下,先说一下啊,就是咱这个数仓当中啊,咱们的指标。书仓当中,呃,咱们去,呃,从数据仓库当中,我去查数据的时候呢,我的查询方式啊,查询方式大概有咱们这样的两两类查询,两类查询啊,一类查询是这个所谓的这种就是固定的查询,或者叫做固话查询。就是你的查询逻辑啊等等都是固定的对不对,你的这个的查询的维度啊,或者是你查询的这个条件啊,诶都是固定的,诶这是一种固话查询,还有一种呢,就是咱们这提到的这个概念,叫做及时查询。即席查询,那集席查询跟固话查询或者固定查询他们俩有什么区别呢?那其实这个呃,区别还是很明显的,固定查询,固话查询我的查询逻辑我的。
01:07
这个呃,查询的逻辑,我观察数据的维度。等等的都是固定的,就好比什么呢?好比我们数数仓当中,咱们前面讲的那些指标,你想一想,咱们那些指标我虽然说是每天都要出,对不对,每天都有新的数据来,但是咱们查这个新数据的逻辑是不是根本就没有变呢?对不对,甭管数据,诶就是是不是新数据,我们每天都是那一套相同的查询逻辑,对不对,Circleq是没有变的,诶而他这这些circle呢,是不是已经固化在了我们那个,呃,整个的这个收藏系统里边了呀,整个已经固化在里边了,这样的查询呢,我们管它叫做诶固化查询。那什么叫做这个即席查询呢?即席你看啊,这两个字即席对不对,什么意思,就是说诶我这个查询的逻辑呢,我并不是固定的,我不是说咱们能够提前预知的。
02:02
不是填预知的,就是可能我这边诶数据分析师呢,诶我要去从咱们这个书仓当中的数据当中,我要去诶挖掘一些数据的价值,去挖掘一些数据的价值,那所谓的数据价值其实怎么去挖掘呢?我们常用的一种这个,呃,分析数据的方式啊,就是什么呀,就是op o lap,那这个东西是什么呢?诶用我们的俗话说,它就叫做多维分析。多维分析什么叫多维?维指的是什么?维维指的是维度。多个些维度嘛,对不对,那也就是说我可以从不同的维度去观察咱们这个数仓当中的数据,比如说我想看一看,诶,咱们这个订单量和用户之间的关系,和地区之间的关系,和诶这个时间的关系,或者说和什么这个优惠活动的关系,对不对啊,那这样一来的话,是不是就相当于是你是从诶各个维度去观察咱们那个订单量的这个数据啊,对不对,那这种分析我们管它叫做多维分析,那你再去寻找这种所谓这种规律的时候啊,你想一想,咱们可能并不知道订单量到底跟谁是有关系的,那只能怎么做呀,只能我们自己,你就不得去各种查询啊对不对,我看一看订单量跟用户的关系,看看有没有这个明显的规律对不对,那再看一看这个用户跟谁,跟这个这个比如跟这个时间或者是跟地区的关系,看看有没有这个明显的规律,对不对,那也就是从诶各个角度去观察数据,那你要想从各个角度。
03:34
去观察数据,或者从各个维度去观察数据,那就说明你的那个circle,你的查询逻辑,它是不是不是提前预知的呀,你可能会诶频繁的去变化对不对,可能频繁的去变化,而且你这个变呢,而呃还还是怎么变啊,还是就是说你这边我是不是要要要分析数据,那我就OK,我先这么查一次,然后再这么查一次,那是不是相当于是就是马上就变啊,查完一个然后变,查完一个变呀,也就是说诶咱们这个SQL是不固定的,而且是诶频繁去变化的这样的一个逻辑,那这种查询我们管它叫什么叫做呃,所谓的及析查询,诶及时查询啊,这是所谓及查询。
04:10
那机器查询大家看,呃,我刚才介绍的这个简单的一个应用场景,大家应该感觉出来,我们去做及时查询的时候,你说对我们的查询引擎应该有什么样的要求啊。应该有什么样的要求,是不是应该应该查的得快呀,对不对,因为我们要要干什么,我们要从各个方面,要从诶要按照不同的这个逻辑去查咱们这个数据对不对,那总不能说我诶一个逻辑,我查完之后,我需要等一天才能出一个结果对不对,那我要想看另一个这个角度的时候呢,我再等一天再出另一个结果,那这时候你去分析咱们这个数据,你去挖掘这个数据的规律的时候,可能是不是就没有那么方便了呀。对不对,所以说他要求我们这个集查询要及时查询呢,要求我们这个查询引擎得快,这是他对我们这个特点是这样的啊,这就是所谓的及析查询及查询啊,那我们在公司当中实际上也是会有这种诶所谓的机析查询的这样的场景的,就是那个搜它不是固定的,诶会诶特别就是非常频繁的去变化,那OK,那这时候咱们做机查询我们应该怎么办,应该有专门的机析查询框架。
05:17
有专门的集其查询框架啊,那集其查询框架特点就是就是快呗,对不对,刚才咱们已经分析过了,那我们常用的集查询框架有什么呢?比如说有这个,呃,Presal,呃,这个东西是基于内存进行计算的,它是非常快的,那下边呢,有德鲁伊,还有谁,还有这个麒麟,那这两个东西是干什么呢?他俩是基于这个予以计算的,予以计算,咱们就预计算,就提前把你这个结果算好,你查的时候实际上只拿的是结果,所以这样一来,我这个计算查询速度啊,是不是显得会很快呀,显得很快。这是我们这三个框架,三个框架啊,德鲁伊跟麒麟呢,它俩是预计算,PRICE4呢是这个基于内存,那实际上咱们这个吉查询框架还有很多,比如说呃,CDH平台当中,我们有一个跟pres架构很相似的一个一个框架叫做inla。
06:07
In,那这个框架呢,它也是这个做机器查询的也是可以的,也是可以的,呃,其实还有很多很多,呃,那我们机器查查询框架是有这么多,那我们在公司当中呢,诶就是说不可能说这个每个框架都用,诶可能诶用其中的一个或用其中的两个,但具体他用哪个,这个咱们不好说,因为呃这个每个公司他情况不一样,用什么都有,那咱们这就是说尽可能的多讲几个,咱们讲这样的三个两三个,可能后续呢,还会讲in了。也就多讲几个,这样一来让大家多见识几个,然后后边大家出去之后呢,就是甭管公司用哪个吧,至少我们诶熟悉过我们这个上手就会比较快,比较快是这样的啊好,那简单的介绍了一下,所谓的机器查询啊,那我把视频录一下。
我来说两句