00:00
来同学们啊,我们现在一起来学习一下啊,这个集席查询啊,集析查询,呃,这个集齐查询呢,首先可能大家听起来这个感觉有点陌生是吧?那这个集易查询到底是什么,给大家解释一下先啊,那其实所谓的集易查询呢,我们可以这样去理解,就是咱们在做数据分析的时候呢,就咱们整个数仓对吧,咱是不是要做数据分析啊,对吧?啊,那你做分析是不是肯定得查询对不对,那我们查询数据的这个呃,方式呢,咱们可以大致的这个粗略的划分为这样的两类啊,哪两类呢?一类就是像我们那个数仓当中,咱们前面是不是做了那个数仓,我们有一个全流程对吧?啊就像咱们全流程,那那里边哎那些任务一样,那些任务呢,具有什么样的特点呀?啊,是不是那些查询方式都是固定的呀,每天是不是都是固定的啊,固定的重复的查询啊,这是我们那个工作流程当中,就是阿兹卡班调度的任务的特点吧,是不是这样的,你看啊,咱们那个circle是不是就是从头到尾开发一遍,然后呢,让他每天重复执行就完事了,对不对,Circleq还是一条circleq啊,逻辑还是相同的逻辑,只不过就是每天的数据不一样了而已,是吧?啊,这是咱们那个工作流程当中那种固定的重复的这个查询啊,那其实还有一类呢,就是咱们数据分析当中啊,啊,就是接下来要咱们提到的这种所谓的集析查询。
01:24
啊,那这个及其查询,那它有什么样的特点呢?啊,集析查询的过程呢,哎,是一个不固定的啊,然后呢,是一个不断探索的过程。啊,不断探索的过程,那探索什么呢?那肯定是从数据当中去探索一些有价值的东西啊,所以说你像这种查询方式,它是固定的嘛,它不是固定的,你比如说这个主要针对于谁呢?针对于咱们数据分析师而言啊,那数据分析师比如说我,我要想从那个数据集当中,我去挖掘一些有价值的信息啊,那你可能需要进行啊这个呃,成百上千字的这个各种各样的查询,各种各样的计算,对不对啊哎,你需要不断的去挖掘,不断的探索这个数据啊,那所以说你像这种查询的场景,那这个circle肯定不是像咱们之前工作流程内容吧,工作里边你写完之后就不会再变了,就固定了,每天重跑就行了,但是你像这种,诶探索型的这种数据分析,那我肯定不是固定的啊,我是相当于是诶从各个角度啊,啊,各个方向啊,去观察咱们这个数据,去查询这个数据啊,是这样的啊,那既然它是一个不断探索,不断发现的一个过程,那你说他对咱们这个查询引擎。
02:36
应该有什么样的要求啊?啊对,你得想象快才行啊,对吧,因为你是一个不断查询,不断探索的过程,对不对,你不能说,诶我现在突然想到一个方案哦,OK,我查一下这个数据,我看它那个有什么效果,OK,你把这个任务提交了,那你等一个小时才能得到结果,哎看到结果之后呢,哎,我之前怎么想的来着,已经忘了是吧?啊那所以说这边肯定不能这样啊,而且呢,你像这种,如果说我一每个每个任务都要花很长的时间去计算,那你一天也探索不了多少东西,对吧,就下班了啊那所以说对于这种刚才咱们提到这种这种查询场景呢,我要求我的计算引擎呢,得能够快速响应才可以,那最好能做到一个什么效果呢?就是那种交互式的效果,什么叫交互式啊?
03:21
你给他一套circleq,立马想要结果对不对,然后呢,查看结果完之后呢,看看我再从其他的角度去分析一下这个数据,我再来一套circleq,再立马选要结果是这样的啊,也就是说咱们这种场景呢,还需要呃要求咱们这个呃计算引擎呢,得快能够快速响应才行啊,那刚才我们所提到的这个就是这种随机的不断探索的这种查询场景呢,就是咱们这提到的这个所谓的集席查询啊,集席你其实听这俩名字是不是感觉就是好像就是立即返回结果的意思啊,对吧,即席啊集席我就在这等着,你立即给我返回结果,集席查询嘛,就是这个意思啊好,那这就是咱们刚才提到的这个集析查询的概念啊,呃,其实咱们在这儿所学的东西是啥呀,是不是就是两个及析查询框架呀,那他们所具备的特点就是什么?就是响应速度要快啊,响应快啊是这样的啊,那呃,不过呢,就是你去所做所谓的机时查询的时候。
04:21
词那也是干啥呀,其实也是写circle呗,对不对,也是写circle,只不过就是你底层的计算引擎不一样,我们前边的那一套流程,那是用呃,Have,然后底层Spark去跑,那这边呢,我们就不是他们那些东西了啊,用别的引擎,那这些引擎呢啊,速度要更快速一些啊,是这样的啊好,那大家对这个集体答题的概念呢,要先有一个准确的理解啊好,那我把视频先录一下啊。
我来说两句