温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,那接下来我们进入到第三章数仓环境搭建,呃,这个数仓环境呢,包括两部分内容啊,一部分指的是数仓的运行环境,一部分呢是数仓的开发环境,那这个运行环境呢,其实主要指的就是have啊,主要就是haveve,那咱们数据仓库的主体其实就是have啊,你会发现我们数仓当中所有的数据,那最终都是以haveve当中的一张表的形式存在的啊,那咱们所有的数据其实都是交给了have去管理的。啊,大家注意一下啊,我这儿说的是所有的数据都交给have去管理了,对吧?啊,但是这个数据的计算却不一定,哎非得由have来完成啊,那数仓当中数据的计算呢?哎,我们可以使由have,也可以使用SPA circle对吧?SPA circle是可以对接have的数据源的啊,那也就是说我们数据仓库当中数据的计算模式呢?哎,是有多个选择的,那当然主要的模式就这样的两种,那一种呢,就是以have为主体,然后呢,把它的计算引擎SPA这认式接使SPA去对接的数据源啊,然后进而呢,去计算VE当中的数据。
01:12
啊,那这样的两种计算模式,我们在选择的时候应该如何选择呢?啊,那接下来呢,诶,给大家做一个简单的对比啊,那在这儿我们讨论的时候呢,咱们就把这个,呃,第一种计算式,也就是以主的计算模式计引擎给设定Spark呢,再进行这个相应的讨论啊好,那这两种计算模式呢,其实都有一个自己的名字啊,那第一种计算模式就是以为主体的计模式啊,层计算引擎是Spark,那我们通常称之为什么呢?称之为have on Spark。啊,Have on Spark,那很简单对吧,主体是have,然后底层的计算引擎是Spark啊,那还有一种呢,就是下面那种计算模式,就是使用Spark circle对接have数据啊,对吧?那这个我们之为Spark sparkve Spark,也就是主是Spark,然后呢,对接的是数据。
02:07
这式SPA是什么?是data和data frame对吧?那have on Spark呢?它的底层的计算引擎实际上是RD。啊家知道data frame和data对吧,那所以说论上那Spark这种计算模式,计算性能要比Spark更高一些。啊,这是他俩的第一个对比点啊,就是计算性能,那SPA on have要更好一些。啊,那我们这个Spark有的其实是有啊,由于Spark的呃主是主是吧,主have啊,那所以说我们这时候呢,呃会有一个这样的一个优点,什么优点呢?啊就是呃,我们数据仓库的一些周边的框架啊,要对这种计算模式哎更加友好一点,比如说我们后续会提到的呃数据管理对吧,那这个呃权限管理,比如说ER等等等等,像这些组件对have的支持都是比较好的,那他们对SPA circle支持相对来说要差一些。
03:25
啊,那也就是说have on Spark,它的生态要更加的呃完整一些啊,这就是我们have on Spark和Spark on的一个主要的区别啊,好,我们总结一下,那也就是说have on Spark,那我周边的这个生态要更加完整一些,包括数据管理,包括权限管理啊等等等等啊,那OK,那SPA on have呢,那我的这个周围的生态,呃,这个要差一些,但是呢,呃,计算性能要更好一些。啊,是这样的啊,那在本次本项目当中呢,我们所采用的这个计算呃,模式呢是Spark,也就说主体是然后算引层的计算引擎呢是Spark啊OK。
我来说两句