00:00
呃,好了,各位同学,那接下来呢,咱们就正式开始上课了啊,从今天开始呢,我们就要进入到这个第一个项目了,叫做数据仓库,当然这个数据仓库呢,我们也是以一个电商系统作为背景的啊,是这样的,咱们之前那个采集是不是就是以一个电商系统作为背景的呀,对吧?啊,咱这儿也是一样的啊好,那接下来呢,咱们就先来简单的熟悉一下这个数据仓库这个课程啊,那首先那咱们要想去做这个所谓的数仓项目呢,我们首先得先先得先知道就什么叫做数仓对不对,那之前大家对这个概念应该也或多或少的都了解过一点的吧,对不对,那大家是怎样去理解这个数仓的呀,怎样去理解的呀?啊,有同学可能理解的这个比较到位啊,但是有些同学呢,可能就比较片面了,那咱接下来呢,就先把这个什么是数仓这个问题搞清楚,呃,数仓呢,它的全称叫做数据仓库,英文名称呢叫做data warehouse,呃,也就是简称那个DW,以后大家看到DW呢,就得下意识的反应过来,OK,它指的可能就是数据仓库。
01:00
就这个意思啊,那到底什么是数据仓库呢?其实咱们如果光从字面意义上去理解的话啊,其实好像不难理解似的,对吧?数据仓库,数据仓库它是不是就应当是一个系统,专门用来存储什么的,存储数据的吗?对不对?存数据的东西不就叫数据仓库嘛,对吧?哎,但是咱真要是这样去理解的话呢,就不太准确了,就有点片面了啊,实际上呢,一个真正的数据仓库,它除了会提供我们刚刚所提到的那个基本的数据的存储功能之外,它还得至少具备两个功能,哪两个功能呢?一个就是数据的管理,还有一个呢,就是数据的分析和计算啊,是这样的啊,也就是说一个数据仓库至少得具备诶上面的这三个能力,那一个就是数据的存储,一个就是数据的管理,还有一个就是数据的分析和计算,OK啊,那这个所谓的三个能力,三个功能,咱怎样去理解它呢?来咱们逐个的分析一下啊,首先咱先说这个数据的存储,那大家想想,其实这个数据的存储不难理解吧。
02:00
对吧,你一个数据仓库如果连数据的存储能力都没有,那你还谈什么对不对?数据都没没地方存,那你还还什么数据仓库啊,对吧?所以存储是肯定得有的,那接下来我们来分析下边这个啊,就是数据的管理,这个数据的管理我们应该怎么理解呢?其实这也不难理解啊,大家之前应该是听说过一句话的啊,哪句话呢,就是说数据仓库并不是数据的最终目的地,对吧?那数据的最终目的地应该是哪儿呢?应该是数仓后边的应用,我们搭建数仓不是说只是为了把数据扔到里边就不管它了,哎,不是这样了,那我们搭建数仓最主要的目的是干啥呢?是把数据提供给数仓后续的各种各样的应用去使用,也就是说我们数仓后边会有各种各样的数据应用,他们会基于这个数据呢,去做一些更高级的这个东西,就是这个意思,那那所以说呢,那数仓它并不是数据的,最终这一点必须得搞清楚,也就是说数仓后边会有很多的应用,它需要从数仓里边去获取它所需要的数据,那既然是这样的话,大家来想一想,如果我们这个数据仓库里边的数据非常的混乱,对不对?那你说我后边的应用他去拿数据的时候方便嘛,他肯定是不方便的,对吧?啊,你数据胡乱的堆在里边,我找找半天我也找不着我想要的对不对,那所以说我们数仓必须得提供一个能力,就是什么呀,就是数据的管理能力,他必须得把数据管理的非常清晰,非常有条理,那这样一来,后续的应用在。
03:29
获取想要的数据的时候呢,才能更加的方便啊,是这样的啊,也就是数仓必须得具备一个数据的管理能力才行,好,那接下来咱继续往来走,那下边一个就是啥呢?就是数据的分析和计算,其实这个数据的分析计算也很好理解,来各位同学我们还是来,呃,以刚才这个场景为例,咱们就说一下啊,来大家试想一下,你说我们这个数据仓库后续的各种各样的应用,对吧?那他们从数仓里边获取数据的时候,只是简单的查询吗?就把里边数据拿出来,然后呢,就完事了吗?肯定不是这样的,对吧?OK,那数据就是后边的这个数据应用,要想发挥这个数据的价值,它必须得对数据进行什么呀?得进行分析,得进行聚合,得进行汇总,得进行统计对不对,是这样的,那怎样才能对数据进行这些分析呢?那就要求咱们这个数据仓库是不是得具备一定的数据的分析和计算的能力啊,对吧?诶具备这样的能力,那我数据仓库后边的应用才能对数据加以分析计算,才能去呃发掘这个数据更大的一个。
04:29
价值,诶是这样的啊,那所以说那咱这个数据仓库呢,是必须得具备刚刚咱们所提到的这三个功能的,来总结一下,分别就是数据的存储,数据的管理和数据的分析计算的一个能力,OK啊好了,那现在呢,我们基本上就对数据仓库是什么有了一个初步的这样的一个认识了,OK,好,那接下来呢,我们看一下这个文档当中是如何对这个数仓进行定义的,来其实我们看一下这段话就可以了,把这句话读一下啊,他说数据仓库呢,是一个什么,为数据分析而设计的,然后呢,企业级数据管理系统,其实通过这句话我们是不是就能够把刚才我们提到的数据仓库应该具备的那三个功能给他看出来呀,对吧,是不是就分别有什么数据的存储,肯定不多说啊,那这里边会有什么呢?数据的是不是管理啊,对吧,还有数据的分析和计算啊,这这其实就是一个所谓的数据仓库,是专为数据分析而设计的,哎,企业级的数据管理系统啊,OK。
05:29
好,那接下来呢,我们继续往下进行,数据仓库是什么,我们已经有了一个大概的了解了,但是里边呢,可能会有一些细节,我们现在还不太清楚,没关系,等后边咱们编做这个数仓,大家呢,就会以逐渐的变得更加具体啊,是这样的啊,咱继续往下看,那数仓是什么?搞完之后我们接下来再来分析分析啊,就是数据仓库的意义是什么。对吧,就是我们企业当中为什么都要去花费这么大的人力和物力去搭建一个自己的数据仓库呢?对不对?那它的作用,它的意义是什么呢?诶,那其实文档当中后边也已经给出了答案啊,但是我们现在先不看它,诶还是举一个具体的例子给大家说明一下这个数据仓库在企业当中的意义到底是什么?OK,那企业里边我们这个数据仓库到底是用来干什么的呢?那实际上是这样的啊,就是数据仓库呢,往往是会作为企业当中这个BI系统的核心组件了,呃,那这里边又提到了一个新的概念啊,叫做BI。
06:25
大家有听过BI的吗?呃,这个BI可能听说的少,但是A大家应该是经常听到吧,对吧?A是不是就是artificial intellIgEnce,也就是人工智能啊,对吧?那这个BI到底是啥呢?啊对,是business intellIgEnce是商务智能,或者叫做商业智能,那什么叫做商务智能,什么叫做商业智能的?呃,这个因为因为咱们这这个课程的重点是数据仓库,而不是BI啊,所以BI呢,我就简单给大家介绍一下就行了,BI咱们用一句话去哎阐述它的这个意义,那什么叫BI,其实很简单,BI他做的事儿就是从大量的数据当中去挖掘一些潜在的信息,去挖掘一些有价值的信息,然后干啥呢?然后用你得到的这个数据的结论去指导咱们企业去做决策啊,是这样的啊,OK,那这就是BI,他要完成的工作就是从数据里,数据里边去挖掘有用的信息,然后呢,去指导企业做出更加明智的决策啊这样的啥意思啊,其实很简单啊,这就好好比是什么呢?就是说呃,之前那咱们。
07:25
企业呢,在就是之前就是没有这个数据加持的这个背景下,那他去做决策的时候呢,往往都是什么呀,是不是更多的是凭借我们这个决策层的一些主观的判断,然后去做决策呀,对吧?那这样做出来的决策是不是可能是不科学的呀,对吧?那现在都讲究科学决策,对吧?那怎样决策才叫科学决策呢?是不是用数据说话呀,对,是这样的,OK,那这就是BI它存在的意义,好,那从我刚刚这段描述上,大家应该能看出来,就是BI它是重度依赖于谁的呀,数据的吧,对不对?你要是没数据,我怎样从数据里边挖掘价值呢?对吧,它是重度依赖于数据的,那所以说大家想想,你说BI系统它需要的数据从哪来呢?
08:06
从哪来呢?其实主要就是从咱这个所谓的数据仓库里边来,因为数仓里边是不是会存储大量的咱们这个业务数据啊,对吧,那完了之后呢,BI系统就可以从数据里边获取他想要的那些数据,然后呢,对数据加以分析,加以计算,去挖掘里边潜在的这个有价值的一个信息,是这样的啊,那所以说BI在这个数仓在我们企业当中的位置,其实就是这样的,也就是说它实际上是一个我们企业当中的中央的一个数据的存储系统,对不对,那当然他还需要去提供管理和计算的能力,然后呢,他是不是把数据供给后边的各种各样的数据应用去使用它呀,对吧,这就是数仓在我们企业当中的一个作用啊,是这样的,或者是一个意义啊,好,那这个完成之后,我们再来看一下文档当中的这段文字啊,他说了说数仓呢,可以集中整合多个信息源的大量数据,对吧,然后呢,借助数据仓库的分析能力,我们企业呢,能能够从数据里边获取。
09:07
宝贵的信息,进而改进决策对不对,那这是不是就是咱们这个数据仓库它的一个主要的意义啊,对吧?好了,那这出仓的意义咱们基本上也有了一个初步的认识了,那完成之后咱继续往下看啊,那下边还有一句话其实也比较关键,你看他怎么说的,他说同时随着时间的推移,数据仓库当中呢,诶积累的大量的历史数据,对于数据科学家和业务分析师而言也是十分宝贵的,哎,就是通过这段话呢,我们能够看出来,就是数据仓库它的一个非常典型的特点,数据仓库的特点是什么呢?就是它是会去保存历史数据的,对吧?哎,其实大家可以想一想,你说数仓他为什么要去保存历史数据呢?为什么这些历史数据是这么宝贵的,对吧,为什么呀。为什么这个历史数据它有什么用啊,其实很简单,大家想想数仓里边它保存了历史数据之后啊,哎,那OK,你说我们在分析这个数据的时候,我们就能多一个什么呢?是不是能多一个分析数据的角度啊,对吧,对不对?那咱们多出来的这个分析数据的角度,大家说是什么,是不是就是时间呀,对吧?啊,因为你有了历史数据了,你相当于就能够看到这个数据沿时间的一个变化了,对吧?那我们在分析这个数据的时候,是不是就相当多了一条就是分析数据的角度,也就是这个时间角度,对吧?但是它这个角度这个词儿在这说的不是特别的贴切啊,那我们要是用这个我们后续要讲的这个数据仓库建模里边的一个概念来说呢,我们这儿多出来的应该是一个什么呢?分析数据的维度啊,咱们叫做维度啊,当然现在这个维度的概念大家还不太清楚,所以我就换一个词儿,用角度去代替啊,就说我们是能够通过时间去看数据的变化的啊,是这样的啊,OK,其实有一句话大家应该是听过听说过的哪,哪句话叫一时。
10:59
指为镜对吧,那我们保存历史数据是不是要用历史数据去干啥呢?去预测未来啊,对吧?是这样的,那这就是保存历史数据它的一个主要的作用啊,那从那儿呢,也突出了数据仓库的一个重点特点,就是它会保留历史数据,OK,那这一点咱们大家先稍微的记一下就行,等后续我们再真正的去搭建数据仓库的时候呢,我们针对这个历史数据,诶,还需要去做更多的这个解释说明啊,后边咱们再说啊,行了,各位同学,那咱们现在呢,花了十多分钟的时间,我们对数据仓库呃进行了一个基本的介绍,主要介绍了两点啊,第一点就是什么是数据仓库,那第二点呢,就是数据仓库对不对,它在企业当中具备什么样的意义,那但是现在呢,应该已经对数据仓库有了一个初步的认识了,只是一个初步的认识里边还有许多细节需要去不断的完善,这个完善的工作呢,就交给后边咱们一边做诶一边再去完善啊这样的行,那现在先有一个基础的认识就够了啊好,那这个完成之后,视频我停一下啊。
我来说两句