00:00
啊,同学们大家好,那从今天开始呢,我们就要进入到这个大数据课程当中非常重要的一个项目了啊,叫做数据仓库啊,那接下来呢,我先简单给大家介绍一下数据仓库的这个课程啊来,首先我们先来搞清楚两个问题,那哪两个,第一个什么是数据仓库,那第二个呢,就是数据仓库它能够干什么?来先看第一个啊,什么是数据仓库。啊,其实我们听到数据仓库的这个名字啊,咱们顾名思义啊,大致就能够啊猜到那数据仓库它是不是就应该是一个数据的存储系统啊啊对吧?但是如果说我们真的就这样去理解这个数据仓库的话呢,那其实多少就有一点片面了啊啊确实数据仓库它会存储数据啊,那数据仓库当中呢,那它会存储我们企业这个内部各个部门的数据啊,也会存储我们的历史数据和当前最新的数据啊,它确实啊具备这个数据的存储的功能。
01:02
啊,但不仅仅只具备存储的功能,那除此之外呢,它还应当能够提供对于数据的管理和分析的这个功能。啊,也就是说咱们总结一下,那数据仓库呢,它就是一个各种数据的中央存储系统啊,那它提供了我们对数据的存储管理和分析功能啊,这就是数据仓库啊,它的一个简单定义啊好,那接下来呢,我们来看第二个问题啊,就是数据仓库它能够做什么呀?啊,或者我们为什么要去搭建一个这样的数据仓库啊。啊,来,我们往下看,看看数据仓库它能够干什么?来,那数据仓库呢,它能够为我们企业当中的数据挖掘系统,多维分析系统啊,决策支持系统啊,或者一些简单的报表系统等等等,能够为这些系统干什么呀,能够为这些系统或者是应用提供一致的准确的和应用的数据啊,其实可以这么说,我们数据仓库呢,是我们刚刚提到的这些系统的一个数据基石。
02:09
啊,一个数据计时啊,那数据,所以说数据仓库呢,呃,在我们这个呃,企业当中,尤其是一些啊数据驱动型的企业当中啊,那的地位呢啊还是非常高的啊,还是很高的啊啊那所以说那数据仓库它到底能做什么,我们来总结一下啊,那其实数据仓库主要就是为我们刚刚提到的这些应用或者是系统是不是提供数据支持的呀?啊是这样的啊,这是数据仓库能够干什么啊,那通过这样两个简单的小问题呢,我们大家应该大致对数据仓库这个概念啊,应该多少有点理解了,对吧?啊好,那接下来我们继续往下进行。啊来看一看我们整个项目的这个主要的几个模块啊来在这儿呢,分为这样三个模块,那第一个呢啊叫做数据采集平台,第二个啊数据仓库,那其实第二个模块呢,就是我们整个项目的一个主体了,整个项目的主体啊,那第三个啊叫做数据可视化啊,那这个数据可视化呢,其实就是一个我们数据仓库的一个应用啊,数据仓库的一个应用啊呃,在这块呢,是做了一个可视化的一个报表。
03:16
啊,是这样的啊好,那接下来我们把这三个模块的逐一的简单介绍一下,那先看第一个数据采集平台啊。啊,那数据采集平台啊,它主要是干什么的呢?啊,咱们简单思考一个问题啊,啊,那你说数据仓库,数据仓库那是不是肯定离不开数据对吧?那我们数据仓库的数据它是从哪儿来的啊,然后呢,又是如何一步一步的进入到这个数据仓库当中的呢?对不对啊,那其实这就是我们第一个模块数据采集平台啊,所负责的任务。啊是这样的啊,在这呢,我们就不展开讲了啊好,这是第一个模块,那接下来我们回到刚才的页面啊,我们看第二一个模块啊,数据仓库,那其实第二个模块呢,就是我们整个收藏的主体了啊,就是我们整个收藏的主体了,来我们点开看一下。
04:08
好,那数据仓库这个主体的部分,我们的呃,主要的任务是什么呢?啊,咱们现在的数据已经拿到了,对吧?啊,已经通过采集平台啊拿到了啊,那接下来我们干什么?接下来我们的最主要最核心的一个做一个呃任务啊,就是对数据进行分层建模。啊,那之所以要对数据进行建模呢,那目的是什么呀?那目的其实就是为了保证我们这个啊,数据的准确性,一致性啊,以及易用星啊,能够让我们这个数据呢,更好的服务于这个数仓,它的这个后续的应用。啊,是这样的啊,这就是我们的主要工作啊,主要工作啊,那当然呢,在这个模块当中,我们还会涉及到一些其他的呃,小小功能,比如说集齐查询啊,比如说啊,我们整个数仓任务的定时调度啊,以及我们整个啊集群的一个监控。
05:06
啊,这是我们后续啊,都会去涉及到的东西啊,在这呢,我们还是先不展开讲了啊好,这是我们的第二一个模块啊,总结一下,那第二个模块里边,我们其实最重要最哎核心的任务就是对数据进行建模啊好,那现在我们回到刚才的页面。好,那第三一个模块呢,啊,刚才也提到了,哎,是一个数据的可视化啊,对吧,那在这边呢,就是一个相当于是一个数据仓库的一个报表应用啊,那我们看一看这一部分我们实现了什么样的功能。啊,那在这边呢,呃,我们主要是通过这样的一个可视化的方式啊,将我们数据仓库当中啊,我们分析的这个数据呢,做了一个展示啊,让这个数据呢,能够更加的生动,更加的直观啊这是我们的第三一个模块啊啊啊,那这个三大模块我们简单介绍完了啊,那接下来呢,我们一起去看一看啊,咱们整个数据仓库当中会用到哪些技术。
06:08
好,我们还是按照这个三个模块来说,那第一个模块呢,数据采集平台,我们会用到日志采集啊,传输系统啊,消息队列卡夫卡以及关型数据库的数据传输系统啊,Scoop。啊好,那在整个呃,第二一个模块当中呢,我们会用到的这个技术有啊,Hi doop啊,有have on Spark,那have on Spark,那其实就是将have的计算引擎替换为Spark啊,那然后还有一个任务调度系统,阿斯卡班啊,及其查询框架presal和麒麟啊,以及集群监控软件Z。啊,还有这个HP啊,好,那最后一个模块呢,我们在这儿啊,主要用了一个啊开源的啊这个呃,BI工具叫做super set啊这是它,嗯,好,那我们主要技术就介绍完了。
我来说两句