00:00
把这个PPT咱们点开啊。看一下数据集市啊,来数据集市呢,它跟数仓呢,其实有点像啊,然后咱们这给它做一个区分啊,来数据集市叫做data market叫DM啊DM现在就是那个市面上这个公司什么和书籍对数据集市有不同的概念,对吧,也就现在这个数据集市呢,就是呃,怎么说都有啊,怎么说都有,然后咱们这儿呢,说一个比较,呃,就是标准的一个概念,来咱们往下看。数集市了。是一种微型的数据仓库啊,它通常呢,有更少的这个数据。啊,更少的这个主题啊,以及更少的历史数据啊,是什么呀,是部门级别的啊,它服务于什么呀,服务于某个具体的部门。啊,而咱们数仓它就不一样了,数仓是什么呀,数仓咱们是企业级别的啊,是能够为整个企业各个部门提供这个数据支持呢。啊,就是他们的数据的体量以及服务的对象是不同的啊,那数仓呢,是企业级别的,我的数据的体量要大,那这个集市呢,相当于是部门级别的,我的体量要小,然后那么服务的对象呢,那数仓是整个企业各个部门哎,都可以从里边拿出去啊,那这个集市呢,我相当于只服务于某个具体的部门。
01:20
啊是这样的啊好,这就是数仓和集市的一个本质区别啊,然后下边呢,有一个架构图,这个架构图呢,来看一下啊。这个架构图呢,其实给咱们画出来的就是数据集市当中的一种啊,看一下这个集市啊,这这就所谓的数据集市啊,来看一下。这个咱们怎么理解啊,这个数据集市呢,刚才说了,它相当于是微型的书仓,对吧?你看啊,这个是企业级别的对不对,那这个呢,相当于是部门级别的,这是一个部门啊,这是一个部门啊,这是一个部门啊,然后呢,他服务于这个部门,他服于这个部门,他服于这个部门啊相当于就是什么呀,是不是就是相当于是,呃,这个集市什么意思啊,所谓集市是不是就是呃,大家都去啊某一个地方去摆摊,对吧?去卖东西,这就所谓的集市对不对,那这块相当于是,是不是每一个部门的这个小数仓就相当于是一个一个摊位,对吧,那整个就当一个一个集市嘛,就这个意思啊,你可以这样去理解的好,然后这个数据集市呢,它的架构其实有两种的啊,或叫做类型是有两种的啊,一种类型叫什么呀?叫做啊独立型数据记事。
02:25
啊,独立型数据记事。啊,这是独立型,还有一种呢,叫做这个呃,叫做依附型数据集事。啊,依附或者叫做依托啊,依附依托于谁呢?依托于数仓啊,有这样两种啊,那咱们大家很显然这就是属于哪种啊,这个属于解释啊依附型的啊这个依附和独立有什么区别呢?给大家解释一下啊呃,这种依附型的数据集市呢,那首先那它的呃前提条件就是咱们公司呢,得有数仓啊,先有一个企业级别的数仓啊,然后呢,所有部门数据呢,先在哎这个企业级别的这个数仓里边呢,先做一个统一的规划处理啊,统一的规划,统一的处理。
03:09
啊,完了之后呢,那我不同的部门呢,再去从咱们出仓里边去获取哎,所需的这个数据,建设自己部门的这个相当于这个集市。啊,是这样的啊,那这样的这个数仓,这样的这个数据集市我们建立起来呢,呃,它有什么样的这个优缺点呢。首先第一个啊,第一个先说优点吧,那优点因为我们的数据是不是都来自于同一个地方,这个统一的数仓啊,对不对,那所以说是不是各部门拿到的数据是比较统一的呀,对不对,是统一的是一致的啊,那这是它的优点,那缺点是什么呢?那缺点就是你要想搭建数据集市,是不是得先搭一个数仓对不对啊,也就是部署起来呢,这个比较费时费力啊,啊这是呃。复型的,那再说那种独立型的,独立型的就是没有书仓啊,没有书仓,那我的数据集是怎么搭呢?就直接啊,从原始数据啊,从数据源开始,那A部门我需要什么数据我就从这儿拿,那B门需要什么我就从这儿拿,那C部门从需要拿我就从这儿拿啊是这样的啊,就是自己去拿自己所需的数据,从原始数据层的,但是大家都知道我这个原始数据呢,其实是比较复杂的,对不对啊,没有进行统一的处理规划,对不对,非常复杂,所以说我不同的部门拿到原始数据之后呢,我是不是可能会做不同的这个处理啊,对不对,那所以说那这样的这个数据集市呢,它的优缺点是啥呀?诶优点就是。
04:39
啊,是不是比较快呀,对吧,我不需要再搭出仓了,我直接就可以搭建起来这个集市,那缺点就是什么呀,缺点就是不同的部门,我拿到的数据呢,是不是它处理的方式是不一样的呀,啊处理方式不一样的。啊,比如说这边有一条脏数据,那这个脏数据这个部门我处理起来的话呢,我可能会怎么做呀?啊会给它删掉,那另一个部门呢,我可能会给它附一个默认值,是不是这样一来就会导致我不同部门之间的数据啊,它是什么呀。
05:06
是不一致的了,对不对啊,因为它处理方式不一样嘛,那那这个不一致的现象呢,其实是有一个名词的啊,名词叫什么叫做数据孤岛,数据孤岛也就是说实际上每一个部门的数据跟每一个部门数据,他们是不是都只能供自己部门使用啊,他们之间的是不一致的啊,所谓的数据孤岛啊,这个东西咱们了解一下就行啊,了解一下就行了,这就是所谓的这个数据集示啊,分为两种,独立型和依附型,咱们这画出来这个图呢,是这种就是依附型的啊,依附型的啊,然后咱们在这儿呢,就是重点理解这个数据集时的概念就行了,在咱这儿还是重点去搭建这个数仓就行了啊,啊这是集市跟数仓的一个概念,咱们就说完了啊好,那我视频录一下。
我来说两句