温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
呃,好,那接下来我们再来看一个概念啊,叫做数据集市,呃,数据集市呢,其实是跟数据仓库相关的一个概念啊,呃,因为有很多同学经常把这两个概念搞混。那所以说在这儿呢,我们来做一个区分啊,好,那首先看一下数据集市的英文名字是data Mar啊data Mar好,那他俩到底有啥区别呢?啊也是数据集市跟数仓到底有啥区别呢?我们来看一下啊,那通常情况下呢,数仓诶,它是企业级别的啊,也就是说它能够为我们整个企业的各个部门提供相应的数据服务啊,而数据集市呢,通常是部门级别的,是一个微型的数据仓库,那它通常呢,只服务于我们某个部门啊,这是它俩最显著的一个区别啊好,那接下来我们再来简单了解一下数据集市的种类啊,数据集市呢,它其实分为两种啊,一种我们称之为独立型数据集市,那还有一类呢,还有一类呢,我们称之为啊从属型数据集市。
01:01
啊,是这样的啊,那下边有一张图啊,大家可以看一下。大家可以猜一下啊,你说这个图我们所描述的数据集是是哪一种?啊,其实应该就是数据应该是哪种啊,应该是那种从属型数据集市啊,从属从属其实他从属的是谁啊,从属的其实就是我们企业级别的数据仓库啊,从这个图我们能看出来啊,数据仓库它的数据来自于我们的业务系统,对吧?那数据集市的数据呢,来自于数据仓库。啊是这样的,这就是所谓的型数据集啊,那还有一种呢,我们称之为呃呃独立型数据集,对吧?独立型数据集市跟存储型,呃跟存储型数据集市的一个区别就是啊,独立型是没有数据仓库的啊,数据集市它需要什么数据,直接从业务系统里边去获取就可以了。啊,是这样的啊,这就是独立型和从属型数据集市啊,他们俩的一个显著区别啊啊,那简单我们先来简单对比一下这两类数据集市的这个优缺点啊呃,我们先来看一下这个,呃,这种从属型数据集市它的这个优点是什么?
02:14
从属性数据集是它的优点啊,你会发现是不是各个部门的数据集是都来自于中央数据仓库。啊,对吧,那所以说我们各个部门所获取到的数据,都是经过统一处理之后的这个数据,那所以说每个部门获取到的数据呢,它的一致性是比较好的。啊,是这样的,好,那接下来我们再来分析一下,那这种从属型数据仪式它的缺点是啥。啊,其实缺点呢,就是说啊,可能我要想搭建一个从属性数据集市呢,我的开发周期是比较长的。啊,对吧,因为什么?因为你首先得先有一个中央的数仓才可以啊,这是它啊好,那接下来我们再来看一下这个独立型数据集市的优缺点,那独立型数据集市它的优点是什么呢?那肯定是开发周期更短,因为啊我不需要啊去搭建一个公共的这样的一个数据仓库啊,这是哎它的优点,那它的缺点是什么呢?
03:13
啊,缺点呢,就是每个部门我们的数据呢,都是自己从诶业务系统去获取,那每个部门它的获取或者是处理逻辑呢,可能不尽相同,对吧,那这样一来就会导致我们每个部门之间的数据呢,它的一致性相对来说是比较差的,那这样一来会导致一个现象叫做数据孤岛。啊,是这样的啊好,这就是诶独立型数据集市的优缺点啊好,那这个数据集市的概念,哎,我们简单了解一下就可以了啊,在本项目当中,我们重点哎要开发的是数据仓库啊。
我来说两句