温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,下面的话我来看一下1.2,数据集市呢和数据仓库的一个概念,那这个概念呢,属于常识性的一个了解哈,来看一下。行呃,这个呢,数据集市啊和数据仓库啊,也是也是这样的啊,就是在目前这个市面上呢,没有一个标准的一个概念,不同一家公司呢,对这个理解呢,也不太一样啊,这块说了啊,说市面上公司和书籍对书籍集市呢,有不同的这个概念,不同的理解,那这里面我只是找了一些比较主流的啊,或者说一些大厂的公司,他们是怎么样的一个定义哈。你看数据集是叫data market,这个数据集是大家可能不太清楚,这个赶集在农村的时候啊,都有这个赶集是吧?啊这里面有这个五花八门卖卖啥都有,就是你想买啥,只要花钱就行了,那同样道理,这里面也是啊,你想干什么,你想要什么样的数据,那你就上这个数据集市里面来采购来是吧。数据集市呢,是一种微型的数据仓库,它通常呢有更少的数据,更少的主题域以及更少的历史数据,因此呢是部门级别的,一般呢只能为某局部范围内的管理人员进行服务。
01:13
在我们农村的这个数据集呢,叫小集。赶的一个小集,就是村里的是吧?啊,村里的叫小集,那去那个镇里呢叫叫大集啊,然后呢,你去那个县里面呢,就叫商场啊,这是不同的一个级别,那不同的级别呢,里面卖的这个商品呢,相对来说就不太一样,你小级里面卖的东西就比较少了啊,都是这个圈里面这个日日常用品。那像这个像这里呢,这种大集呢,呃,相对来说这个品类呢,就会更多一些啊,你的可选择余地呢也会多一些,那像这个县里面这种商场,那就会更门类更多了哈,你要来北京的话,那那门类比比县里面还多得多。那数据仓库呢,是属于这种企业级的,能为企业呢各个部门的运行提供决策支持,那他这个呢,就类似于这个商场啊,像北京这种大的商场里面要你想要什么数据就有什么数据,你只要有钱就行了,对吧?啊就这么简单,那来看一下,首先呢,这边呢都是数据源,那数据源呢,你可以认为是MYSQ里的数据,也可以认为是买点的数据啊,还有呢,像一些什么mango DB啊,RA啊啊,还有一些其他的什么HTP请求啊,啊网络接口都可以哈,那这种呢,都叫这个OLTP,后面会给大家解释oltp和op哈,像总之这边是数据源进入到总的这个数仓,这个数仓呢,正常指的就是我们企业级数仓,就是所有的数据级的一个汇总啊,我们这次项目做呢,其实也是按照这种数仓这种级别去做的。
02:35
啊,那数据集市呢,是属于什么呢?这个数仓里面呢,这个大的仓库里面包含很多很多部门的小块。啊,部门的小块,比如说像你我们这里面可以拆分成什么呢?其中一个集市呢,是用户行为的。其中一个用户行为呢,是业务的。这就可以啊,如果你再来个集市呢,可以是爬虫的。哎,那由这么多个集市就组成了整个公司的一个数据仓库。
03:03
很好理解,你看数据机制呢,叫部门级别的数据,数据仓库呢是企业级的,也是整个企业所有的数据。好理解吧,啊啊,就是说数据提示呢比较小啊,数据仓库呢是比较大,大的一个概念,是包含所有你能能够获取的数据,因为它是为未来企业做决策用的,那数据集是呢,是为某一个部门,为你这个部门做相应的这个呃,决策或者参考的啊,提供数据参考。啊,就是一个大小的一个概念哈,所以说这块呢,也属于一个长时间的了解。很少有人问,但是呢,要问起来的话,你说你不知道这个有点有点尴尬是吧,啊,数据级这个数据仓库你说你就知道数据级是是部门级数据仓库是企业级OK。
我来说两句