00:00
好,那刚刚呢,我们知道了数据仓库啊,都要做哪些事啊,接下来我们就看一看,在数据仓库当中,哎,我们应该都做哪些需求呢?好。那关于数据仓库的需求啊,在我们的数据仓库当中,哎,我们一共给它分为了三个需求,你看第一个叫做采集平台的啊,第二个呢是离线的需求啊,那第三个呢,是我们的实时的需求,哎一共就在三个需求,那每一个需求又需要做哪些事儿呢?哎,其实采集平台呀,一共就这么两个事儿,因为我们的采集平台数据分类不就两个吗?业务数据以及用户行为数据,那采集平台的作用就是把业务数据和用户行为数据采集到哪儿啊,采集到我们的离线数仓以及啥呀,实时数仓嘛,啊给它采集到实时数仓和离线数仓就完事了,那具体你是怎么计算的?哎,你是怎么计算的?那这个跟我们采集没关系吧,那跟谁有关系啊?好,跟我们的离线以及实时需求。
01:15
参观了,好,那采集平台这我们要做两个事儿,第一个就是用户行为数据采集平台的搭建,那第二个事儿叫做业务数据采集平台的搭建,OK啊好,我们看一看。那这个地方我们现在知道了啊,需求两个,那接下来我们看一看离线的需求有哪些呢?哎,离线数仓的需求有哪些呀?啊,就是这么一个Excel表格啊,我们来看一看。打开啊,关于离线数仓,我们要统计哪些需求,我给它最大化啊,然后往上来一点,往左来一点,诶,我们能看得到这些指标啊,就是我们离线数仓啊,所要统计的指标,我们看看一共有多少个啊,往下翻啊,离线数仓啊,我们会统计30多个指标啊,都跟什么相关呢?啊,流量相关的哎,我们每天有多少有说白了就有多少个人来到我们的这个网站嘛,哎,来访问啊,各种各样的指标啊,你看还有用户主题的,我们有多少流失的用户啊,我们有多少回来的用户啊,我们又有多少新增以及活跃的用户,你看还有浏览的这个人数啊。
02:28
啊,再有这个关于商品主题的,哎,我们这个每一个订单或者是啊,每一个品牌,每一个商品,每一个分类有多少个人买呀啊商品主题的,还有这个你看什么优惠券主题啊,哎等等等等啊优惠券的使用次数,OK,那么这个就是我们的离线的这些指标了啊,我们离线的一些需求了,好,那接下来我们再看一看实时的需求又有哪些呢?哎,打开看一看,那实时的需求啊,首先也是流量统计啊啊,其实指标的差不多啊,只不过实时和离线统计的时候啊,统计的工具不一样嘛,一个用flink,一个用have,实时用flink来做。
03:11
那再有用户的,你看商品的诶,交易的呀,以及优惠券和活动的啊,各种各样的指标啊,这些都有啊,实时的指标你看要多一些,一共是48个指标啊,OK,那也就是说在我们的数据仓库当中,实时和离线加一起啊,加上33个,这一共是多少啊,一共是80个指标,哎,80多个指标吧,80多个指标嘛,80家啊好OK,那么这个就是我们整个数仓的一个需求分为三块,一个叫做采集平台,一个叫做离线需求啊,那另外一个叫做实时的需求,好,那我们知道了,在我们的数据仓库当中啊,一共有这么多个需求了,那这么多需求我要用哪些技术实现呢?啊,我们要用哪些技术实现呀?哎,每一个需求我用哪一个组件来做呢?
04:07
以及选择完了这些技术点之后,我们用什么版本呢?诶这个版本呢,大家可能只听说过阿帕奇啊,CDH和HTP的还没有听说过啊,没事,稍后啊,我会给大家来说的啊啊接下来这还有什么呢?你看那选完了这个组件之后了,我们这些组件之后要部署在物理机上呢,还是云主机上,哎,以及这些服务器我们都要各自的去买多少台啊,那这些问题哎需要大家呀,来思考一下了,好,那接下来呢,我们就带着这些问题来继续往下学习啊,暂停一下。
我来说两句