00:00
好,呃,我们前两个文档已经讲完了哈,也说用户行为采集平台和业务数据的一个采集平台,也是数据呢,现在已经上传到了这个。呃,Hi a上,那剩下的再往下走,我们要做什么事呢?哎,开始进入到仓,真正的一个搭建。那数仓搭建是在哪里面去搭呢?是在我们这个have里面去搭建舒仓啊,是这样一个过程啊,那现在呢,本周开始我们就进入到了这个数仓搭建的一个深水区,你说接下来这一周呢,是最重要最重要的,如果这一周你能扛下来,那整个这个数仓你就会觉得没有问题,如果这一周你没扛下来,那么就会比较痛苦哈,你说这周决定了你这个能不能以后靠这个舒仓去找一份工作。这些出差你要学会了,那就是15K起,后面的像这个实时啊,嗯10SPARK flink那些再学会的,那就是20K起。那其他的呢,就靠你自己的这个个人的硬件条件了哈,包括额外的一些付出努力,呃,那第三个文档呢,这里面呃,我给大家发那个我又改了一版啊,又改了一版啊,你要习惯啊,一直一直在修改啊,不断在迭代哈,这里面现在呢,是一共有146页吧,啊,大概是146页的内容,那我们来看一看这里面大概有哪些内容哈。
01:21
非常之重要了哈。行来看一下,呃,首先呢,第一章呢,是书仓的分成,所以说整个数书场里面,哎,为什么要分成。对吧,啊,为什么要分成这事要解决出来啊,也说给大家解释清楚一些概念性了解,那还有一个呢,了解一下内容呢,就是数据集次和数据仓库的一个概念。啊,在以后的面试过程当中啊,啊有总有一些面试官啊,会问这些小事儿啊,小的一些细节简单说一下就行了,那另一个呢,是舒仓命名规范,命名规范呢,在你们日后这个开发和工作过程当中,那是一定要有的,否则的话,你这边起个表名字叫A,这个叫B啊,这个叫C,这一点什么log。
02:02
那这样的话,没人能看出来这这这是什么表明对吧?啊,所以说在命名的时候呢,要有一些规范啊,稍微正规一点的公司都有。就是这里面我们简单说一下啊,你要需要注意哪些东西。比如说第一章呢,整体呢是属于一些了解性东西,呃,第二章呢是舒畅理论。这一章是非常非常重要的哈,大家看一下,首先呢是范式理论,范式理论呢是Java后台,它在书仓建模啊,在这个数据库设计的时候遵循的理论,比如说Java程序员呢,肯定都遵循这个是三范式。那他反过来,他在面试的过程当中啊,他就要求说这个大数据成员是不是也要咨询3万试呢。啊,其实我们不追究沙班事啊,而且跟他恰恰相反啊,那这块呢,这个总有一些面试官会问你啊,所以说呢,你要了解一下这个范式理论为何物哈,嗯,再往下关系模型和维度建模啊,关系建模和维度建模,关系建模指的就是加Y1后台这个3Y4这种建模,维度建模呢,指的是我们大数据的一个建模啊,先从概念上给大家区分开之后呢,是真正的书仓建模这块了啊,这一块是绝对的核心。
03:11
你要区分出来,咱们一共有27张表,那27张表当中哪些是维度表,哪些是40表。试时表里面又分了三类啊,具体的哪三类有什么样的特点?是什么样表,比如事物型试试表,周期型试试表,还有累计型试试表,分别都代表什么含义?啊,这块呢,要重点掌握从2.3开始,重点掌握到2.4,这块呢,是属于你未来能够成为这个架构师,或者你想去一些大厂。还有一些拿一些高薪。那必会的啊,目前属于你只要他出了这个校门,出去面数仓岗位,那必问啊,你包括最近这这两天哈,这个咱有好多同学在面这个阿里啊,面腾讯好多同学都过了哈,好多同学过了,像阿里的话,最近已经面这个腾讯啊,腾讯目前面过了五个。
04:02
阿里的面过一个,呃,目前呢,咱们这套这个建模呢,给同学讲完之后,呃,无论是阿里啊啊,还是腾讯呢,还是美团啊,滴滴啊啊这些你在面试过程当中啊,至少都是能过,因为这一块这个知识点是没有任何问题的啊行属于市面上读一份。呃,那再往下呢,是这个第三章。第三章具体的就实操了啊,这个就是靠大家这个手术了哈,啊这个就不难了,呃,OD层呢,这里面保持数据源报啊,不做任何修改哈,而且只是采用拉轴压缩和建议一些分区表就OK,呃,这里面会涉及到一些散碎的知识点,什么这个单引号啊,双引号之间的一个区别啊,同时呢,呃,每一层里面都要写一层每一层的这个脚本,那写脚本的话,呃,就跟我们写S库那个脚本的类似啊,到时候我可以给大家总结出来啊,这个写脚本呢,就分这么五步啊,井号T号啊,什么定义变量呃,修改时间,然后呢,具体的S口,然后执行S口。啊,这不着急,后面呃提到的时候给大家去说哈,呃,只不过呢,这里面表比较多,你看这个表比较多哈,ODS。
05:05
啊,但是呢,呃,一张表和24张表其实区别不大,你只要把一张表这个数据,呃,这个能正常的插入过来,或者导入过来,那剩下的27张表也是一样的道理哈,所以说这块呢,也不用担心,这是OS。呃,后面呢,是到了这个DWD层啊,DWD层呢,这里面是核心的一个业务逻辑,尤其这里面用到了这个自定义UDF和自定义UDTF,呃,相当于是本套项目当中一个不大不小的一个难点。啊属于呃中等偏上难度吧,啊中等偏上难度,比如说一个班里面呢,呃,会有那么几个同学呢,啊听起来呢比较比较吃力,需要花的时间呢,会多一些啊是这样一个情况啊,到时候学到这儿的时候呢,要重点的去去掌握一下啊,他属于这个面试过程当中的一个加分项啊,面试官会问诶那个之前在开发的时候用没用过c udf和UDTF啊。啊,那你说用过啊,那至少呢,这个分数呢,就就会上来哈,所以这块呢要重点掌握一下,呃,再之后呢,是DW业务这块,业务这块啊,这个相当于是一个维度退化,这里面这个难度呢也不小。
06:13
啊,他会把这个维度表呢,退化成一张表啊,这样的慢慢去退,就是哪些,呃,这块呢,是完全去实践了,你之前的那个数仓建模,比如说维度建模的理论,比如说把这个理论实践了,你像那本书里面它没有去实践啊,咱们呢,是真正的把它落地了哈。所以这块呢,也很重要。嗯,之后呢,是再往后走是DWS啊DWS呢属于一些宽表,呃宽表呢,这里面呃就涉及到了啊,这个宽表怎么建啊,包括在建宽表过程当中用到了一些系统函数。啊,同时呢,为我们日后的这个指标分析啊,做好了相应的一个准备哈,嗯,DW呢是每天的数据量,那DWT呢是这个呃,累积的一个过程,比如说一个用户从开始一直到当前这个时间,他所有的一些状态的一些变化。
07:05
最后呢,ADAD层呢,就是直接出报表出结果了,你说就你们传说当中的总写circle口对吧?啊写circle口,其实写circle口是最简单的啊,难的是前面这些准备工作,你如说你把前面那些这个表的数据啊,这个全部都准备好了之后,到adi上那就是一个circleq,或者一个select,一个iner的是吧?啊就已经搞定了,这个不是特别难的。真正的这个架构师是在前面,比如说你要作为一个收藏架构师的话,你处理的应该是DWD层DWS和DWT。那真正的这像实习生啊,或者一些菜鸟,刚入门的菜鸟,那你可以写这个ADS啊,这是不一样的哈。好,呃,这样之后呢,我们是对这个数据呢,进行一个可视化啊可视化,那可视化这里面我们用的是这个一串了啊呃,这个Java程序员写的,写完一串了,然后我们直接呢,把这个数据导入到MYQ里面,它就能把我们MYQ里的数据直接进行一个展示啊展示后面呢,我们还会讲用到这个super哈,这两个都会讲。
08:03
再之后呢,是这个任务调度啊,任务调度呢,我们用的是这个阿德卡班执行这个全程调度,我们这里会跑一个指标哈,会跑一个类似于GV啊,或者是日活呀啊,新增啊啊等等这些指标呢,让大家感受一下在企业里面这个任务是怎么样的一个调度哈。最后呢,是这个需求实施流程啊,就是呃,从一个需求产生。那之后那产品经理要干什么事儿,加va程序员干什么事儿,前端工程师要干什么事儿,大数据程序员要干什么事儿,哎,是这样的哈,也就是在企业当中真正的来了这么一个需求。后台是怎么运转的?啊,就是说每个人每个角色负责什么事啊,因为大家呢,这个呃,欠欠缺的就是这方面的一个知识哈,所以说给大家这个补上啊,按照企业开发的流程去做。OK,那这就是整个第三个文档,我们要记住的这些东西哈。
我来说两句