00:00
好,那刚才呢,我们是将第一个文档搞定了啊,第一个文档呢,是数据采集层,也就是说我们已经将数据导到了ods层里边了,对吧?分别行为数据跟业务数据呢,分别对应一个主题,大家还记得行为数据跟业务业务数据分别对应什么主题?主题的名字一定要记得啊。主题的名字。DB log啊,你看符总说的就比较简单对不对啊叫ods。被c dods Facebook。啊,你看那个陈总跟福总两个人合作的是吗?啊。对吧,嗯,大家那个图有开始着手画吗?大家那个图有开始着手画嘛,就是我跟大家说的,你要把这个数据卡夫卡对吧,这是一个主题,这个主题然后之后呢,消费用程序去消费这个主题,再分多少个主题,分多少个主题,对,一定要边学边画,不要等到最后啊,等到最后的话图太大了,你知道吧,那么多层图太大了啊,最后呢,你肯定就又不想化了,一定要边做这个事啊,所以呢,刚才我们是把ods层全部搞定了,接下来呢,我们就要进入DWD层的一个学习了,呃,我要告诉大家的是,DWD层将会迎来我们整个项目第一个重难点。
01:32
啊,第一个重难点啊,就是确实这个难度比较大啊,到时候我们来看到行,那我们整体看一下这里边儿我们要学习的东西好吧。折叠起来啊呃,那这个里面呢,我们要整体学习的东西呢,是这样。第一个我们要做一下这个需求的一个分析,第二要做什么事啊,那第二个呢,是环境搭建,其实我们已经搭建过了啊,就是刚才我们创建的那个G末杠51TIME啊,其实就是它啊,那之后呢,分别对应行为数据。
02:08
DWD层以及业务数据的DWD层对吧,那这里边第一个重难点在哪呢?在业务数据的DWD层。啊,在于业务数据的DW,这个呢,难度比较大,可能我们将要写,呃,一天啊,就这个东西,我们可能要花一天的时间去写它。对吧,难度确实比较大啊,而且代码量也有一定的啊,大家这块一定要呃做好了啊,前面这个行为数据呢,稍微还简单一点啊,行为数据还简单一点,行为数据呢,其实就是正常的一个分流就好了啊,就跟大家说一下,梳理一下重难点,你对每一个文档当中重点听的以及重点要掌握的内容在哪一块啊,那第五章总结这个就比较简单了,对比的一个算子对吧?啊好,这是我们整体的一个介绍,接下来我们看一下。
03:01
啊,第一个啊,那分层需求分析,那首先呢,我们是将数据呢,导到了ods,是统一的一个主题之后我们要。将这个数据拆开,比方说行为数据,我们拆开到DWD当中,那对于业务数据,对业务数据我们把实时表放到DWD,纬度表放到DM。对吧,也就也就这里边之后呢,形成DWM层DWSADS,这个我们已经比较清楚了,我就不去放这个PPT了,当然这个大家双击可以打开自己一层一层去看一下每层的职能,我们之前也说过了,Ods层原始数据保持。不变对吧?啊不做任何修改,放两个主题,一个叫ods被CB,一个叫ods base s logg啊第二个DWD和DM,哎,这个我应该把它写在一块啊,应该把它写在一块,这个都属于我们大的DWD层,对吧?那那这个事实数据啊,这个维度数据DWM层呢,是介于DWD和DWS中间的,对于中间这种复用可以复用的内容呢,做一些处理,对吧?最后DWS存储在click house啊,ADS其实就是我们的一个接口啊,其实就是咱们一个接口,那这个呢,是我们主要要做的东西,那第三层实现的内容,那就是说第一个。
04:29
环境搭建,当然我们已经搭建好了,第二个行为数据,第三个业务数据,对吧,就分开的啊,因为到这层还是分开的,这个我们已经做过了,已经做过了,添加这个表的配置信息啊,都已经做过了啊呃,那这里边我们把这个捞附近加一下吧啊,其实刚才那块呢,我并没有去加啊,可以加一下,加一下的话,我们未来打印日志就能够看的更清楚一点啊,现在呢,还是会有那个警告对吧?那这边呢,我们把这个捞缩件也加进来。放到resources目录底下,搞一个log forg啊呃,然后接下来呢,把这个内容拿过来。
05:07
我们只要这个I数据对吧,假如说那这个东西什么时候用啊,就是比方说有同学说,哎,我这个地方启动了之后。反正有问题就是卡夫卡那边呢没有数据,但是呢,他前面日志当中又没有报错。对吧,也没有errorr,也没有异常,那这个时候往往我们需要将它改为O,看一看有没有什么警告信息,他可能在从事什么东西,一直卡在这儿。啊,这个捞费有利于我们调错的啊,就正常来说,我们都用arrow,这样的话,我们打印出来的信息看的也比较清楚一点,对吧,这第一个啊arrow第二个当我们发现。任务有问题,但是没有报错信息的时候,我们可以把这个内容改成O。
06:00
啊,改一步看一看有没有警告呀,有没有重试啊,类似于这样的一种现象,OK吧,啊好,这是捞建,我们也给它添加进来,那第一第一部分呢,环境的搭建,其实就之前都搞定过了,对吧,这个就不用管了,好。
我来说两句