00:00
呃,好了,各位同学,那咱接下来呢,就来呃看一看我们下一个数据这块相对来说比较重要,大家认真听啊,来我们看数这个流量域里边到底是怎么一回事,大家还记不记得这个流量域里边的流量指代的是什么?还记得这个流量指代的什么?什么叫流量来着,指的是与我们的比如说PC端的页面,或者说我们移动端的应用,它的这个访问量是不是我们称之为流量啊,对吧?是这样的啊,那你想一想,就是将来我们所做的与访问量相关的统计,你说我们最终取数应该是来自于哪儿,是来自日志啊,还是业务数据啊啊,通常是日志,对不对?比如说我想获取某一个页面的访问量,对不对?那我是不是只能通过买点去记录这个页面的访问行为啊,对不对,是不是我们这进而才能去统计访问量对吧?所以说那流量域里边的这些业务过程其实都是来自于用户行为日志的,OK,我们看一看它的业务过程都有哪几个啊,来简单看一看有什么页面浏览,有启动有动作。
01:00
曝光有错误,实际上这五个业务过程对应的就是我们用户行为日志当中的五个什么来着,那五个行为对吧?我们说日志我们主要收集两部分信息嘛,一个是行为信息,一个是环境信息,其实行为对应的就是业务过程,也就是事实对吧?环境信息对应的就是维度,对不对?这一点大家应该是能想明白的啊OK,那这五个业务过程对应的就是那五个行为,OK,好,那那这就是咱们流量域的这五张实值表,OK,好,那咱接下来就不再多说了,我们现在直奔主题,我们现在进入到第一张这个事实表啊,第一张实表我们看看是谁啊。叫做流量与页面浏览事物事时表,OK,那它所对应的业务过程是所谓的页面浏览,OK什么意思呢?这个页面浏览这个业务上怎么理解,很简单,OK,我一个人对不对?在某一个时间点浏览的一个页面,这是不是就是一个所谓的页面浏览的实验呀,对不对,就是这样的啊,OK,好,那咱这张表当中将来存储的内容就是这样的一个一个的浏览记录啊,你会记录谁在什么时候浏览了什么页面等等等等,诶当然呢,这里边还会涉及到一些其他的信息,到时候咱们再具体的去看啊好了,那这就是咱们这张表当中,诶所对应的这个业务过程的一个说明,好,那接下来呢,我们就来分析分析咱这张表的表结构,咱应该怎么设计,或者说我们的设计灵感来自于哪儿,对不对,那设计灵感说的准确一点就是说,OK,我这张表我的字段应该是来自于哪儿的,将来我们去做数据装载对吧,咱的数据是来自于哪的,其实大家可以分析分析,你说咱这应该是来自于哪儿。
02:36
是不是主要是来自于日志才行啊,对吧,没问题吧?OK,那我们的日志咱的结构是不是分为两类,一类是页面日志,一类是启动日志,对吧?那其实大家可以想一下,你说咱这张表,咱的这个数据或者是字段应该来自于哪种结构的日志啊,页面日志没有错啊,就是确实都几乎都是来自于页面日志的,OK啊,所以在这儿呢,我就不再大家呢去一点点去设计展板的结构了,我们直接把这张建稿语句拿出来,然后呢,咱们把它跟我们一条完整的页面日志咱做一个对比,对比完之后大家就知道咱这个表是怎么来的啊,OK,那现在呢,我把这个简面语句先粘出来啊,CTRLC啊,然后呢,我们给它放到这个笔记当中,放在这儿啊嗯,OK,好,那现在呢,我们来简单的把这张表的这个表结构给它过一下啊,首先我们先来看一下它的表名,它的表名叫什么呢?叫做DWD是不是就是流量的意啊,对吧?又进一个新的数据预览啊,然后往后走,后边是置为是这是不是就是页面浏览的意思啊,对吧?然后它是in。
03:36
C增量分区的一个标识好了,那表名咱就快速的过了,那接下来呢,我们来看一看,就是咱这张表当中啊,就是它具体的,呃,这个结构行还有列,还有分区对吧,咱先算行,刚才说了这张表当中一行指代的是一个什么来着?其实就是啥来着,一行是不是代表一个页面浏览记录啊,对吧,我们需要精确到什么程度,精确到是谁在什么时候它浏览了哪个页面,对不对,我们需要精确到这种程度才行,OK,好,那这个谁我们指代的应该是是应该是用户,应该是人,对不对?好,那我们人是不是得有一个人的标识,对不对,那这张表里有这么多,大家说谁是那个人的标识啊。
04:17
是user ID还是设备ID,其实在这儿呢,我们往往是用设备ID去作为这个浏览页面的这个人的标识的,为什么啊,因为我们真正的去浏览一个页面的时候,我很有可能我是未登录的状态,对吧?未登录的状态它有U的ID吗?咱们是获取不到的,我们在买点的时候,你是拿不到他的U的ID的,对吧?这一点要稍微的理解一下,那所以在这儿呢,我们,呃,这个在这张表当中,我们人的标识呢,以设备ID为主,这一点要理解一下,OK,那在什么时候,什么时候是不是肯定是有相应的这个时间的呀,对吧,咱有时间那浏览了哪个页面,咱这是不是有对应的这个所谓的配置ID呀,对吧?这个呢,咱就不再多说了,好了,那每行指代的是什么,咱们基本上就算是搞清楚了,那接下来我们就来看一看,就是咱这张表当中的字段到底都有啥对吧?行列分区嘛,现在先看列啊列,大家简单看一看,大概搂眼能不能看到,能不能想到,就是它来自于哪儿了。
05:12
看着这些字段熟悉吗?什么省份ID,什么品牌,什么渠道等等,这些看着熟不熟?应该大部分都是来自于日志的吧,对吧?OK,那他跟咱那个日志到底是怎样的一个对应关系呢?啊或者大连有什么区别呢?那现在我们拿一条真正的日志,咱去做一个实际的对照啊,那对一下大家就能够搞清楚了来现在呢,我们找到之前的这个采集项目的笔记,我们打开第一个文档,因为要看的是日志,对吧。这里边咱找一条那个完整的这个日志啊,因为我们直接从我们这个表单里,表里边去拿的话,可能拿到的不是完整的啊,咱们得按照最完整的去设计好拿出来,然后呢,我们找到这个完整的一条页面日志是不是就在这啊对吧?好,那现在呢,我们把这个日志给它粘出来,给它放在这儿啊,CTRLC。呃,之后呢,这个需要处理一下,咱们给他快速的处理一下啊呃,看诶这个是不是就是处理好的,这就是处理好的对吧?这是一个启动还是一个,诶这就是一个页面对吧?那咱就直接拿出来就得了,OK,好,那现在呢,我们打开一下这个浏览器,之后呢,做一个接森美化R瑞好了,各位同学,那这就是一个完整的是不是这个页面日志啊,对吧,没没问题吧,OK,好,那之后呢,我们就可以用咱这张表的字段跟刚才那条日志去做一个对比了,OK,那现在呢,咱们这样我CTRLC我给它粘出来,然后呢,我给它盯一下啊。
06:32
来拿过来CTRLCF3我给它盯在这盯那之后呢,咱们这边呢,就可以对照的去看一下啊,来咱一个一个对照啊,首先我们先看一下右边这个地方啊,右边这个地方先看这个地方,诶这个红笔过不去呢。诶,怎么过不去呢?再重新来一下。诶,这怎么回事,过不去了啊,咱就不过去了啊,咱就这么看吧,啊OK,先看这个字段啊,这个字段呢,我们称之为是pro ID对不对,Pro ID这个其实就是省份ID对不对?省份ID大家想一想,你说它应该是对应我们这张日志,当这条日志当中哪个字段,咱们这里好像没有pro ID。
07:10
没,没错吧,但是我们这有一个什么,有一个AR,这个AR的作用大家还记得吧,叫做area code,对吧?OK,它是一个我们国内通用的地区编码对吧?前两位有数,后边四位是是零,这个能能准确的代表一个什么,能代表一个省份对吧?是这样的,OK,好,那所以说实际上呢,在日志当中,我们只有一个这种AR作为省份或者是地区的标识,对不对?那所以我们要直接从这个日志里边取字段的话,我们应该取AR,但是我们这没有取AR,我给他取的是什么呢?我给他设计的是一个pro ID,为什么要这样去设计啊。主要是因为什么啊,就是我们省份这个维度表对不对,我不是只跟日志有关系,我其他的业务过程是不是跟地区跟省份也都是有关系的,对吧?那其他的业务过程所对应的实时表对吧?都是用哪个字段去关联地区维度的,都是用proce ID去关联地区维度的,对吧?那所以在这儿呢,我们也要把日志这个业务过程跟其余的业务过程进行一个统一,咱们都让他用相同的pro ID去关联地区,对吧?所以在这呢,我们将来需要去做一个转化啊,这个转化大家应该知道怎么转吧。
08:15
应该很简单吧,我是不是应该是从日志里边先把AR拿出来之后,让他跟谁关联一下就行了。跟省份表关联一下是不是就行,省份表里边是不是有pro ID,有I code呀,对吧,我们让他用area code去关联,是不是咱近早就能拿到pro s了,对不对,我们将来需要做一个这样的操作,当然这个其实也比较简单,就是照下的事儿啊,接下来往下走,我们看第二个字段,第二字段呢,在这边叫做brand,对吧?Brand是不是就是品牌的意思对吧?它对应的应该是谁?是不是就是这个BA呀,对吧,就是BA,好,那接下来我们继续往下走,下一个是China China对应的不是就是CH,对吧,这个简单,然后e new对应的是不是就是这个E牛,Model对应的是不是就是这个MD啊,对吧?然后往下走,Mid设备ID对应的就是midd,这个也不多说,然后往下走,下边是不是有一个operate system,也就是操作系统,那它对应的一个是啥呢?就是OS呗,对吧,这个没什么可说的啊,然后下一个u.ID对应的就是UID,然后呢,下一个呢,V version code对应的就是啥?就是VC对不对,你其实可以发现啊,就是我们其实已经将common当中是不是所有的字段是都涉及到了咱们的这张表当中啊,对吧?诶,然后呢,现在我们需要考虑一个问题,里边咱们放的是什么来着,是环境信息,或者说对应到我们维度建模上面来说,我们专业的说法应该叫什么叫做维度信息,对吧?你会发现我们把这些维度信息是不是都退化到了这张实时表当中啊,咱们设计的是一张事实表啊,OK,在这儿为什么咱们要都去给它进行这个退换呢?这个我需要简单跟大家解释一下啊。这个主要是因为什。
09:44
啊,你想一想,如果咱不做退化,我就得怎么办,我是不是就得去维护一张单独的维度表啊,对吧?OK,去存放这里边的,比如说渠道信息或者是设备信息等等等等,诶,你需要单独的维一章维表,OK,好,那你现在相当于你需要一张单独的维度表,这儿呢,有一张单独的事实表,对吧?那所以说我们往这两两张表里装载数据的时候,咱得怎么做,是不是得拿到相同的日志,把日志呢?一部分数据拿出来放到维度表里,一部分拿出来放到这个事值表里,咱是不是得先给它拆开啊,对不对,因为目前来看,咱们的事实跟维度是不是都在这一条日志当中,对不对?OK,那将来咱们用的时候得怎么用,是不是用的时候也是把事实跟维度在进行一个照操作呀,对吧,那相当于我们就绕了一个圈子对吧?诶我先给它分开,然后用的时候我再给他,哎,再给它绕到一起,对不对,咱何必呢,对吧,那我倒倒倒不如我直接怎么吧,我设计实表的时候,我就还是把这个维度跟事实我给它放在一起,我做一个统一的维度对话,这个将来用是不是也方便啊,对吧,咱处理起来也方便,所以在这呢,我们就把这些common字段里。
10:44
的维度信息都退化到了这个事实表里,这个大家要理解一下啊,好了,那现在我们继续往下看,我们现在看到哪个哪个字段了,看到这个version code的字段了,对吧?然后再往下走,再往下走都是跟什么相关的,你看是不都是跟配置相关嘛,对不对?那接下来呢,咱们就去找一下与配置相关的字段在哪,它应该位于是不是这个配置里边啊,对吧?好,那我们现在左右对照着去看一下啊呃,我们以右边为准吧,咱们按照右边的顺序来啊。
11:10
这个红笔不好用了,这咋回事啊,这是来我们重新来一下啊好,我们看右边,右边第一个字段,我们要看的就是这个所谓的配置item对吧?下边还有一个与之对应的配置item type,实际上它对应的字段是不是应该就是他俩没问题吧?OK,那这个所谓的item在这指的是什么呀,什么的item按是一个对象啊对吧?谁的对象?其实只要是主指是什么,是我们这个页面当中的主要对象对吧?你比如说举个例子啊,咱当前浏览的页面是一个什么?Good detail对不对,是一个商品的详情页对吧?那你这个页面的主要对象呢?就是什么呢?是不是应该是一个商品啊对吧?所以说item type就是SKU对不对?那你具体是哪个商品呢?是不是item当中有一个这个商品的ID呀,对不对,那假如说我这儿浏览的页面不是详详情页,而是一个什么呢?是一个活动的介绍页面,那你这个页面的对象是不是应该是活动了呀,对吧?那到底是哪个活动呢?是不是在这儿会有活动的ID,哎,是这样的一个逻辑,那OK,那这俩字段咱应该就能够搞清楚了,那接下来咱继续往下看,那下边俩字段呢,一个是。
12:10
Last配置ID,一个是配置ID对不对,这俩字段他们的含义应该是啥,应该很清楚吧,配置ID是不是我当前浏览的这个页面的ID啊,对吧,还是这样的,那OK last配置ID呢,是我诶上一个页面,那其实这个last到配置我们这能够拿到一个什么关系,是不是跳转关系啊,对吧,这个关系是比较重要的啊,这个到时候咱们再再说怎么去用吧,啊现在咱继续往下走,那下边呢,注意观察,我们这还有一个什么。咱这儿呢,还有一个是不是这个所谓的source type呀,对吧?Source type对应的实际上就是这个source type,这个source也是来源的意思啊,它其实跟我们前面在讲那个业务表的时候,咱们看到的那个source其实是一个道理,之前咱们加购、下单、支付是不是都有一个source啊,对吧?那个source指的什么来着,有什么智能推荐,有用户自己搜索对不对?还有什么,这个就是这个活动推广是不是有这样的几个来源啊,对吧?那在这儿也是一样的道理,就是说我来到这个详情页,对吧,我是怎么跳到这个页面了对不对,我是自己搜索,然后点那个商品进到这个页面,还是通过他推荐的商品我点然后进到的这个页面等等等等,这个理解一下就行了,好了,那south咱就搞清楚了,接下来往下走,下边再往下是不是就是这个所谓的date ID跟v u time呀,对吧,这个显然是时间,对不对,那在这张标当中,大家想想,你说这个时间指的应该是什么时间。
13:28
这是一个什么表,是一个浏览这个页面浏览时时表,对吧?所以这个时间显示应该是什么时间呢?是用户浏览或者用户访问这个页面的时间吧,对不对?OK,那问一下大家,你说这个时间我们应该取自于谁?取自于日志当中的谁?这个时间是不是得有一个来源,对吧,我们用谁作为这个浏览页面的时间。是不是就这个TS啊,对吧,大家还记不记得这个TS,它的这个含义是什么?这个TS在这条日志当中的含义就是用户是不是跳入这个页面的时间呀,没问题吧,是不是,也就是用户浏览这个页面的时间,所以说在这儿呢,我们这俩字段都是来自于TS的data ID只有年月日,Time有年月日,有十分秒,这个大家理解一下啊,好了,那这个完成了,完成之后我们再往下看,这儿呢,我们看到了一个作叫做session ID,对吧?Session ID怎么理解,叫所谓的绘画ID对不对,那这个我一会来解释,咱们先不管它,然后往下走看最后一个字的这个是一个什么。
14:28
During time,哎,这是一个所谓的浏览时长嘛,对不对,During time位于哪位,哪个词段是位于配置啊,对吧?这个during time还记得是啥,是不是就是我们本次浏览这个人,他浏览了这个页面,浏览了多长时间呀?对吧?那显然这应该是一个什么字段度量值吧?没问题吧,OK,好,那其实大家应该能够感觉出来,我们这张表当中,前边这一大堆字段,这都可以算作是什么呢?维度只有最后一段,咱是不是可以做一个度量值啊,对吧?当然这里边还有一个隐含的度量值,这个隐含的度量值应该是什么呢?哎,是次数一对吧,一行表示浏览一一次,比如说我要统计什么页面的访问量,对不对?那你就可以用这个表去算啊。
15:06
好了,那现在呢,我们再来把这个三身ID给它详细的说一下,这个身ID大家首先得先明确一下什么叫做3ID,什么叫做绘画呀,啊三三就是绘画的意思对吧?看那绘画咱们怎么理解,其实我们绘画的概念我们没少提,对吧?之前比如举例子,我们讲have的时候,对吧?我们说打开一个have客头端,然后呢,你在里边呢,你去执行几套circle对吧?执行完之后呢,你退出hi有客户端,那这是不是就是一个会话呀。没问题吧,这就是所谓的绘话了,这个其实很简单就好再举一个生活当中的例子对吧?呃,比如说今天是这个女神节了,对吧,大家一会儿呢,可能需要跟自己的女神打个电话对吧?啊完了之后呢,比如说你打个电话,然后呢聊两句,聊两句呢,完了之后呢,女神说他要去看电影对吧?那然后咱们就得挂电话对吧,那你有点绿是吧?然后然后这个其实也是一个什么,也是一个典型的绘画,这也是一个绘画啊,那所以说这个绘画的概念大家应该是很好理解的,那咱这儿提到的这个绘画指的是什么呢?这个咱们得理解一下,这个绘画咱指的是什么呢?这个绘画它指的是什么呢?啊,其实很简单啊,那在这儿呢,我们这个会话是由什么组成的啊,是由这个页面访问记录组成的,那大家都知道,就是我们用户去使用我们的这个电商平台的时候,甭管是通过PC端的页面,还是说使用移动端的应用,对不对,那我们正常的使用习惯都是什么样的呢?是不是正常都是OK,我先进入咱们这个应用对不对,然后呢,我去做一些。
16:33
操作浏览一系列的页面,浏览完之后呢,我可能有别的事儿要干,对吧,我可能就会退出这个应用,那这样一来是不是就相当于形成了一个所谓的绘画呀,对吧?这就是这个咱们这儿这个绘画的概念,OK,好,那我们这儿的这个所谓的绘画ID呢?它的作用是什么呢?它的作用其实说白了就是对我们这张表,当这张表里边存的是一个一个单个的页面浏览记录,对不对?那我们加上这个绘画ID,咱们的作用是什么呢?我要对这些页面ID进行标识,我得标识出来哪些页面访问记录是属于同一个绘画的。
17:11
能能理解吧,同学们就是这个意思,OK啊好了,那完了后我们来思考一个问题啊,什么问题呢?你琢磨琢磨,就这个30ID,我们为什么要加他,完了之后我要加他的话呢,我从哪儿去取。对不对?首先我先思考第一个问题,就是为什么咱这要加一个绘画ID啊,这个我需要给大家简单的解释一下,首先咱们明确一下,这个绘画ID,你说在这两秒当中,它应该是一个什么样的这个存在啊,是维度啊,还是度量啊。显然应该是一个维度,对不对,也也就是说它的作用是不是就是表示,诶我这个浏览记录属于哪个绘画,这个浏览记录属于哪个块,它应该是一个维度对不对?好那么这我为什么要在这儿去加上这样一个维度呢?很显然是因为我们将来有很多的指标都会怎么样呢?都会与用到这个绘画的这个维度属性,都会用了它,OK,好,那前面我们提到过,就是说我们在设计维,设计这个维度的属性的时候,我们应当怎么着来着,是不是尽量沉淀出那些说通用的这个维度属性啊,对吧?啊是这样的,OK,那既然我们将来有很多指标都会用到会画维维度这个这个绘画这个维度,那所以在这样呢,诶我就怎么办呢?我就直接给他放在咱们这张表当中对不对,那省得我将来是不是每个需求都要再自己去找一下这个绘画ID啊,对吧?诶那那就有点重复计算了,对不对,就所以在这咱们为什么要加上这个绘画ID,咱们得给得搞清楚,这是第一点,那接下来我们再来思考一下这个东西从哪来。
18:31
我们能不能直接从这个数据源里边取到它,能吗?你会发现这里边根本就没有什么绘画ID这个字段,对不对?那没有的话,也就是我们不能直接取了,不能直接取,那你说这个东西咱应该怎么来呢?相当于是怎么来呀,咱给它加工得到了对不对?前面讲过维度的属性来源不就是两种嘛,要么就是咱们直接取,要么就是呃,自己加工得到,对吧?这个其实相当是应该是我们自己加工得到的,这一点大家要理解一下啊,好了,那这就是我们这张表当中的全部字段,当然各位同学,现在大家肯定是有疑问的啊,什么疑问呢?我这个绘画ID我到底怎么得到了?没问题吧?诶,这是大家现在的一个首要疑问,对不对?当然现在咱们先不用考虑这个问题,咱们先把这张表的这个具体的结构先熟悉熟悉,至于到底怎样得到30ID对不对,怎样去,诶给我们的每一个页面浏览记录去标识它属于哪个绘画,对吧?这个我们一会儿再去分析啊好,那这张表的这个字段咱们就都看完了,你会发现实际上这张表呢,绝大多数的字段都是直接来自于日。
19:32
质的对吧?只有俩字段有点特殊,一个是pronce ID,一个是下边的这个30ID,对吧?这俩谁处理起来简单一点的province ID处理点就join一下就完事了,对吧?30ID其实是咱们这张表的将来的一个数据状态的难点啊,OK,到时候咱们再去分析怎么做啊,行了,那这个字段都看完了,我们再回到这张表里边来,呃,打开这个gra吧,好了,行和列咱就都清楚了,最后呢,明确一下它的分区规划,那说它的分区规划是什么样的。是不是也是INC啊,对吧?那由于这是一个新的数据啊,咱们明确一下,那这个增量分区它是怎么规划的呢?应该是一天一个分区吧,那每天的分区里放的应该是什么呢?是不是就应该是当天的页面浏览记录啊,对吧?一个人比如说在14号浏览的一个页面,好,那他就得位于14号的分区里,你15号浏览的,你就位于15号的文具里啊,就是这个意思好了,那这样一来的话,这张表的表结构咱们就算是,哎,说完了来视频我给他停一下啊。
20:27
嗯,好了,表结构咱讲完了,那下边呢,我们要做的就是分析它的数据装载应该怎么去做了,好,那分析数载,数据装载之前咱还是得先分析啥呢?是不是得去分析那个数据的流向啊,对吧?数据从哪来到哪去,数据从哪来,其实现在已经很明确了,肯定是来自于哪儿的日志的,对不对,肯定是来自日,那日志具体是哪张表呢?没得选,因为ods层的日本咱只有几张,只有一张,那是不是肯定是来自于这个ods log INC啊对吧?好,那现在我把这张表打开,大家对这张表的结构熟悉不熟悉。这张表呢,我们之前建的是一个杰森格式的表,对吧?OK,那杰森格式的表,那OK,我们目前这张表每行指代的是什么?它的字段到底都是啥含义,大家还记不记得?首先我先明确一下每行指代的是一个什么,就是一条完整的日志吧,所因为我们将来之前是怎么样,是不是直接把那个日志文件漏的到这张表里面,对吧?所以说这张表一行就是一个完整的日志。好,那我们前面讲过日志两种结构,一种是启动日志,一种是页面日志,对吧?那我现在要想对这张表进行数据状态,你说我应该要哪一种结构的日志?
21:32
这是页面浏览记录吧,它是不是应该来自于页面买点日志,我从启动里边找不着页面浏览记录对不对,所以肯定是来自于页面买点日志的,好,那页面日志我怎么去过滤出来呢?这个根据啥过滤就行。是不是咱们前面讲过页面日志它的配志不为空对吧?配置为空的,那它一定是一个什么日志,启动日志对不对?所以我要想找页面日志,我是不是可以根据配置段是否为空去过滤啊,对吧?我过了一下配置一字no和no是不是就OK了,这个应该是很简单的对吧?OK啊好,那现在行咱们基本上明确了啊,行明确了之后呢,我们再去看它的列,这个列都有啥呢?是不是有什么common,这个common其实对应的就是啥,这就是我们这个杰森当中的这个common,对吧?它下面的是一个结构体,你需要取字段的话,是不是直接通过这种common点的形式去一个一个的去取,取取就完事了,对吧?包括后边的配置,哎,其他的字段也都是一样的,OK,好,那这实际上呢,就是我们这张表的一个具体的表结构好了,那既然表结构熟悉了之后,我们来分析分析啊,就是将来咱们到底怎样从这张表里边去取出,对不对,那这个咱们要不要也分一个首日跟每日呢?我们来分析分析,大家一想,你说我们在对这个浏览页面的这个时时表进行首日装载的时候,我们应该取。
22:46
取哪的数据呢?是不是取这张表当中第一天分区的数据对吧?因为你首日的时候它只有一个分区吧,对不对,你是不是肯定是取的十四二这个分区的数据,好,那我问一下大家,这个表十四二分距里存的是什么?
23:00
跟咱们前面那些业务表14号分区存的数据一样吗?不一样,业务表十四二分区我们存的都是什么,都是全量同过来的数据,对不对?因为我们业务数据往往是有历史数据的,你第一天要做全量对吧?好,那这张表呢,这是一个日志表啊,日志表我们的设定它是没有历史数据的,对不对?所以说14号分区里它存放的只有什么?对,只有14号的页面浏览记录,诶是这样的啊,那所以说我们也就是14号的时候,我拿到的就是14号的数据,那你说你到了15号拿到的是什么,是不是只有15号的记录啊,对吧?也就是说你每天拿到的都只有当天的数据,你没有历史数据需要处理,所以说那你在对这边进行数据状载的时候,那你应该怎么做,是不是14号拿到14号的数据,我进行简单的处理,拿到我们想要的这样的页面浏览记录,那之后呢,是不是就放到我们这张表哪天的分区就行了,14号分局里了,你这个没有历史数据,你就不需要做动态分区了,好,那15号的时候的处理完之后,是不是直接放到15号分区,那就完事了。
24:00
对,那从这儿能看出来,我们14号15号触及的逻辑应该是什么样的,一样的,那我们还需要区分首日和每日状态,这俩三号就不用区分了,所以他我们只需要写一个装载宇宙就行了,因为每天都是一样的,诶这是它这个数据装载装载上的一个特殊之处啊好了,那这个至于这一个数据装载我们到底怎么去写,哎,咱下节课再说啊,来视频我停一下。
我来说两句