温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,那接下来我们开始用户维度表的数据装载,那我们现在呢,先来分析一下他每天的数据走向啊,来点开这个PPT。好大来看一下啊,那这个呢,指的是ODI层的与用户相关的业务表,那下边这个指的是用户维度表啊好,那现在我们假定当前日期就是2020年6月14号啊,也就是数据仓库的第一天,对吧?那OK,来看一下我们从ods层能拿到什么数据。那肯定是全量的用户数据,对吧?我们所有的业务表第一天做的都是全量同步对吧?那当然用户表呢也不例外啊好,那我们拿到这个数据之后,我们需要做什么处理,然后需要放到用户维度表的哪个分区里边呢?我们来分析一下。啊,就是很简单啊,拿到用户信息之后,我们需要加上两个字段啊,一个是开始日期,一个是结束日期,没错吧,那开始日期呢,就是当天,那结束日期呢就是999,因为都是最新状态对吧?好,那我们处理完之后呢,就需要把数据写到用户维度表的一个分区当中了,大家来想一下应该是哪个分区。
01:05
啊,OK,没错啊,肯定是9999分区啊,因为我们第一天同步过来的都是最新状态,对吧?最新状态是不是要放在9999分区啊,OK,这是我们的第一天的装载任务,好,那随着时间的推移,我们来到了第二天,也就是6月15号啊OK,那我们来看一下6月15号我们能从OD层拿到什么数据。那注意啊,我们拿到的不再是全量数据了,而什么而是新增及变化的数据啊,这是怎么回事呢?诶,这是因为我们的用户表啊,每天的同步策略呢,是新增及变化,那它只有第一天的时候是全量。啊,这个一定要注意好,那现在我们拿到它的新增级变化之后,这个数据应该如何处理呢。啊,大家一定要注意啊,新增级变化,那是不是都是最新状态对吧?最新状态我们就得把它写到用户维度表的9999分区,哎,这个没错对吧?啊OK,那我们再来思考一个问题啊,由于我们导过来的数据呢,诶包含变化数据。
02:11
啊,那有变化数据又意味着什么呀?是不是就意味着原来的最新状态诶会过期啊,对吧?那也就是说原来的9999分区里边,呃,某些状态呢,就已经过期了,OK,那过期的数据我是不是不能在9999分区里放着,那应该放哪去呢?是不是应该放到它过期的那一天的分区当中,没错吧?啊,那也就是放在哪个分区,也就是放在我们当前日期的前一天的分区里,也就是2020年6月14号的分区。啊,OK,那这个呢,就是我们6月15号要完成的装载任务啊好,那当然,那从6月15号开始,也是从第二天开始啊,后续每天要做的工作其实都是重复的啊,那我们再来看一天啊,假定现在我们来到了16号啊,那16号我们同样会拿到新增及变化的用户数据,没错吧?那OK,新增级变化的数据呢,仍然是当前的最新状态,我们需要给它写到9999分区啊,那有变化的数据就意味着9999分区里边有部分状态要过期,对吧?那过期之后我就要把它放到它过期的那一天的分区当中,那也就是15号的分区。
03:22
OK,后续每一天的都是这样的一个重复的操作,那OK,那这就是我们用户维度表每一天的它的装载逻辑。
我来说两句