00:00
呃,来吧,各位同学,那接下来咱们要做的工作就是啥?就是这个拉链表的数据装载,OK,好,那实际上呢,呃,我们之前在讲这个拉链表的基础概念的时候,就在讲那个建模理论的时候,我其实大概的给大家提到过一点,对吧,就说我们这个拉链表的一个制作过程,大家还有没有印象?呃,大致回忆一下,你说我们要给这个拉链表去做数据装载,我们每天要做的工作大概都有啥呀?呃,首先第一个咱们得考虑一下,就是制作拉链表对吧?你去装载拉链表的数据啊,你肯定是来自于业务系统对吧?那我们是从业务系统里边做全量同步还是做增量同步呢?做哪种同步就行?做增量同步是不是就可以对不对?这个应该是能够想明白的,没必要做全量了,对吧?好,那就来下一个你增量同步都过过来的数据是不是就是今天的新增和变化,对吧?好,那你需要对它做什么样的处理?大致呢,我们要做这样的两个处理,第一部分呢,就是先给它加点时间,开始和结束日期对不对,那之后呢,是不是得把它放到我们这个,哎,原来的这个拉链表当中,对不对,那之后还要做什么操作?
01:03
是不是得改数据啊,对吧,你得找到什么,就是你今天的变化数据对不对,对应的上一个最新状态,你得把它的结束日期数给改了,不能再是999了,对吧?诶我们大致是不是应该是做这样的两个工作呀,对吧?这是之前我给大家简单分析的一个一个结果这样的,但实际上这个呢,并不是特别的完整啊,里边有很多细节我们其实并没有考虑到,那所来接下来呢,需要做的工作就是先,诶整体的哎去看一看,我们去做拉链表的数据装载的时候,咱们到底要做哪些工作,来咱们把这个呢先来看一看,好,那下边呢,我准备了一个PPT,哎,这演示的就是拉链表的数据装载过程,这儿就给我们列出来了,我们再去装载拉链表的时候,咱们要做的具体工作,咱们先先明确什么呢,明确我们要干什么,然后呢,至于怎么去干这个so怎么写,咱们一会再再考虑,一会再分析啊好,那现在把这个PPT点开。那首先那我们现在先看一下这个我们的第一个图啊,第一个图点第一个图,这给咱们列出来的是什么呢?各位同学看一下。
02:01
这是什么?哎,这个列出来的实际上是啊,呃,比如说是2019年1月1号,这个1月1号,你可以把它作为什么呢?作为我们数仓上线的第一天啊,你把它作为数仓上线第一天就完事了啊,这是第一天哪的这个数据呢,是买circle业务数据库当中的那个用户表的数据。啊,这是我们在做,呃,这个数据仓库上线的第一天的这个,呃,这个这个任务的时候呢,诶,我们这个买so当中的这个,呃,全部的这个用户的一个信息啊,是这样的啊,这个里边已经有一些用户了,这个大家应该是能想出来是为啥对吧?我们前边讲过就是我们在做数仓对不对,那咱们就是数仓上线的时候对吧?我们的业务系统当中往往是不是会存在一定的历史数据啊对吧?那这儿是不是正好就是这样的一个场景,对不对,OK,这是我们,呃这个业务系统当中的这个历数据啊,那你说我们接下来我们需要做什么工作呢?咱们需要干啥?你说这些用户用户的数据我要不要给他放到咱们拉链表里边,要不要放,这相当于是什么,相当于是我们,诶这个上线输仓的时候,对吧?那我们业务系统当当中的一些历史的用户啊,对吧?那这些用户我要不要给他放在我们的拉链表当中呢?要不要你要啊对吧,咱们用呃拉链表是不是一个用户维度表,我用维度表里边是不是得有所有的用户信息,对吧?所以这些例史用户呢,我们是需要放到拉链表里边的,那所以说我们再去呃做这个数据仓库的,呃,第一天的这个数据装载的时候呢,我们需要做一个什么工作呀,咱们需要把这些用户是不是一次性的全部的都同步到我们的数据仓库里边来,对不对,也就是首先我们需要先做一个什么同步,相当于是全量同步吧,对不对,第一天的时候,我们需要对这个买so当中的用户表做一个全量同步,对不对,那完了之后呢,把所有的用户全部都一次性的装载到咱们这个拉链当中来啊,是这样的,但实际上咱们现在去做这个数据同步的时候,咱是不是也确实。
03:53
就是这么做的呀,对,咱那个用户员是不是采用的是增量同步增第一天咱们做的是不是就是全量对不对,OK,咱就是这么做的,好,那完之后我们继续往下进行,那关键是你做这个全量同步之后,你需要把数据放到拉链表,对吧?那你放到拉链表之后,是不是得考虑一下加上两个日期啊,对吧,没问题吧,因为我们业务系统当中啊,这个用户表是没有这个开始和结束日期的,但是拉链表是不是要求是有这俩日期的,我们得加上它,好关键问题来了,你加这俩日期,你加哪一些呢?
04:22
这个日期怎么加呀,其实很简单,结束日期比较好加,结束日期肯定是9999,对不?因为啥,因为买so当中是不是只会保留用户的最新状态,对不对,那你拿回来的状态是不是就是当前的最新状态,所以说他们都是九九,这个没什么可说的,关键是开始日期这个怎么讲?这个加哪一天。首先咱得先明确一点,就是这个开始日期指的是什么的开始日期是这个状态的开始日期对吧?那我们在买思当中能不能获取你这个状态它的真正的开始日期能不能获取。能获取吗?你知不知,比如说买斯克当中现在有一张用户表就是这样的,你知不知道这个人什么时候叫的张三,什么时候改成李四的,什么时候改成王五的,你知道吗?这个咱是不知道的,对吧?那所以说实际上在这儿我们是拿不到这些状态的一个真正的开始日期的,拿不到那我们就不拿了,对不对,因为你确实拿不到嘛,没有办法了,对吧?好,那所以在这儿呢,我们开始日期通常就是给定一个初始值,比如说在这儿呢,我们就把数据仓库上线的这个日期作为每个状态的开始日期了,诶这一点要注意一下,好了,那这是我们呃第一天往这个拉链表里做数据装载的时候的一个具体的工作,说白了就是一个啥呢?全量公布,然后呢,加载字段是不是放进里边来就完事了,对吧,这是第一天,好,那随着时间推移,我们来到了第二天。
05:42
那第二天的时候呢,那注意观察,这个仍然是买circle当中的那个用户表啊,它是不是较低一天相比发生了变化,对吧?这个具体的变化是什么,咱们看一眼,首先二号用户的状态是不是发生了修改,原来叫李四,现在叫李小四了,对吧?那么让往下走。
06:00
四号和五号用户原来没有,现在有,这是属于今天的新增,对吧?也就是咱们这张表是不是有新增有变化呀,对吧?OK,有新增有变化,那你就说我们就需要做一个什么工作,是不是需要做一个增量同步,把这些新增和变化的数据是不是同步到数仓里边来啊,对吧?好,那现在我们需要回忆一个问题,就是咱们做增量同步,我们的同步工具是不是有两种选择,你可以选择那种基于查询的同步工具,也可以选择基于blo的同步工具,对他俩是不是都能做增量同步啊,对不对?好,那现在问题来了,他俩去做增量同步有什么区别,其实最显著的一个区别就是最中间状态的一个获取,对不对?那基于查询的这种同步工具能拿到我这个中间状态吗?拿不到什么叫中间状态啊,比如举例子,假如说这个二号用户,我这一天实际上他的状态变了好几次,对不对?一一开始叫李四,后来我变变成了李大四了,最后我又变成李小四了,对不对?那如果说你基于查询,你只能拿到什么这一天里边最后一。
07:00
考四的状态,中间状态咱们是拿不到的,对不对?那如果我是基于blo的呢?能不能拿到中间状态,能为啥呢?因为blog我是不是只要这个状态发生变化,就会记录一条这个变更操作呀,对吧?那中间所有的状态我都能拿到,这是它俩的一个显著的一个区别,OK,那咱这是怎么做的,我们是使用的哪种工具使用我们是基于blo的,所以说我们这是能拿到它的中间状态的,对吧?那其实我我们这虽然能拿到,但是我可以告诉大家,其实咱们拿到也没用。为什么呢?因为咱们离线入仓的计算周期是什么?是天对不对?所以说我们通常情况下呢,你以天为计算周期的这样的一个数仓,那我们的维度呢,就有一个这样的要求,什么要求呢?就是说我一天只有只能有一个状态,因为你的计算周期就是天,对吧?那所以说我一天通常只能有一个状态,那这样的,甭管你是用户还是商品还是地区,一天就只能有一个状态,那这样的,所以说即便说我们这儿呢,能拿到这一个人这一天当中的多个状态,因为他有中间状态了,对吧?那我们也用不着,我们也只能用一个状态啊,是这样的啊,那我们通常用哪个状态作为他这一天的状态呢?
08:09
就用它的最后一个状态啊这样的啊,也就是实际上呢,我们要想去做拉链表,咱们在做增量同步的时候,我们选择基于查询的同步工具也行,对不对,因为我本身就只要它最后一个状态,对吧?诶是这样的啊,但是我们这儿呢,并没有去那么做啊,我们用的却还是这个Maxwell还是gblo的,那所以这其实我们一会去做装载的时候就稍微有点麻烦了,你还得先干啥呢,你是不是还得先在他这一天的新登记变化里边得找到什么,找到每个用户的最后那个状态吧,对不对,那中间的状态我说不要了,对吧,我得过滤掉啊这样,所以这儿呢,可能需要稍微麻烦一点,诶这个具体怎么去拿这个最后一个状态,咱们到时候再考虑,到时候再说啊好了,那假如说我们现在呢,已经拿到了我们今天的每一个用户的最后一个状态了,好,那接下来咱们需要怎么做。接下选怎么做啊,比如新增变化是不是就已经在这放着了呀,对吧?好,那接下来怎么做,接下来是不是就得把这一部分新增级变化的数据跟拉链表的数据去做一个合并,做一个整合呀,对吧?好,那下来我们看一下这个整合具体要做的工作啊,首先第一步就是我们需要先在今天的新增级变化的状态后边是不是加上两个字段啊,对吧?这俩字段相对来说比较简单了,对吧?结束日期就是极大值,那开始日期呢就是什么。
09:23
是不是就是今天呀,对吧,也就是1月2号了,对吧,因为这些是1月2号的新增级变化,你的开始日期就是1月2号,好,那接下来我们继续上走,假如已经加好了,那我们需要怎么办?怎么办呢?是不是得把这部分数据是不是得插入到拉链表里边来啊,对吧?插入进来之后我们还需要再做一个工作,做什么工作呢?咱们就以这为例啊,你这个二号用户是不是发生变化了,对不对?那所以说原来表当中二号的那个状态就不再是最新状态了,对吧?它的结束日期就不能再是极大值了,那得变成哪一天呢?我们通常是改成哪一天,是改成当天日期的前一天,也就是改成哪一天,改成1月1号啊,这是为什么改成一月,为什么不改成当天1月2号呢?是因为这个很简单,你想啊,如果我把这个改成1月2号。
10:08
对不对,那完了之后,我下边这个二号用户的李小四这个状态,他的开始日期是哪一天,是不是也是1月2号,对吧?那这样一来的话,相当于什么,你要获取1月2号的状态,你应该能获取到几个,是不是获取到两个了对吧?一个是李四,一个李小四,那出来就不合适了,对吧?那所以通常我们这儿是有要求的,就是说什么呢?就是一个人的多个状态,它的开始和结束日期之间的是不能有交集的啊,这个一定要搞清楚啊,好了,那就是这么个逻辑啊,这就是我们把这个部分的数据,还有这个部分的数据呢,咱们合并到一起之后得到的最终结果,这就是我们最终的一个拉链表啊,是这样的啊,好了,各位同学你看一看啊,就是我们在往一个拉链表里边去装载数据的时候,你会发现啊,你第一天的这个装载逻辑。跟咱们第二天的装载逻辑是一样的吗?是不一样的,对吧?那我们第一天做的工作是什么?第一天我们是不是从业务系统里边,我们做一次全量同步,然后把数据呢,是不是全部给他一次性的放到这个拉链表里啊,对不对,这是第一天,那第二天之后呢,你应该怎么做,是从业务系统的数据库里边,咱们做一个什么增量同步吧,对不对?那完了之后呢,我再把这个增量的数据是不是给他整合到咱们这个拉链表里,对吧?那从这我能看出来,第一天跟第二天它的逻辑是完全不一样的,这样的,那你想想,你说第三天应该怎么做。
11:26
第三天是跟第二天一样吧,应该对不对,也就是第三天的时候,我需要拿到第三天的新增级变化,对吧,是不是再把这个新增级变化跟这个拉链是不是再做一个整合呀,对吧?也就是说我们第一天跟第二天,也就是后续每天的逻辑是不一样的啊,既然不一样,那你说我们一会儿去写这个壮单语句的时候,大家怎么办?你得写俩三课吧,对不对,就是第一天你得写一个首日状载语句,那第二天,哎,包括后边的你得写一个每日状载语句,咱得写俩三后才行,这个一定要注意一下,好了,各位同学,那这个我们在装载拉链表的时候要做的具体的工作,那在这呢就已经说完了,OK,好,完成之后视频我停一下。
12:04
呃,好了,各位同学,那咱接下来呢,要思考的问题就是,呃,到底怎么去编写这个拉链表的数据装载语句对不对?那刚才分析过,咱们实际上应该是写两个词对吧?第一天写一个,然后后续每天共用一个就行了,对不对?那先来分析分析这个怎么写。其实在做这个数据装载之前,咱们需要考虑一个问题啊,就是甭管你写几个字,你写一个也好,写俩也好,你最终写出来的三时肯定是一个什么样的,是不是还是一个in色的加select呀,对不对?所以说我们在写这个词之前,还是要先分析一下,就是我们的select from from哪色的,Into是into到哪对吧,就是数据从哪来到哪去,也就是说我们这个数据的流向应该是什么样的,对吧,是不是还是得分析一下这个呀,那当然由于这张表确实比较复杂啊,所以在这我专门准备了一个PPT啊,这个PPT就展示了我们在做数据装载的时候,它的一个数据的流向,那现在咱们把它打开一起来看一下,呃,在这块呢,我画了这个两部分啊,上边这部分呢,代表的就是啥?就是我们的数据来源,下面的指的就是咱们的目的地,那大家都知道我这个用户维度表,它的主要的数据来源肯定是ods层的这个用户表,对吧?肯定是那张表啊好,那接下来呢,咱们就来看一看,跟咱们这个每天啊,这个数据状态的流向到底是什么样的,那假定呢,我们现在是第一天啊,第一天是不是在我们收藏里边,我们的第一天是。
13:21
分一析是2020年的六月14对吧?好,那现在咱们来分析分析啊,我在2020年的六月14,能够从ods层的这个用户表里获取什么数据,来看一下能获取什么数据,应该是全量了,对不对,OK啊,这个一定要搞清楚啊,你在六月14你拿到的是全量,为啥?因为所有的这个增量表咱们第一天做的都是什么,都是全量了,对不对?而且这个全量是基于boottrap去做的,Boottrap的原理呢,是不是就是C代的星,就是基于查询的,所以说实际上你拿到的这个表的十四二分局的数据就跟哪是一样的,那相当于跟买so当中这边是一样的吧,是这个道理吧,OK,好,那现在呢,我们继往下走,那你拿到这个数据之后,你接下来你需要做什么工作呢?来,我们再把这个PPT给它放开啊,放哪去了,在这。
14:07
接下来需要给他,给他做什么工作呢?你肯定需要对他做一个简单的处理,对不对?那具体的处理应该是什么呢?是不是得加俩字段呀,对吧?开始结束日期这个时候都得加上对不对?开始咱们就应该加哪一点,是不是当天日期就完事了,对吧?那结束日期呢?是不是加9999啊对吧?好,那假如说咱们已经把这部分数处处理完了,那接下来是不是需要给他insert到咱们这个用户维度表啊,对吧?关键问题来了,Insert到哪个分区,因为咱这张表是分区表,对吧?你在insert的时候必须得指定分区,对吧?到哪个分区?哎,这个很简单,肯定是9999分区吧,为什么?就是首先咱得明确啊,写到哪个分区,这个取决于两点,第一点你这儿是什么数据,第二点你下边的分区怎么规划对不对?那咱们这儿拿到的实际上是不是就是截止到我们当天的全量的最新,没问题吧?好,那咱们下边这个分区是怎么规划的,还记得吗?是不是会有一个9999极大值分区永远存放全量最新,还会有一个每天一个的分区存放当天的过期数据,对不对?那所以说你这儿拿到了全量最新了,不就得放到咱们这个9999分区嘛,所以这个道理很简单,诶直接放到9999这个没啥问题啊,这是我们是不是这是这是不是就我们第一天的这个数据的流向了,对吧,比较简单,那接下来我们就划走,我们随着时间推移来到了第二天,那第二天的时候呢,我们能够从ods拿到什么数据呢。
15:25
第二天我们从ods拿什么数据,你应该是拿到15号的增量数据吧,对吧?这个增量数据里边呢,包括新增包括变化对不对,然后呢,咱们这个增量是使用mawell同步的,所以我们这儿拿到的实际上是一个什么呢?是一个一个的insert update和底delete的操作,是不是这些操作呀,对吧?诶是这样的,这个一定要注意那玩意,这些操作里边是不是就有我们每条数据这一天里边变化的所有状态,对吧?是有中间状态的,但是刚才咱们分析过了,不是所有的状态我都需要,对吧?啊,由于我们的计算周期是天,所以说我一个呃用用户我一天是不是只能有一个状态,所以在这我还得怎么做呢?我是不是还得从这里边去过滤一下啊,对吧?我得把每个用户他的最后一个状态是不是过滤出来,对吧?好,那假如说现在已经过滤出来了,那接下来咱们需要做什么工作,这个数据需要去哪,需要去哪,你要知道你现在拿到的是什么,是今天的新增级变化对吧?新增级变化都是什么,都是最新状态。
16:25
既然都是最近状态,那他就得去哪个分区,9999这个极大值分区没问题吧,好,那玩意要诶给他放进去了好了,那放学之后,接下来咱还要不要做其他的工作呢?需要做需要做工作,做什么工作你想啊,首先第一点这里边有有什么有变化,有变化就意味着是不是这里边有些状态不是最新状态吧,不是最新状态是不是就得拿出去啊,对吧?好拿出去放在哪呢?是不是放在它那个过期的分区当中啊,对吧?哪天过期的,那是不是就给它放在哪天的分区里,对不对,那我给你讲一讲,你说我们到了15号这张表里过期的那个日期应该是哪一天,应该是14吧,对吧?因为你是不是改成前一天日期对不对?所以说这里边呢,一部分过期的数据咱都得拿出来给他放到过期的这个分区,也就是十四二分区里,对吧?那这就是我们第二天的这个数据的一个大致的流向,对不对,一部分写到这里,这里边还得一部分拿出来,对不对?OK,那接下来我们今划头,那随然时间推移,我们拿到第三天,第三天的时候我们能拿到什么数据呢?是不是还是增量数据对吧。
17:25
增量数据是不是又是又是新增级变化,新增级变化都是最新,是不是又是放到9999对不对,那有变化是不是又有过期,有过期就得拿出来,这回是不是又得放在十五二分去了,对不对,OK,那这就是我们后续每天的一个数据的流向,你会发现实际上呢,诶,第一天的这个流向跟后续每天的流向他们是不一样的,对不对啊OK,从这也能验证下来,就是我们一会写字了,咱们一起练,OK啊好了,那这个数据的流向咱就搞清楚了,来完了之后视频我给他顶一下啊。嗯嗯,来吧,各位同学,那咱接下来呢,就继续往下走,呃,下面呢,我们要做的工作就是说去看一看这个circle咱们到底怎么写对吧?呃,按照我们刚才的规划呢,这个30个咱一共需要写两个,对吧?那现在呢,我们先写第一个,呃,第一个呢,就是所谓的首日装载,对对吧?OK,那现在我们先来一个首日啊,那首日装载的话,那我们现在假定当前的日期是哪一天呢?就是2020杠零六杠幺四,这是我们数仓的首日,对吧?好,那接下来继续往下走,来吧,看看这个咋写。
18:22
最终写完之后肯定是in色加select对吧,咱们select from哪啊,剩在from o DS user IC那张呀,对不对?所以在这呢,我们就直接来一个select from,应该是ODS的user INC没问题吧,好,那拿他哪个分区的数据,是不是就拿他第一天分区,他的第一天分区是不是就是那个所谓的全量数据对不对?OK,那咱们现在呢,先把我们所需的所有数据都查出来走。我给他查出来之后长这样对吧?啊长这样啊,长这样,那完了之后咱们怎么处理一下,是不是得首先得先干啥,首先得先过滤一下,先过滤是不是再查下对吧,为啥?因为你要知道咱们这张表当中是不是会有那个什么开始和结束的标志啊,对吧?这里边这个date它全是空,应该看到了,对吧,你看这有一个开始,那底下是不是应该还有一个结束啊,对吧,这个结束有没有。
19:08
没显示这个是为什么啊,因为这没全啊,这只显示500行,你得点一下哦啊,才能展示所有数据,那最底下这是不是就会有一个complete对吧?是这样的,那这两条数据我们不能要,所以说咱得先把它过滤掉啊,那这个过滤咱们用水过滤,就用typeb自动过滤吧,对吧?它得等于什么样的才行,Boot STP,然后呢,杠是in inside才可以啊对吧?来,咱们把这款数据呢,先给它过滤出来好了,那现在数据咱们是不是就都已经拿到了,就是拿到之后咱还得干啥?你得把这里边儿的一个一个的字段得拆开是不是才行啊,对吧?哎,怎么从这里边拿数据啊。你要注意date这个字段是一个什么类型,还记得吗?是一个结构体吧,怎样获取结构体,这边一个一个字段点是不是就完事了,对吧?所以这个呢,我们只需要在里边点就行了啊,那这里边咱们都需要谁?呃,我就不在一个点了,我直接拿它是不就行了,我给他处理一下对吧?能拿到的咱们直接拿,拿不到的是不是再想办法对吧?来给他先处理一下,把前面的标号去掉,这个删多了啊,CTRLF,那CTRLF啊,然后呢,我们再来一个这个,呃,这个点这个星啊呃,这个没点正则,点一下正则啊好了,全部选中,选中之后呢,给它删除,换成逗号,那当然了,我们在前面还得加上一个什么才行,呃,对,还得加上一个date点对吧,OK啊,加上一个data ta点,然后CTRLCTRLC,好,完了之后呢,我们放在这个位置CTRLV,好,那放在这之后呢,我们是不是可以先尝试着去查一下对吧?这个date会报错,这个是正常的,因为这个data不知这个语法对吧?哎,咱不用管它啊,直接查好,然后呢,这个circle它也报错了,这个报错是因为什么呀。
20:39
是不是有一个字段是拿不到的呀,对吧,谁拿不到start data对吧,业务系统里边是不是不会有这个什么star的摁data呀,对吧,所以这他肯定是拿不到的,拿不到这的咱得怎么怎么做呀,咱们是不是得直接给他加上俩字段就完事了,对吧?首日我们是不是给他主手动的加俩字段对吧?开始按照我们的规定应该加上,是不是咱们首日日期零六杠四就完事了,对不对,那这个结束日期呢?那就是9999是不是极大值就完事了,对吧,这个start还有n date这两个东西呢,我给它作为它的别名就行了啊9999,然后杠12杠三幺没问题吧,现在我们再来查一下,好,那现在这个数据现在是不是就可以正确的查出来了,对吧?但是查了之后,各位同学你看一下这里边相有一个问题,什么问题呢。
21:18
你看啊,这有一个Nick name,这有一个name啊,当然nickna无所谓,是昵称对吧?这个name是不是应该就是这个人的真实的姓名了,对不对,那our phone number是真实的手机号码,这个email是什么呢?是他真实的电子邮件对吧?这些信息其实都应该是属于这个人的一个什么信息啊,隐私信息或者叫做敏感信息对不对?OK,那这种敏感信息我们往往是不能直接明文存储在这个书仓里边了啊,因为这里边可能会存在一些泄露用户隐私信息的风险,对吧?那所以在这儿我们通常怎么做呢?啊对,你需要去做一个操作,这个操作呢,它的专业的叫法叫做脱敏,所谓脱敏呢,就是呃,脱除敏感信息对吧?啊,所谓的敏感信息怎么脱除呢?你说怎么脱除这个敏感信息,很简单,基本上的做法就是两种,要就是要么第一种呢,就是你加星号去处理,对吧,比如说我这个姓名,我只展示它的名字,那姓呢,我给他用这个星号代替对吧?手机号码呢,中间几位呢,我给他用星号对不对,这是一种方式,那还有另外一种方式是怎么做呢?就是直接加密对吧,比如说我们用。
22:19
啊,MD5加密啊等等等等啊,是那样的啊呃,那在这儿呢,我们就直接使用MD5加密就行了,在还有当中,咱们使用M加MD5加密是比较方便的啊,因为它给我们提供了一个专门的函数,就是用来做MD5加密的,是这样的啊OK,那在这儿呢,我们就使用它去做一个这种加密操作就行了,那咱么去加密呢?很简单,你把这个name幕拿过来,直接调一个MD5函数,那就完事了,诶直接给它放进去,这个非常方便啊好,那完之后这边呢,咱们也是一样的CTRLX,咱们也来一个MD5,然后呢,给它放进来,那这个呢,咱也是一样的CTRLX来一个FD5CTRLV好了,这样一来,我们这三个敏感信息的字段是不是就完成了脱敏的操作了,对不对?那现在我们再来查一下,你看他现在是不是已经将敏感信息进行了一个加密的处理了,对吧?好了,那这个完成之后,我们,诶所需要的数据就相当于已经全部都拿到了,最终咱们需要做一个什么操作,是不是inser对吧?那我们就要将数据insert or到哪,应该是dim层的user z这张表的哪个分区。
23:18
999有分区吧,对吧,应该是9999,然后杠12杠三幺,诶那就完事了,那首日装载到现在为止就OK了,这个是不是很简单对吧?首日简单啊,这个其实难点在哪呢?在每日的那个状态语句上面对吧,OK啊好每日怎么做,咱下节课再说啊,视频我停一下。
我来说两句