00:00
好,那接下来呢,我们进入第一个文档,第一个文档呢叫数据采集,那实际上呢,也是我们的ods层。原始数据嘛,大家应该还记得离线数仓当中ods层我们主要的做的事情。对吧,我们主要所做的事情。那么我们做的事情呢,就是说保持数据原封不动。是不是?对吧,啊,离线数当当中啊,我们最重要的。保留数据原封不动,原样保持原样啊,不做任何修改对吧,然后呢,嗯,建了一个分区表,然后呢,是一张压缩表,对吧?但是实时图当中呢,我们就不要什么分区压缩了,因为实时的离线呢,分天去保存这个数据没有问题对吧?好,那第一个文档啊,讲到这个事,那这个文档当中我给大家看一下我们要学习的内容有哪些啊好,那我先把这个呢。
01:04
文档折叠一下啊,折叠一下,呃,那这个当中呢,首先第一个是我们实时数仓,它这个分层介绍。这里面包括两块,第一个为什么要分层?对吧,我们能有什么好处,第二个就是说我们分为几层,其实刚才大家也清楚了,但个之后呢,我们要讨论一下,这几层呢,分别存到哪,为什么要这样做。对吧,好,大家呢,听课的过程当中,可以旁边放一个纸笔诶,有的不懂的地方,或者说你觉得这个重点的地方,可以稍微的做一个记录,对吧,方便下课去问啊,方便自己复习啊,这也是学习的一种方式,这是第一章,第二章呢,是对于需实时需求的一个概览,这个比较简单啊,第二章呢,就听个热闹,大家呢,了解一下啊,听个热闹就好了啊,我们就不多聊了,呃,第三章架构分析。那之前呢,我们有一套离线架构,其实这个架构图呢,大家是比较清楚的啊,虽然现在可能看不太清啊,但没关系,整体的大模样还在这儿,大家呢应该知道,呃,我不知道,但是我不知道的是大家对于这个架构能不能把这个所有的东西能够说的明明白白的。
02:17
这个是很重要的,很关键的一个点。啊,一定要自己能说出来,好,那下来我们做了一个实施架构,呃,之后呢,我们要最重要的关于第三章最重要的一个点是对比这两种架构图。啊,对比这两种架构图,因为这两个架构图当中呢,有一点区别,我们要对比,万一面试官问到了,我们应该如何去回答这个问题,是这样子啊好,那么接下来呢,是第四章。日志数据采集,也就是我们所谓的叫行为数据采集了啊,那这个里边呢,还是分为两大类数据嘛,一类行为数据,一类业务数据,所以第四章呢,讲的是行为数据的一个采集啊,在这个当中呢,我们要带着大家去搭建N这啊以以前一直说什么web APP上发送请求到N这,负载均衡到我们的日志服务器,那在这个项目当中呢,我们就把N这打起来,带着大家去玩一玩啊,那第五章呢,是业务数据采集。
03:19
啊,业务数据采集,那主要的就是这两张行为数据采集跟业务数据采集,但实际上他俩都不是一个重点啊,他俩本身采集本身不是一个重点,但是这里边有没有重点呢?有第一个啊,在于整个文档当中,那架构分析第三章是我们重点内容,第二个重点内容在哪呢?在业务数据当中的采集,我们要用到一个东西叫弗林CDC。弗林CDC啊,那大家之前呢,是接触过采集业务数据实时采集的,叫canal。是不是对吧,这个大家呢,俊逸老师大大家用过了,那在这个当中呢,我们再学习一个弗林CDC,还要另外再给大家介绍一个麦克,同时我会对这三者整个的做一个对比。
04:15
啊,我会对这三个整个做对比,告诉大家我们为什么要用到flink CDC,而不用canal和Maxwell。啊,我们主要做的这个事情。啊,这个要知道一下对吧?啊好,那这是我们这个当中的重点内容,刚才我勾了啊,这里边重点第一个是架构,第二个是弗Li CDC啊什弗林CDC在我们第五章当中,在这块,哎,有一个弗Li CDC的一个入门,对吧,在这个地方,好,这是我们当前采集模块,也就是说我们的ods层整体的一个课程介绍。啊,大家需要了解一下。
我来说两句