温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,那么用户行为数据以及业务数据,我们呢,已经给他采集到卡夫卡了,那接下来我们要把卡夫卡的数据给同步到数据仓库了,那数据仓库我们既有实时数仓哎,也有离线数仓,那首先呢,我们要给它同步到实时出仓啊,同步到实时出仓啊,这事我们再来看一看这个架构图。啊,看这个过程数据现在已经到卡夫卡了,那对于卡夫卡来说,实时数仓我们的起点在哪啊,啊ods是不是ods,我们和DWD都给它存储在卡不卡了就是卡夫卡的topic。那么现在好了,你说对于flink来说啊,我们这个实时出仓还有必要我把数据同步一下吗?哎,是不是没有必要了啊,他没有必要再把数据同步一下了,我们的flink直接从我们的业务数据的这个topic和用户行为数据的topic消费就完事了,哎,直接给他消费到Li,那么接下来就是写link代码了。
01:16
哎,通过link代码消费我们卡法当中的数据,那所以说关于实时数仓我们还需要做什么事吗?哎,还需要同步吗?它不需要了吧。哎,实时受伤我们呢,就不需要同步了,我们等学完flink之后,然后,哎,直接把卡夫卡的数据消费到我们的flink里就完事了啊好,那我们再看看这个离线数仓,哎,离线数仓它不行,离线数仓我们是在have建模的呀,Have它可不是读卡普卡的数据啊,Have是从我们的HDFS上load进来的吧,有一个load的语句啊,漏到我们的have上。好,所以说我们接下来要做这么一个事儿。
02:03
啊,离实时数仓这儿不用做了,那离线出仓我们还要把卡夫卡的数据给它导入到我们的HDFSOK,啊这个地方啊,我暂停一下。
我来说两句