00:00
Hello,上硅谷的消化版本,大家好。我是上威武的讲师王辉,那么本次由我给大家带来线下课程当中非常重要的一个项目,基于flink的一个实时数仓,那么我们可以通过当前的思维导图了解一下本次课程的主要内容,呃,那么呢,我们能看到它分为八块,第一块呢是分层架构的介绍。啊,那么第二块呢,是第二块到第六块呢,是整个的具体每一层所做的事情的一个介绍,那么第七块呢是关于数据可视化,那我们采用的是百度的书做的我们可视化,也就是最后我们将所有的代码编写完成并部署以后,可以通过百度的sugar能看到实时的指标变化。那么第八节呢,是关于flink的优化,那么在企业当中可能我们或多或少会遇到一些问题,那么这个优化主要包含像资源配置的优化。
01:06
以及在生产环境当中,如果说我们遇到了反压或者说数据倾斜这种情况,那么如何去发现并解决该问题?那么第三块呢,主要是关于我们项目当中用到了fli s克,所以在优化里边我们也添加了flink s克的相关优化,呃,那么从思维导图当中呢,我们可以查看一下。首先我们展开当前的一个分支,其实当前在这块介绍的内容并不多。但是并不代表我们本节内容就很简单啊,那么我们可以给大家看一下我们之前做完之后画的一个完整的架构图啊,那我们可以粗略看一下这张图呢,明显看到当前的项目还是非常复杂的。
02:00
啊,这个架构图当中呢,我们把包含的一些重点内容以及难点的东西,一些细节都放在了架构图里边,其实这个是要求大家在学完本套课程以后,自己能够完成当前这个架构图的一个绘制,啊好,呃,那我们思维导图当中呢,还会涉及到特别多的一个内容。啊,我们可以去查看一下,然后呢,我们展开所有分支,这是重点内容一个介绍,那这个是课程当中详细的内容,我在这块就不给大家展开去说了,那我们主要从以下几个方面,通过一个。TXT文件给大家说明本次课程当中的一些重点内容,那么第一块是我们课程重点啊,首先第一个我们采用的行为数据采集的框架,目前是市面上最流行的叫flink CDC啊,那除了flink CDC以外呢,我们还对比了两大主流框架叫Maxwell和。
03:07
Connect啊,那么我们在对比过程当中会给大家详细说明为什么我们本次课程要采用fli CDC,也就是说弗Li CDC相比较于其他的采集框架而言,它的优势在什么地方啊,好,那么第二块呢,是。关于业务数据采集,那我们知道业务数据采集呢,它主要来自于业务数据库,而业务数据库当中会有非常多的表,那么如何将这个表进行拆分呢?以及。当业务数据。增加了一张表之后,我们如何在不停止实时计算任务的情况下,能够动态的将。新增加的表格数据能够采集到呢?对吧,那么这块就涉及到我们在项目当中一个非常重点的内容,叫动态分流。
04:02
啊,我们就实现在不停的情况下,能够自动检测到业务。表的增加,然后动态的给它添加进来,并采集到卡夫卡当中,这是我们第二个重点,也是一个难点啊,那么第三块呢,因为由于我们当前是一个项目是。数仓,所以难免会涉及到。宽表的创建,那么这个宽表呢,包含两块内容,第一块是事实表与事实表的关联,那么这个就会涉及到在项目当中就会有多流的。注意。以及多流的union操作啊,那在项目当中呢,最复杂的一个需求当中,我们涉及到七个流的关联啊,那也就是说本次课程的一个复杂程度,大家也可以想象得到,那刚才我们说了,既然创建大宽表,除了事实表跟事实表的关联,那么还要去关联维表啊,那有的同学可能会问了,那关联维度表。
05:07
那么只需要在计算过程当中,我去加载一下配置信息。不就好了吗?但是大家要考虑一个问题,现在我们是一个实时的。处理,那我们更侧重于它的一个时效性,那么在项目当中呢,会涉及到跟第三方框架连接的时候,那时时效性势必会受到影响,那么我们主要在关联维表的时候做了一些优化,比方说我们做了一个旁路缓存的优化。以及我们将其中的一些同步IO的操作转化成了异步IO的操作啊,那也就是说可以大大提高我们的时效性啊,当然这块给大家展示出来的是一些项目当中的一些绝对重点,那除此之外,像茯苓当中一些特色,比方说。
06:00
定时器。状态编程,CD编程以及现在比较热门的弗S克也都是有涉及啊,好,那这是第一块特征重点,那么第二个我们聊一下我们当前课程的一个特色,其实换句话说也不是聊的当前课程的特色,其实我们硅谷出品都会本着这个特色来啊。那么第一个就是新。主要在于我们采用的是flink01:12。来作为我们的基础版本的一个开发啊,其实大家观察到在一些公司当中,或者特别是一些大厂,那么他们的框架呢,版本是比我们要老很多的,比方说我了解到像拼多多他们可能现在还在用1.8的一个版本啊,那么第二个呢,是我们的全啊,那这个全指的是全套资料全部奉送给大家啊,那这个当中包括我在课堂上所给同学写的。
07:03
代码,那我通过get的方式传递给大家,呃,那么第三个点呢,就是系好,那当前这个系呢,讲的是我们全套资料当中。只要你拿到这个全套资料,假如说咱们没有过多的时间可以将所有的代码能够实现下来,那你可以拿到我们的资料粘贴复制可运行啊,就是我们的资料达到这样的一个要求啊,大家可以拿到我们的资料粘贴复制可运行,就是咱们的项目呢,可以运行起来啊,这是第三个我们的一个特色,其实硅谷整个特色都是围绕这点来的啊呃,那么第三大块呢,是我们的一些技术要求,或者说一些前置知识,那么第一个从语言角度来说,本套课程我们采用的是Java语言做开发的,所以你要有Java基础,那么第二块呢,是从框架的角度来说的,那首先前置框架我们有哈杜。
08:05
啊,以及我们采用卡卡来做我们数据的分层啊,那维表呢,我们是放到了HP里边啊,所以你要对这几个框架非常熟悉,因为我们开发当中会应用到这些点啊,那我们知道卡夫卡和h base,它都依赖于我们的zoo keep。这个框架,所以你要对uable也要有有所了解,同时在像编译过程当中,我们用到了旁路缓存,那我们采用的缓存的框架呢,用的是red,所以你要对red也是要了解的啊,好,这是前置的一些技术要求啊,那么最后一块我们主要了的是获取方式,那有可刚才家想了,那我都已经在看这个视频了,你跟我说这个获取方式有什么用呢?对吧,那其实我想告诉大家,未来硅谷发布的一些新的资料或者视频都会通过以下渠道发送给大家,那么第一个我们目前推广做的比较好的啊,B站大家可以关注,叫上硅谷官方这个up主啊,有一些新的视频都会发送到这个上面啊,第二块呢,就是我们上硅谷的公众号,只要关注我们的公众号,回复关键字大数据即可获得我们大数据的全套资料,当然我们可以实时的去更新啊,大家可以随时关注,有一些新的视频呢,我们会在公众号当中发送给大家,那么第三个点呢,就是。
09:34
官网了,我们官网当中有一个鼓励学院,大家可以通过鼓励学院能拿到自己想要的一些视频及资料啊,那未来所有的视频资料都会通过这三个渠道发送给大家啊,那么以上呢,就是我们关于本次课程的主要内容,给大家做了一个精简的介绍。
我来说两句