00:00
好,那接下来我们聊一下什么是弗CDC啊,那弗CDC呢,其实是社区开发的啊,其实这个呢,是阿里的这个云协,他是基于这个个人兴趣爱好啊,个人的兴趣爱好而去搞的一个项目。啊,也是个人啊,那就是类似于这种大牛就没办法对吧,咱们呢,只能去去去用啊,当然这种我们之前学框架的时候,有好些都是这样的,国外呢会比较多一些啊,就是用利用业余时间啊,或者说基于个人的兴趣爱好开发的一个什么内容,对吧?这个是阿里的啊,一个工作人员,然后开发的社区,但现在并没有合并到弗Li的官方啊,它的一个内容文档啊,什么东西还要到上面去看才可以啊好呃,开发了一个弗CDC连接器的一个组件啊,可以直接读取我们最常用的MYSQL。啊,这样的方式,当然现在还没有做这个奥瑞啊,或者其他的关系型数据库啊,现在目前只有他们俩啊,但用最多的肯定还是买circleq啊,买circle他们官方也在说要开发这个包瑞克啊,那可以直接读取全量数据和增量变更数据。
01:17
嗯,那这也就是弗林CDC为什么现在比较火,为什么有很多人用的一个点,那你想想看,如果说我们有传统的CDC麦克,或者说我们用的是这个canal这种方式,对吧,大家对canel稍微熟悉一点,那我们要用弗Li CDC。跟这个有什么区别呢?最大的一个点,它这个好处,最大的好处在于什么呢?就是说如果说我们用canal,那也就是说my circle读取数据,用canal加工过来监控,监控到呢,我们放在卡不卡,然后再用谁啊弗林去消费数据做加工处理吧,再用弗林格去处理,而如果有了弗林的CDC呢。我们如果你要追求极致的速度的话,我们是不是可以直接拿他拿数据之后直接做处理,做加工处理啊,我不需要消息中间件了,我假如说只是做一个普通的实时计算,我不考虑分层,乱七八糟这些事,我是不是可以直接做处理,那这个时效性跟这个流程时效性比,大家很明显能看到,明显我们用弗CDC读取数据之后,是不是更高效啊?
02:29
这块没有问题吧。对吧,他就可以更高效的处理我们业务数据当中的这种变化的内容。啊,是这样的东西对吧,它更高效,可以不需要这个消息中间键了。啊,但是当然我们实施数仓啊,我们要考虑分层,我们还是用弗Li CDC读过来放到卡夫卡,再用弗Li格去消费啊,那如果说是斯SPA的S那个项目替换成弗Li去做,我们直接用弗Li CDC读取数据直接就完了,对吧,并不需要其他的卡夫卡,之前我们是不是用肯读取数据写到卡夫卡,然后用SPA消费卡夫卡数据,对吧?而如果说你用fli去做那个项目,直接用分CPC读计算完了,对吧?不需要考虑这个事情啊好,那这个呢,一个组件,其实他他并不是说云杰自己开发了一个什么监控这个blog的,没必要对吧,阿里已经开发了一个al啊呃,那他呢,其实是基于这个B去写的。
03:35
呃,福利CDC呢,相当于内置的一个DB,而DB呢是跟肯一样的工具,可以监控二啊,实时的读取到MYS当中动态变化的这个数据,内置了一个它division。啊是这样的东西,所以他也没有什么特别神秘的,就是做做的一些加工,然后接下来呢,这个开源地址啊,这个地址,那我们大家看一下这个呢,有这个文档。
04:06
嗯,但是这个G呢,访问的稍微慢一点,我们稍等一下,但是我T字,我T字是开的呀。稍等一下啊,这个访问get有时候跟机子也没什么关系,Get有时候就是这样,就访问的就会比较慢。我们稍微等一下啊。因为这上面呢,其实可以看到文档,看到文档,嗯,这个。这好慢呀。呃,这样吧,我们让他在后台那边刷着,我们就不管了,因为get号有时候访问,诶这个你看啊呃,啊这个就出来了,对吧,出来了没有问题,那这个呢,是它的一个源宝包,你可以看它的一个源码,反正我下了啊,我把它下下来了,然后呢,去嗯,看了一下,然后接下来更重要的是底下这个地方呢,可以点到这个文档当中。
05:11
啊,可以点到文档当中,现在呢,其实他已经出到这个2.0了,但是呢,在文档当中我们得给他看一下啊,这边呢,有一个跳转地址对吧,点开。这个跳转的话又是一个。给的一个地址啊,所以呢,稍微有一点慢啊,那这个呢,我们稍稍微的去等一下啊,一定要了解一下它这个版本,咱们现在用的是01:12的这个flink对吧,你不要随便它升级到2.0 2.0这个东西呢,要01:13的flink去对应啊。所以我们现在用01:12的,用这个1.2其实就够了,你们稍等一下,你们其实可以自己打开这个网页去看一下啊,可能你们的网速能够快一点。
06:01
但是也不一定,因为你们现在开着直播对吧。我直接访问这个地址看一看啊。跳的好慢呢。这个文档。嗯,那我们就不看了,我就告诉大家我想看什么东西,就是这个上面呢,它有一个这个版本。啊,我每次说要放弃的时候,他就出现了,你说气人不啊,我很气人对吧?好,那接下来呢,连接器我们点到这个my circle的一个连接器啊,那这个当中呢,它最新的已经出到2.0了,就是咱们这个弗Li CDC,那这个当中关于这个内容,它有版本的一个介绍啊,那我们来找一下这个connection options,哎,这是它的一个那个内容啊嗯,然后我们找一下它,它这个是这样,我们直接点到这里,我们往下翻一下啊,这是他的一个这个介绍。
07:11
哎,他现在他他又换了嘛,上一上一次录课的时候不在这啊呃,然后呢,我们去重新看一下这个地方,点到这个连接器啊,我们看一下。或者说找这个吧,Table circle或者说这个,哎,这这这这在这在这个他现在放出来这个弗支持的版本,对吧,在这个地方。但这个真的好慢呀,每次点一下就反应半天啊,把这个换点他。就呃挂到后台吧,大家知道一下啊,它其实里面是写了一个版本啊,这个是我老早截的图,老早截的图呢,是11,他这个就是直接11加就行了,对吧,那它这个核心的阴暗啊,就这个样子。
08:04
啊,加这个啊,这是老的新的呢,是2.0.0的,2.0.0的,好,那我们大家看一下这个依赖,我们接下来写代码要导的这个依赖,对吧,那第一个啊是flink Java,那没得聊对吧,第二个fli STEM Java啊,这两个东西核心的,那我们要在Windows里面去运行,那肯定要有这个客户端啊,肯定要有客户端,那接下来是哈杜,因为我们要做断点续传,断点续传它的内容呢是写到CK里边的,所以我们最后要做check point的,我们用NDFS作为我们的check point的一个地址啊好,那接下来。是买S的驱动对吧,一定要那复定的CDC的连接器,最后呢,我们自定义反序列化,呃,序列化器的时候呢,我们要把它变成阶层格式,所以呢,我们找了一个法杰森啊,那这几个包是这样子,呃,我们看看这个同学说的CCDC弗结合的比较好,和弗格的乘方结合,保证呢抓取数据不会丢,类似保存check point当中,对,但是其实所有的框架都有断点续盘啊,像mace还有这个canel,它都可以做到断点续传。
09:21
啊,都能做到断点续转,这个要注意一下啊。下面这些东西都可以做到断炼续的,它都是有这个功能的,好,当然link是把它保存到checkpoint里边的,那如果挂掉了,咱们可以重新拆个泡的或者C的去恢复数据啊,可以做到这个消费,诶它一定不会丢,对吧?啊,一定不会丢,至于会不会重,那就看下游了呗,看下游有没有要往事物去写,对吧,有没有密等性啊,如果有密等性,前面只要不会丢,可能会重也没有关系,对吧?啊,那董总说的没问题啊,对吧,他会保存到checkpoint,所以我这边搞了一个哈杜的依赖嘛,因为最后呢,我们要做这个checkpoint做演示啊,所以呢,我们搞了一个他啊好,这是我们走看一下,我再看一下这边啊,诶,好了,对吧,大家看啊,官方提供的这个。
10:14
就是其实我们现在是01:12。对吧,01:12的flink啊,那其实最高的也只能用到CDC的1.3啊,注意最新的二点零用不了啊,最新的2.0呢,要01:13才可以啊,要不然呢,有一些bug,有一些bug啊,下周会发一个定个CDC2.0的视频啊,因为这个太新了,01:13太新了,咱们现在还用不上,对吧?我们不要用特别新的这个版本啊,不太好,因为你在面试的时候也不好说,人家刚出来不久呢,你就用了,说用了一年多两年了,那那个时候还没出呢,你怎么用呢,对吧?所以呢,我们挑一个偏老一点的啊,偏老一点的啊,好,那在2.0里边的新特性大家可以去了解一下啊,做了很多的事情啊,好,这是我们所看到的一个点,主要就是想大家看看这个版本,那其实大家可以自己点进来,把这个文档呢,去看一看里面一些注意事项对吧。
我来说两句