文章/答案/技术大牛

发布

首页视频124_第十章_Flink和Kafka连接的精确一次

124_第十章_Flink和Kafka连接的精确一次

2022-12-022022-12-02 16:02:30播放39

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/124_第十章_Flink和Kafka连接的精确一次.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
前面我们已经介绍了，端到端精确一次的保证，我们知道这个要求其实还是非常高的啊，最好的实现方式诶，那就是首先。数据源方面我们可以去重置偏移量啊，那我们知道很多的这个流失处理的数据源其实都能做到这一点啊，然后另外呢，在think端写入外部系统的时候，最好是能实现一个事务性的提交，最理想的实现方式就是所说的两阶段提交to PC的方式，哎，那在实际应用的时候，什么样的架构能够实现这样的端到端精确一次呢？诶，那我们知道啊，那就是。Flink的最佳搭档卡夫卡啊，所以接下来呢，我们要介绍的就是flink和卡夫卡进行连接的时候构建的这一套流处理系统，它的精确一次状态一致性的保证好，那这个过程当中我们会发现啊，他俩既然天生一对嘛，所以我们完全就可以前面读取数据源的时候利用卡夫卡。
01:01
作为一个数据源，哎，消息队列啊，先放到这个卡夫卡里边，从卡夫卡读取数据，接下来呢，交给link。去进行一个数据的流处理转换，然后接下来得到的结果再重新写入到卡夫卡的另外一个。主题topic下面去，哎，那这就是我们所说的类似于一个数据管道，那前面的source任务和think任务其实连接到的都是卡夫卡，之前我们说到了啊，South这一端link底层其实用到的是一个flink卡夫卡consumer，一个消费者，那它本身呢，就可以把当前已经处理的数据的这个偏移量作为状态保存下来，发生故障之后呢？诶，那进行回滚，从检查点去进行回滚，读取状态之后，那就会。重置偏移量，从卡卡里边重放数据，重新去进行处理，那这样的话就至少保证数据不丢，然后接下来内部我们打开checkpoint，开启检查点，就可以保证处理的结果都是精确一次的，那最后呢，关键就在于写入到卡夫卡这里面的这个连接到底是怎么样去做的，那我们知道flink写入到卡夫卡这里，我们使用的这个连接器提供的一个function，就是所谓的flink卡夫卡producer啊，那这样一个think方式呢，其实之前我们在代码里边也简单的看过啊，我们可以打开之前所实现的s to卡夫卡这里。
02:31
这里传入了一个flink卡夫卡producer，我们会看到它本身其实就继承自to face commit s方式，这就是我们所说的flink底层给我们提供的两阶段提交think function对应的这样一个接口啊，当然了，它本身是一个抽象类，因为它还呃就是继承自rich think function这样一个抽象类。那么在这个类里边呢，如果我们简单的看一下它里边可以调用的方法就会看到啊，这里面的抽象方法其实非常非常多，除了每来一个数据都要去调用的这个invoke方法之外啊，另外啊，我们可以看到这里有一些初始化状态的方法initial state。
03:12
比如说有去构建事物，处理事物的一些方法啊，Begin transaction啊，去开启一个事物啊，那current transaction啊，去获取当前的事物，那这些方法都是有的啊，另外我们还可以看到两个非常明显的方法，一个叫做。Pre commit，很明显这就是预处理阶段我们所要去进行的操作啊，然后另外还有一个就是commit啊，就是正式提交，正式处理的阶段，这就是我们所说的两阶段提交，当然了这个具体的处理过程啊，可能会非常的复杂，所以这里边我们就不去详细的去进行介绍了，那感兴趣的同学也可以自己去看一看具体的处理逻辑，那一般在实际使用的过程当中呢，只要直接使用连接器帮我们提供的这个producer，它自己就给我们实现了底层的那些东西。
04:02
所以我们在这里呢，还是只要了解了弗link跟卡夫卡连接起来之后，端到端进行状态一致性啊，精确一次保证的原理就可以了啊，那接下来呢，我们还是举一个例子啊，考虑一个具体的流处理系统，考虑一下具体的过程到底是怎么样去处理的，好那首先我们看一下当前这个流处理系统里边所有的组件啊，诶，那首先呢，这里边涉及到有一个job manager，这是我们说进行。检查点中央调度的组件，然后另外呢，诶还涉及到一个状态后端，因为检查点的保存跟它是有关系的啊，另外呢，我们这里边还有就是数据源使用的当然就是卡夫卡了啊，这是连接到外部系统，然后呢，中间这一块，这就是flink处理系统，我们主要分成了三大块儿。Source transform和think，哎，这里的transform呢，我们举的例子是进行了一个窗口计算啊，是一个window算子啊，那整体来看的话，South这边连接到卡夫卡，那很显然这里就是弗link卡夫卡consumer，那最后的S呢，连接到外部系统写入的还是卡夫卡，所以这里当然就是弗Li卡夫卡producer。
05:12
接下来我们就来看一看端到端的exactly one啊，这样一个两阶段提交的过程到底是怎么实现的啊，那首先啊，我们在处理的过程当中啊，我们就以一个检查点的触发作为一个初始的阶段啊，因为关于这个检查点啊，数据处理和检查点的保存，前面我们都已经讲过了啊，这个流程已经非常熟悉了，这个就简化，我们就以draw manager，像task manager啊，所有的这个S算子注入一个检查点的分界线barrier作为当前我们考察的起始点。啊，那首先这里触发了一个检查点的保存啊，那么SS任务这里接收到这个信息之后，就会把一个分界线barrier插入到当前的数据流里边啊，接下来呢，这个barrier就随着所有的数据啊，在当前的流里边去进行传递啊，当然了，朝下游传输的时候是直接去广播出去的啊，那下游接收上游不同的算子任务发来的边的时候啊，那可能需要去执行这个分界线的对齐啊，那当然了，我们去进行配置的时候，可以去设置非对齐的分界线，这个前面我们都已经说过了。
06:18
那接下来我们就考察具体的每一步操作，那首先我们知道啊，对于每一个算子任务而言，它接收到数据的时候处理数据，那接收到bar分界线的时候呢，就要对自己当前的状态做一个快照保存好，那首先就是SS任务需要对自己的状态，也就是当前读取数据的偏移量做一个快照保存。保存呢，当然就要存到状态后端对应定义的那个存储空间了，一般默认情况下就是分布式的文件系统。然后将Barry朝下一个任务啊，下游任务window这个操作去进行传递啊，那同样window操作接收到Barry之后呢，也是把自己当前的状态做一个快照保存，保存到状态后端啊，所以这样一步一步去进行操作，这是我们之前所说过的检查点的保存，然后最后呢啊，这barri会传递到最后一步的think任务，那同样think任务接收到这一个。
07:17
Barry之后。也会将自己的状态去做一个快照的保存，写入状态后端，那它不一样的地方在于，诶，当前它是需要将处理的结果数据要写入到外部卡夫卡里面去的，那这个时候的写入怎么写入呢？注意这个时候我们是预提交，所以这个预提交它就需要去。开启一个事物，这就是我们所说的transaction，一对应检查点的一个事物，所以它开启事物的时间点其实就是接收到Barry去进行状态快照的时候。它就连接到外部系统开启了一个事物，然后呢，Barry之后再到来的数据，那就都会基于这个事物去提交到卡夫卡里面去了，哎，所以这个过程，这就是我们所说的预提交的阶段。
08:14
那这里需要注意的就是think任务接收到barrier代表着当前事物的开启，那事物的关闭是什么时候呢？要注意并不是下一个Barry来到的时候。每一个barrier来到的时候，啊，来到think任务这里的时候，只对应着一个事物的开启。哎，那什么时候之前的这个事故就要关闭了呢，那是要等到。Job manager通知，当前检查点已经保存完成的时候，哎，那是对应着checkpoint的完成，这个检查点保存完毕了，哎，那所有包含在这个检查点状态更改里边的这个所有的数据对应的输出结果就可以正式提交到外部系统里面了，所以这个时候呢，Think任务就正式提交之前的事务，把之前还没有被正式确认的数据标记为已确认，接下来呢，这些数据就可以正常被外部应用消费了。
09:13
那如果在这个过程当中啊，如果啊，在接收到drop manager发出这个检查点保存完成通知之前发生了故障挂掉的话，那很显然我们当前所有这个事物就没有正式被提交，那所有这里边啊，这个检查前里边涵盖了的所有数据，对应的这个输入写入就全部会被撤销回来，所以回滚之后啊，就是上一个检查点里边保存的所有数据的状态，而那些数据呢，都已经因为检查点确认了，所以那些数据都已经正式提交到了卡卡里面，所以这样的话就实现了真正意义上的两阶段提交，就可以保证端到端的exactly one精确一次状态一致性。
10:01
这就是flink跟卡夫卡进行连接的时候，它进行状态一致性保证的原理和过程啊，那在实际使用的过程当中呢，真正要实现端到端的exactly one啊，还要有一些额外的配置。啊，首先我们在flink内部啊，必须开启检查点的功能，这个就不用说了啊，要保证精确一次嘛，然后接下来呢，在flink卡夫卡producer它的构造方法当中，必须要传入一个参数semantic.it once，也就是指定当前的状态一致性语义是精确一次啊，那其实这个在我们源码这个当中啊，看这个弗link卡夫卡producer它的构造方法。我们也会看到有一种后边就可以传入一个flink卡夫卡producer.semantic啊，那这里边它的选项呢，就是exactly one at least one和那那这里我们既然保证精确一次啊，默认情况下它其实开启的是at least one，所以如果想要达到精确一次的话，需要把这个也打开啊，这也是一个选项。
11:10
那另外还有就是我们需要去配置卡夫卡读取数据的消费者的隔离级别，这里所说的卡夫卡是什么呢？是我们最终写入到的这个外部对应的卡夫卡的这个topic。因为我们说当前是使用了一个两阶段的提交，那预提交阶段提交上去的那些数据已经在卡夫卡这个主题下了，那他能不能被外部应用去进行访问消费呢？诶，那。默认情况下提交上去的那些数据啊，它都是uncommitted的状态啊，也就是说只是被标记成了未提交的数据，那如果说卡夫卡里边啊，它的隔离级别isolation.level，我们知道它默认情况下其实是read UN committed，也就是说如果是未提交的数据的话，外部应用也是可以去读取消费的。
12:01
那这样一来的话，我们这里边对于事物的这种保证就没有意义了吧，关键就在于其实不是这个事物要去撤回，要去回滚，关键是不能让外部应用直接消费这些数据，不能让用户，最终用户看到。啊，那所以这里面呢，我们就应该把这个隔离级别要单独的设置成committed read committed只有。真正提交了的数据才能够被读取消费，那遇到被提交的消息的时候呢，就不会被去读取消费了。啊，那最后呢，还有一个配置的细节点，就是事物的超时配置，之前我们就说过啊，对于外部系统而言，有可能就会出现我们在等待这个检查点保存完成的时候呢，事物已经超时了，诶直接外部系统把这个事物关闭了，那这个时候就会出现状况，就会出现错误。这里有一个很大的问题啊，其实就是flink卡夫卡连接器里边，它是有一个默认的事物超时时间的，那这个默认的时间配置呢，是一个小时啊，等待还是很长的啊，但是卡夫卡的集群里边。
13:09
默认的事物的最大超时时间配的不一样啊，默认是15分钟，所以有可能就会出现什么情况呢？那就是卡夫卡连接器这一边，这就是我们的thinkk任务吗？Thinkk任务这边事物还没有超时，那当然他就会继续等待检查点保存完成啊，那但是呢，如果已经达到15分钟的话，卡夫卡集群那边就已经把我们当前的事物关闭了，那当然就会直接丢弃预提交的数据。而如果之后我们的那个检查点又正常保存了的话，那这些数据它默认是已经写入到外部系统了，那最终这些数据相当于就没有写入，就会被丢掉。所以如果我们想做配置的话，应该。让前边的这一个超时时间，也就是卡夫卡连接器里边的超时时间，事物的超时时间要小于卡夫卡集群里边配置的事物最大超时时间啊，那这样的话就可以真正意义上的实现弗林跟卡夫卡连接的端到端的精确一次状态一致性。
14:09
这就是这一部分内容。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（124/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

124_第十章_Flink和Kafka连接的精确一次

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐