文章/答案/技术大牛

发布

首页视频064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证

064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证

2022-12-022022-12-02 16:02:28播放39

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷Flink从入门到实战（scala版）/视频/064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我已经知道了状态一致性的概念，那接下来我们就来考察一下flink里边到底怎么来保证我们结果的状态一致性呢？哎，这个其实之前我们也已经说过了啊，主要它就是靠checkpoint来保证，Checkpoint是一种轻量级的快照机制，之前我们也已经讲到过了啊，它其实就是对当前所有任务处理完同一个数据之后的状态做一个快照保存，哎，那它的含义是什么呢？其实就是说等到出现故障，我从这个状态要恢复的时候呢，就刚好会恢复到当时处理完同一份数据之后的那个状态，所以接下来诶，你前面再去重放数据的时候，当然就能保证，只要呃，前面我们这个数据是可重放的，对吧？是是有还有这个数据的，那后边就会保证，诶，它总是会接着之前我们已经存盘的那个状态点在后面再去往后叠加，对吧，处理只处理一次。
01:00
那大家要需要注意的是，这里所说的只处理一次，并不是这个操作，就像我们前面说的那个偶数奇数求和，并不是说这个加的这个操作只做一次，而是说我们最后的那个状态里边只加了一次啊，那呃，所谓的这一个呃，一致性检查点，这其实就是我们flink内部保证状态一致性和故障恢复的整个机制的一个核心了啊，大家可以再看一下这个图，我们在整体的恢复一呃回忆一下啊，当时我们就说过要保存的时候保存什么状态呢？就是全部数据，哎，那都是处理完五这个数据之后的状态，所以前面S任务这里边保存的是一个偏移量啊，S5把这个保存起来，后边这个some even和some odd的奇偶数求和分别保存的也都是处理完五之后的状态，这里边偶数求和二和四是六对吧，加起来是六，那奇数求和呢？135加起来是九，所以必须是。
02:00
存这样一个状态之后，如果挂了的话，那后边就是假如说啊，后面做这个六和七，大家还记得在七的时候挂了，那怎么办呢？六和七就全部都要重放，我恢复状态的时候恢复的是569这样的状态，对吧，都处理完五之后的这个状态，所以接下来六和七哎，同时再再去做这个重放就可以了，能保证这里面的这个叠加结果只处理一次。啊，那当然了，现在这个我们可以有这个区域的，呃，重启的这个策略，那就可以怎么样呢？就是相当于我前面的这个状态，假如说已经处理到这个六和七之后了，那这里边就相当于这个even，这里边的这个状态可以不变，对吧？我继续往后处理，我只是把这个奇数的这个状态从之前五的那个状态把它恢复出来，从差你把它恢复出来，那呃，大家就会想到前面就相当于我要求它还得重放一个什么数呢？得重放这个六和七的数据，要要给我这个分支来去重新做传输，对吧？而我上面这个分支就不需要去重放这个数据了啊，这是这个现在做的一个一个小的优化啊，啊，那对于我们理解原理来讲，大家就是理解这个重放数据，然后这里边保持状态一致性就可以了。
03:21
那所以我们说，呃，接下来我们要考虑的就是一个端到端的状态一致性了，那这个又是一个什么概念呢？前面我们提到这个保持这个状态一致性，这只是保持了什么呢？Flink内部状态处理结果的一个状态一致性，对吧？啊然后在这个过程当中，我们还想到了他必须有一个前提要求，必须是我这里边是不是任务从这个数据源这里要可以重置这个偏移量啊，哎，大家想我们这里边就相当于想的这个数据源，那就肯定就是像卡夫卡这样的数据源了，对吧？诶这里边是一个消息对立，大容量消息对立，我们可以把这个数据都缓存在里边，对吧，前面做一个这个缓冲，做一个蓄水池啊，那你你这里边当然就可以做这个偏移量的提交，那假如说我们这里边你你就像我们之前那个啊，Soet文本流直接从socket文本流里边去读数，它那边能重置偏移量吗？当然没有啊，它没有存储啊。
04:21
对吧，它就是实时的有一个数直接传递到我们当前的这个端口上来啊，那这里边你当时监听收到就收到，收不到就丢了，那怎么办呢？那就最终即使我们内部有checkpoint也保证不了最终的状态一致性，对吧，你相当于还是要丢啊，啊这首先这是这个输入源，这边另外大家还想到了，那假如说你这是输入源嘛，后边我们完整的操作是不是后边还应该有think任务啊。对吧，Think任务这个还麻烦一点，就是他还会往外部系统去写入啊，啊，那假如说我们这里面的这个数据，你得到的这个计算结果，你在这里边这个本地的这个状态只加了一次H是六，然后后面如果又加了六，呃，加成了12，呃，你你说我之之后恢复的话，要恢复到六，那就相当于这个六就没加上，这个是没问题的，那假如说我外部系统已经把那个12输出了一遍的，那怎么办呢？那后边你再恢复之后，我再重新加，又加成了12，再输出一遍，那不相当于输出了两次吗？啊，所以大家要注意啊，如果我能考虑到整个这个应用程序的话，那可能你不仅仅考虑flink内部的状态。
05:35
这个状态是对了，有拆point就对了，但是呢，呃，还得考虑source，就是我们的数据源和think输出到外部系统里边，这个过程当中到底能不能保证就是处理一次，而且只处理一次，对吧？Because once，所以这里面我们就提出了一个概念，叫做端到端and to end的状态一致性。
06:00
所以说呃，就是端到端的状态一致性就意味着什么呢？就是我们保证它的这个结果正确性呢，要贯穿整个流处理应用的始终，对吧？从头到尾要要保证它是对的，也就是从一开始我们这个呃，读取数据，消费数据，到最后写入到外部系统去，去真正的让有这个应用的展示，或者说一个存储都要保证它是一致的，那那这里边整体来讲，这个状态一致性的级别由什么来决定呢？哎，这里边就有不同的环节了，有中间flink处理的环节，有前面south这一部分的环节，对吧，还有后边think部分的环节，那我们知道既然是连接成的整套的系统，那整整体系统的状态一致性级别是不是它就应该取决于还是木桶原理嘛，取决于那个最短的短板对吧，所以取决于所有组件中一致性最弱的那个组件。
07:00
哦，那那现在我们的这个问题就来了，如果说我想要达到最高级别的exactly once的状态一致性保证的话，那应该怎么去做保证呢？三个组件三个部分都必须达到一个啊，那首先内部这个比较简单，拆point搞定了，那如果要是S端怎么办呢？S端其实不涉及到我们所说的这一个，呃，就是就是只处理一次的问题，对吧？就只要他能重放数据，只要数据不丢，大家想你这个就是因为它不涉及到我们外部写入嘛，你哪怕是读取多次，其实对我们最终的影响，最终的结果没有影响，对吧？呃，对后续的这个操作你应该是由这个think那边去控制的，而不是由south控制，所以S这边呢，我们要求就是必须要可以重设数据的读取位置，也就是可以重新提交偏移量，Offset，就是我们的数据源那边，他必须得把之前的数据都能缓存下来，而且能够给我们保存着它的偏移量，能够重置啊，那另外还有就是thinkink了，Thinkin端的话，哎，如果说我们想要去做这个故障恢复的时候，不要让它。
08:14
啊，诶，这里边就是端已经给我们保证数据不丢了，对吧？哎，那think端这里边至少你数据不丢嘛，至少能保证了，那这个时候怎么样能保证这个数据不会重复写入呢？所以我们重点是考察这个问题，这里就有两种实现方式，一种是密等写入，另外一种是事物写入，这就是我们端到端要保证exactly once的这样的一个考量。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷Flink从入门到实战（scala版）

（64/137）

10分49秒

001.尚硅谷_Flink-Flink简介

510

19分45秒

002.尚硅谷_Flink-Flink应用场景

480

11分3秒

003.尚硅谷_Flink-流式处理的提出

380

15分16秒

004.尚硅谷_Flink-流式处理的演变

350

16分33秒

005.尚硅谷_Flink-Flink的特点

340

23分57秒

006.尚硅谷_Flink-批处理wordcount

520

20分13秒

007.尚硅谷_Flink-流处理wordcount

380

19分14秒

008.尚硅谷_Flink-流处理wordcount扩展测试和说明

410

26分46秒

009.尚硅谷_Flink-Flink集群部署

470

22分34秒

010.尚硅谷_Flink-提交Job

400

7分30秒

011.尚硅谷_Flink-命令行提交Job

350

12分50秒

012.尚硅谷_Flink-其它方式集群部署

360

8分35秒

013.尚硅谷_Flink-运行时架构_运行时组件

390

13分22秒

014.尚硅谷_Flink-运行时架构_作业提交流程

430

16分27秒

015.尚硅谷_Flink-运行时架构_任务调度原理（一）_并行度和slot

360

17分22秒

016.尚硅谷_Flink-运行时架构_任务调度原理（二）_slot共享

470

6分15秒

017.尚硅谷_Flink-运行时架构_任务调度原理（三）_slot共享示例

300

25分35秒

018.尚硅谷_Flink-运行时架构_任务调度原理（四）_执行图和任务链

310

12分20秒

019.尚硅谷_Flink-运行时架构_任务调度原理（五）_自定义任务调度规则

350

16分18秒

020.尚硅谷_Flink-流处理API_Source（一）_从集合和文件读取数据

380

21分32秒

021.尚硅谷_Flink-流处理API_Source（二）_从Kafka读取数据

430

24分49秒

022.尚硅谷_Flink-流处理API_Source（三）_自定义Source

410

6分49秒

023.尚硅谷_Flink-流处理API_Transform（一）_简单转换算子

320

19分15秒

024.尚硅谷_Flink-流处理API_Transform（二）_简单分组聚合

380

11分20秒

025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合

320

12分23秒

026.尚硅谷_Flink-流处理API_Transform（四）_分流操作

350

19分54秒

027.尚硅谷_Flink-流处理API_Transform（五）_合流操作

290

9分39秒

028.尚硅谷_Flink-流处理API_Flink支持的数据类型

420

19分40秒

029.尚硅谷_Flink-流处理API_函数类和富函数类

280

18分54秒

030.尚硅谷_Flink-流处理API_Sink（一）_文件

410

10分44秒

031.尚硅谷_Flink-流处理API_Sink（二）_Kafka

430

18分29秒

032.尚硅谷_Flink-流处理API_Sink（三）_Redis

360

16分42秒

033.尚硅谷_Flink-流处理API_Sink（四）_ElasticSearch

350

17分47秒

034.尚硅谷_Flink-流处理API_Sink（五）_MySQL

480

7分21秒

035.尚硅谷_Flink-流处理API_Window API_窗口概念

360

10分12秒

036.尚硅谷_Flink-流处理API_Window API_窗口类型

330

27分16秒

037.尚硅谷_Flink-流处理API_Window API_窗口分配器

450

20分59秒

038.尚硅谷_Flink-流处理API_Window API_窗口函数及其它可选API

410

15分5秒

039.尚硅谷_Flink-流处理API_Window API_窗口计算测试

270

17分56秒

040.尚硅谷_Flink-时间语义

300

4分32秒

041.尚硅谷_Flink-时间语义的设置

350

19分5秒

042.尚硅谷_Flink-Watermark概念

370

15分56秒

043.尚硅谷_Flink-Watermark原理和特点

320

8分7秒

044.尚硅谷_Flink-Watermark传递

260

16分32秒

045.尚硅谷_Flink-Watermark代码中引入

290

7分8秒

046.尚硅谷_Flink-自定义Watermark生成机制

290

16分10秒

047.尚硅谷_Flink-事件时间语义下的窗口测试

360

9分20秒

048.尚硅谷_Flink-窗口起始点的确定

360

8分7秒

049.尚硅谷_Flink-状态管理（一）_状态的概念

400

15分13秒

050.尚硅谷_Flink-状态管理（二）_算子状态和键控状态

290

27分24秒

051.尚硅谷_Flink-状态管理（三）_状态在代码中的定义和使用

340

17分14秒

052.尚硅谷_Flink-状态编程示例（一）

380

17分29秒

053.尚硅谷_Flink-状态编程示例（二）

410

23分23秒

054.尚硅谷_Flink-ProcessFuntion_基本概念和使用

360

32分49秒

055.尚硅谷_Flink-ProcessFuntion_定时器应用示例

320

9分44秒

056.尚硅谷_Flink-ProcessFuntion_侧输出流应用示例

360

15分35秒

057.尚硅谷_Flink-状态后端

390

13分30秒

058.尚硅谷_Flink-容错机制_检查点概念和原理

280

25分45秒

059.尚硅谷_Flink-容错机制_检查点算法

380

26分28秒

060.尚硅谷_Flink-容错机制_checkpoint配置

350

8分20秒

061.尚硅谷_Flink-容错机制_重启策略配置

440

7分31秒

062.尚硅谷_Flink-保存点

460

10分45秒

063.尚硅谷_Flink-状态一致性_基本概念

400

8分42秒

064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证

390

23分34秒

065.尚硅谷_Flink-状态一致性_幂等写入和事务写入

410

18分19秒

066.尚硅谷_Flink-状态一致性_Flink与Kafka连接的状态一致性

400

22分2秒

067.尚硅谷_Flink-Table API和Flink SQL_基本概念和示例程序

400

9分21秒

068.尚硅谷_Flink-Table API和Flink SQL_基本程序结构

340

15分42秒

069.尚硅谷_Flink-Table API和Flink SQL_表执行环境

360

19分13秒

070.尚硅谷_Flink-Table API和Flink SQL_表的概念和从文件读取数据

410

9分28秒

071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据

340

11分3秒

072.尚硅谷_Flink-Table API和Flink SQL_表的查询转换

390

8分24秒

073.尚硅谷_Flink-Table API和Flink SQL_DataStream和表的转换

400

25分13秒

074.尚硅谷_Flink-Table API和Flink SQL_输出到文件

320

10分50秒

075.尚硅谷_Flink-Table API和Flink SQL_更新模式

310

17分40秒

076.尚硅谷_Flink-Table API和Flink SQL_Kafka管道测试

380

18分17秒

077.尚硅谷_Flink-Table API和Flink SQL_输出到ES

340

8分8秒

078.尚硅谷_Flink-Table API和Flink SQL_输出到MySQL

390

11分33秒

079.尚硅谷_Flink-Table API和Flink SQL_表转换成流

290

7分6秒

080.尚硅谷_Flink-Table API和Flink SQL_流处理和SQL查询的不同

340

12分23秒

081.尚硅谷_Flink-Table API和Flink SQL_动态表和持续查询

430

12分49秒

082.尚硅谷_Flink-Table API和Flink SQL_持续查询示例具体过程

410

20分15秒

083.尚硅谷_Flink-Table API和Flink SQL_时间特性（一）_处理时间

340

14分15秒

084.尚硅谷_Flink-Table API和Flink SQL_时间特性（二）_事件时间

330

13分10秒

085.尚硅谷_Flink-Table API和Flink SQL_窗口（一）_分组窗口

440

18分42秒

086.尚硅谷_Flink-Table API和Flink SQL_窗口（二）_分组窗口测试

400

11分57秒

087.尚硅谷_Flink-Table API和Flink SQL_窗口（三）_Over窗口

380

13分1秒

088.尚硅谷_Flink-Table API和Flink SQL_窗口（四）_Over窗口测试

340

11分3秒

089.尚硅谷_Flink-Table API和Flink SQL_函数（一）_系统内置函数

310

14分38秒

090.尚硅谷_Flink-Table API和Flink SQL_函数（二）_UDF函数_标量函数

430

17分18秒

091.尚硅谷_Flink-Table API和Flink SQL_函数（三）_UDF函数_表函数

350

26分57秒

092.尚硅谷_Flink-Table API和Flink SQL_函数（四）_UDF函数_聚合函数

410

27分55秒

093.尚硅谷_Flink-Table API和Flink SQL_函数（五）_UDF函数_表聚合函数

370

8分11秒

094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型

350

15分26秒

095.尚硅谷_Flink项目-电商用户行为分析_用户行为分析应用场景

370

9分11秒

096.尚硅谷_Flink项目-电商用户行为分析_模块设计和数据分析

440

21分2秒

097.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（一）

350

9分6秒

098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）

400

10分2秒

099.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_其它需求

400

100

10分20秒

100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建

380

101

27分53秒

101.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（一）_窗口聚合

360

102

27分13秒

102.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（二）_排序统计输出

390

103

20分50秒

103.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（三）_从Kafka消费数据测试

450

104

10分2秒

104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试

480

105

28分42秒

105.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（五）_Table API和SQL实现

350

106

26分5秒

106.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（一）_开窗聚合统计

250

107

9分46秒

107.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（二）_统计结果排序输出

350

108

21分3秒

108.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（三）_乱序数据的处理

420

109

21分40秒

109.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（四）_保证状态更新结果正确

390

110

20分38秒

110.尚硅谷_Flink项目-电商用户行为分析_PV统计（一）_基本实现

430

111

19分21秒

111.尚硅谷_Flink项目-电商用户行为分析_PV统计（二）_数据并行的优化

320

112

15分27秒

112.尚硅谷_Flink项目-电商用户行为分析_UV统计（一）_基本实现

430

113

30分47秒

113.尚硅谷_Flink项目-电商用户行为分析_UV统计（二）_布隆过滤器去重思路和程序架构

350

114

9分11秒

114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现

340

115

23分31秒

115.尚硅谷_Flink项目-电商用户行为分析_UV统计（四）_UV去重的布隆过滤器实现

300

116

17分2秒

116.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（一）_自定义数据源

480

117

20分43秒

117.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（二）_开窗聚合统计输出

320

118

19分18秒

118.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（一）_基本需求实现

310

119

14分27秒

119.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（二）_刷单行为过滤思路和整体框架

380

120

23分19秒

120.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（三）_刷单行为过滤代码实现

360

121

18分16秒

121.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（一）_实现思路和代码框架

400

122

18分20秒

122.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（二）_具体代码实现

350

123

18分18秒

123.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（三）_代码改进

350

124

30分32秒

124.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（四）_CEP代码实现

330

125

12分22秒

125.尚硅谷_Flink项目-电商用户行为分析_CEP简介（一）_CEP介绍及Pattern API整体概念

390

126

12分40秒

126.尚硅谷_Flink项目-电商用户行为分析_CEP简介（二）_个体模式

300

127

10分22秒

127.尚硅谷_Flink项目-电商用户行为分析_CEP简介（三）_模式序列

390

128

9分49秒

128.尚硅谷_Flink项目-电商用户行为分析_CEP简介（四）_模式的检测和事件处理

380

129

19分49秒

129.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（一）_实现思路和程序架构

340

130

17分28秒

130.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（二）_CEP具体代码实现

440

131

6分41秒

131.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（三）_流式输入数据测试

390

132

32分19秒

132.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（四）_ProcessFunction代码实现

380

133

13分48秒

133.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（一）_需求分析和整体架构

350

134

22分23秒

134.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（二）_合流代码实现

380

135

12分55秒

135.尚硅谷_Flink项目-电商用户行为分析_Join API（一）_Window Join

380

136

9分46秒

136.尚硅谷_Flink项目-电商用户行为分析_Join API（二）_Interval Join

240

137

9分21秒

137.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（三）_Join代码实现

330

064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐