文章/答案/技术大牛

发布

首页视频121_第十章_状态一致性

121_第十章_状态一致性

2022-12-022022-12-02 16:02:30播放31

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/121_第十章_状态一致性.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
前面我们已经介绍了flink当中检查点和保存点的概念，哎，那我们说所谓的检查点拆point，其实就是flink当中容错机制的核心，它就是保证了我们发生故障之后怎么样正确的恢复出之前的状态，就能保证流处理的状态一致性。这里就提到了一个状态一致性的概念，而且之前我们在介绍检查点的时候呢，还提到了所谓的精确一次的状态一致性exactly once，哎，那这又是指的什么东西呢？所以接下来我们就详细的展开去介绍一下状态一致性的概念，以及flink当中是怎样去保证精确一次状态一致。首先我们先来说一下什么叫做一致性啊，啊，其实一致性这个概念非常的重要，在分布式系统当中有这样一个概念啊，那我们更熟悉的可能是在事物transaction当中也有一致性这样一个特性，诶，那其实在flink当中，它的一致性呢，跟事物里边的这个表述可能会更加的接近一点，所谓的一致性简单来讲就是我们最终处理的结果。
01:11
得是对的，得是正确的，那对于分布式系统而言，因为我们知道啊，在处理的过程当中，每一步操作可能都有很多个并行的分区子任务。所以呢，呃，数据有可能处理的顺序就会发生变化，我们说就会出现乱序。而且如果说中间发生故障之后，我们从检查点checkpoint去做一个状态的恢复。是会退回到之前保存检查点的时候，某个数据处理完之后的那个状态，诶那如果说处理完这个数据之后啊，做了检查点保存，接下来处理的那些数据呢，有可能就被丢掉了，所以我们当时说啊，对于这个检查点恢复状态的时候还要要求source。任务所谓的原算子，这里还需要去能够去重置保存偏移量，能够去重新提交偏移量，那对于这个外部数据源呢，当然就还能够重置偏移量，能够保存之前的数据，重放数据，这样才能保证最后的结果不丢啊，所以如果整体来看的话啊，就是最后我们处理的结果就应该要像没有发生故障一样，该是多少还是多少，所有的数据。
02:28
不能丢，都要处理完，而且呢也不能重复处理，比方说我们窝是看的啊，你不能说重放数据之后，本来我们当前只有一个哈，哎，那接下来呢，一个哈，被统计了两次，后面我们统计的数量就相当于多加了一码啊，那所有的这些错误都不能出现，这就是所谓的一致性。那对于弗林格而言。故障恢复的核心其实就是要把之前的状态要计算对，能够恢复出正确的状态，所以我们一般情况呢，把它叫做状态的一致性。
03:02
所以我们可以根据刚才的这种基本概念的定义啊，会发现状态的一致性可以是有不同的保证级别的，哎，那什么意思呢？就是说你到底保证它的这个结果正确性保证到什么程度？那最好的情况当然就是说完全正确啊，一就是前面说的啊，一个数据都不丢都不漏，而且呢，也不会重复处理。这是我们想到的最佳的状态，这就是传说中的exactly one啊，精确一次，那在它之下呢，还有其他的更加宽松的，不那么严格的保证，比如说最基本的，其实叫做最多一次。At most ones。顾名思义指的就是说任务发生故障的时候，那我们从检查点去恢复状态，恢复之后继续正常处理数据，那整个的这个处理过程呢，因为这个故障的发生有可能会导致我们有些数据就被丢掉了，有可能就没有被处理啊，那至于说处理多少次，那他最多只会被处理一次，也有可能不被处理，被丢了当然就不会被处理了嘛，哎，所以如果我们做work统计的话，就是有可能他没统计进去啊，那如果统计的话，最多统计一次。
04:17
所以其实我们会发现这种所谓的最多一次状态一致性保证啊，其实就跟没有保证是一样的啊，因为如果说我们直接简单的重启什么都不干，就假如说根本不做什么检查点的保存啊，根本没有存盘故障发生了之后直接重启。然后就基于啊，我们的work直接全清零，然后基于新的数据直接开始继续统计就完了，那这相当于之前数据就全丢了嘛，它也能保证最多一次啊，那所以可以说这就是没有任何状态一致性的保证啊，相当于我们什么都没干嘛啊，这个看起来好像不太好啊，但是它其实也是一种状态一致性的级别啊，因为如果说我们对于当前处理的速度要求最高的话，实时性要求最强的话，而对于结果的准确性可能看的不那么重要的话，哎，那这也是比较好的一种方式，这相当于根本我们不需要做存盘处理吧，检查点这一步操作我们直接抛开了，要的就是最快速的数据处理。
05:18
啊，所以这其实还是一个权衡的过程，哎，那一般情况下我们会发现这个数据呢，还是不要这么什么都不做处理啊，还是要存盘一下，至少应该保证这个数据不要丢啊，这是底线，如果能做到这一点的话，这就是我们所说的达到了至少一次的状态一致性保证。At least once，顾名思义，它的意思就是说，当前我们的数据呢，至少会被处理一次，数据不会丢掉。哎，那也就是说呢，也有可能同一个数据被统计了多次。如果是work里边的话，就是首先我们统计出来的这个结果，所有数据不会少，统计出来的这个数肯定是有的啊，那对应的这个数据呢，有可能比之前的还要多一点。
06:05
被重复统计了。这种状态一致性的级别在什么场景下有用呢？诶，我们可以思考一些具体的需求啊，比如说我们统计这个电商网站的UV值。因为我们知道它是独立访客数，所以对于同一个用户的数据。对于UV的影响，其实只会生效一次啊，也就是说我们每一个用户的那个访问数据啊，同一个数据，如果说我们计算两次，处理两次的话，最后在UV里边的体现最多只会生效一次。啊，因为相同的用户，这个数据相当于就被滤掉了嘛，所以这种场景下，我们就说这种操作是具有幂等性的啊，幂等性我们知道就是相当于做一个乘方操作，乘完了之后还是自己啊，这就是幂等，就是做多少次最后的效果跟只做一次操作是完全一样的，那在这种场景下统计UV，很显然只要达到至少一次的状态一致性，保证数据不丢，我们统计出来的就是正确的。
07:08
偏高，那当然了，有一些场景其实就会出现偏差，比如说如果统计的是UV的话，那就是每一个用户他的访问的这个频次访问的数据啊，统计一次我们就加一，如果多统计一次，重复数据来了，多统计一次，那就又加一，那这样的话就会导致最终的结果不一致。所以具体的使用的话，还是要看我们应用的场景啊，有些时候使用至少一次的状态一致性，保证完全可以满足我们的需求。啊，那在具体使用的过程当中呢，我们会发现它要求至少不丢数据，这就要求如果发生故障，我们进行恢复的时候，之前的一些数据需要能够重放，哎，所以我们说。首先需要flink里边的原算子SS任务，把读取的偏移量作为状态写入检查点，另外呢，还能够向外部的数据源去重新提交偏移量啊，那重放之前的数据，这样的话才能实现数据不丢，那我们知道卡夫卡诶，就能做到这一点，所以弗林格跟卡夫卡的连接也是非常的频繁啊，这是一种经典的架构。
08:17
哎，那最后我们说啊，真正最完美的情况是什么呢？那就是数据不光不丢，而且也不会被重复处理。数据会被处理一次，而且只会被处理一次，这就是所谓的精确一次exactly one。在这种状态一致性语义下，我们处理的结果可以说是保证完全正确啊，这就跟应用的场景没关系了啊，你统计UV也好，PV也好，无所谓，最后绝对是正确的。那我们知道你如果想要做到精确一次的话，首先你得先达到至少一次，首先数据不能丢嘛，所以之前至少一次要求的这个数据源那边啊，可以重置偏移量，可以重放数据，这个要求现在同样还是生效，还得要求数据源可以重放。
09:05
那另外还需要做到什么呢？那其实我们知道在flink内部啊，有检查点checkpoint的这样一个机制，它的底层就保证了。进行分布式快照保存的时候，我们保存的总是处理完同一个数据之后的所有任务的状态，哎，那这个时候如果说我们保存了这个，那后边所有的数据呢？诶，那就那就去重放吧，然后根据我们之前所说的这个检查点的算法就会发现啊恢复之后，那就是完完整整的恢复到了保存检查点那一时刻的状态，那接下来呢，我们就重新提交偏移量去重放数据，继续处理，整个的这个过程就像没有发生故障是一样的。这就是我们所说的状态一致性的级别啊。当然了，我们最希望达到的就是精确一次的状态一致性保证。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（121/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

121_第十章_状态一致性

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐