文章/答案/技术大牛

发布

首页视频109_第九章_算子状态的概念和类型

109_第九章_算子状态的概念和类型

2022-12-022022-12-02 16:02:30播放37

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/109_第九章_算子状态的概念和类型.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
到目前为止，关于k state这一部分的内容我们就都已经介绍完了啊，那kit确实是我们整个状态编程学习过程当中的一个重点，因为在实际应用的过程当中，往往我们都是先做KBY，然后针对当前的K去进行相应的逻辑设置的，所以一般我们用到的状态都是kid state。那接下来呢？呃，除了k state之外，我们还要介绍另外一大类manager state，那就是所谓的算子状态operator state。呃，前面我们也提到过算子状态跟k state的区别，主要的区分就在于算子状态是跟当前数据的K没有关系的。每一个分区并行子任务，那么就会维护着一个状态实例，所以在同一个分区里边的所有数据都能够访问到相同的一份状态，跟K没关，那所以呢，算子状态的作用范围就没有k state那么精细了啊，那就是所有数据其实过来访问到的都是一样，从代码上来讲的话，我们可以认为一个算子状态就跟一个本地变量的作用范围是完全一样，这个我们可以简单测试一下啊，就像之前我们在K的这个测试文件里边定义了很多不同的状态，不同类型的状态，那在这里如果要做对比的话，我们可以。
01:30
定义一个本地属性。定义一个属性，这就相当于是一个变量了啊啊，那比方说我们这个叫做count。后面我们好像单独定义了有这个抗变量啊呃，那那这里我们换一个名字。比如说就叫做local count。啊，那初始值的话直接给他一个零，然后接下来前面我们不是这个map state，它里边的这个计数，我们就是每来一个加一，另外a state这个aggreating state啊，聚合状态也是每来一个就加一吗？注意我们这些都是kid state，所以是针对当前key，我们当时是以用户名作为分组，那就是针对当前用户，每来一个even的事件就加一。
02:17
那现在假如说我们再定义一个local count，它也是每来一个就加一，我们在flat map这个方法里边啊，最下边把local count。也做一个处理，哎，那每一次都加一，然后打印一下它的值。我们可以运行一下，看一看它跟前面我们提到的这些k state有什么区别。这就相当于是一个本地变量啊，啊，我们看到聚合状态，诶一个一个啊，按照不同的用户。那么我们看凯瑞来了一条数据，那么它的聚合状态一开始是一，访问频次是一啊，然后又来一条凯瑞的数据，当然聚合状态是二，访问频次是二啊，Bob的来了一条数据，那么Bob按照当前用户的访问事件，它的聚合状态是一，访问频次是一，但是注意我们这里的local count呢？
03:08
Local count并不管他到底是哪个用户，直接所有的数据来了之后都会加一，所以我们看就是每一条数据来了之后，当前这个local count都会不停的往上加。所以从效果上来讲啊，一个算子状态，它的作用范围跟这里我们提到的这个定义的本地属性，或者说本地变量是可以说是完全一样的啊，它都是针对所有的数据到来之后啊，跟K无关，所有数据都会引发它的变化。这就是关于算子状态和k state最大的一个区别啊，那当然了，前面我们讲状态管理的时候曾经提到，我们主要在这个分布式流处理场景下要解决三个问题，一个是访问权限啊，那访问权限的话，K解决了不同K能够访问不同的状态实例这样一个问题，那算子状态呢，就不用解决这个问题了，所有数据都访问同一个状态，那另外还有两个问题，一个是容错性，发生故障要能把它恢复，那另外还有一个呢，就是分布式应用的横向扩展性，也就是并行度调整的时候，状态到底应该怎么分配？
04:20
那关于这两个问题容错性的话，前面我们也提到了啊，在弗林克底层，它所使用的就是检查点这个机制，来保证发生故障之后能够正确恢复的。所以前面我们说从访问范围作用范围来看的话，一个算子状态看起来就跟一个本地变量没什么区别，哎，那它的真正意义上区别在哪里呢？区别就在于算子状态还必须要实现一个checkpoint的方式接口，然后在里边我们要把算子状态跟一个本地变量要关联起来，也就是说相当于我们在做检查点保存的时候，要知道怎么样对这个状态进行保存，然后另外就是发生故障去恢复的时候，怎么样把这个状态再恢复出来啊，啊，所以这里边后面我们在代码当中重点就是实现这个接口。
05:12
那所以我们也就说了，算子状态它的应用场景一般都是没有k state那么多的啊，一般我们处理核心的业务逻辑的时候，都使用的是k state，那算子状态一般用在什么地方呢？哎，那就是用在没有K定义的场景下，或者说像跟外部系统要做连接的时候，Source算子或者think算子，这个里边如果要定义状态的话，有时候就会用operator state。那前面我们说到状态管理还有最后一个问题，就是考虑并行度发生改变的时候，当前状态怎么样去重新分配？之前我们说对于k state而言，它是因为不同的K都有自己对应的一份状态实力，所以哎，我们就可以先把它划分成不同的建组，然后啊，再进行重新整合，重新分配，那所有的K放在一起，我们就重新调整，就有了对应的这个分配的机制了。
06:13
那对于算子状态来讲，现在好像就已经没有不同的状态实例让我们去进行分割了啊，那比方说现在本身它是两个并行度，现在并行度如果变成三的话，怎么能把之前的两份状态拆分成三份呢？那这个看起来就稍微有点麻烦啊。所以对于算子状态而言，它还是要看具体的状态类型到底是什么样的，而对于段子状态而言呢，它所支持的状态类型比k state就要少很多。啊，所以接下来呢，我们再来说一下这个算子状态的类型。那算子状态里边主要就有三种类型，List state union list state和broadcast state啊，那所以我们看到啊，这里边算子状态已经没有最简单的值状态了，Value已经没有了啊，它主要的类型其实就是列表状态。
07:06
那这里的列表状态呢？本质上跟kit里边的列表状态是一样的，就是把状态表示成一组数据的列表。那算子状态里边的Li set，当然跟k state最大的不同就是跟K无关，当前的一个分区子任务上就只有这样的一个列表，哎，那所有的数据，我们要保存的状态都放在这一个列表里面，哎，那我们会想到当他想要去做这个并行度调整的时候，状态重新分配的时候怎么办呢？啊，因为是列表嘛，如果并行度是二，那这个就简单了，我们把这个列表原来是有两份，我们把它合起来再平均分成三份不就完了吗？哎，那所以这样的话，我们就可以进行并行度调整时候的状态重新划分了。所以从这个角度我们也可以看得出来，为什么算子状态里边没有直接设置value state这样最简单的值类型啊，因为如果是一个值的话，那就没有办法做并行度调整啊，如果是list的话，这就相当于还可以再划分了，还可以进行调整啊，所以它最简单的就是list state，然后另外还有一个union list state，这是什么意思呢？整体来说的话，跟list state是一样的啊，它的表示形式也是一个列表，那主要的区别就在于定型度调整的时候，到底是什么样的一个调整机制，那对于前面我们讲到的这个list state而言，它本身要做调整的时候就是直接轮询，就平均分配，那就是我们说的啊，原先并行度是二。
08:45
那每一个并行子任务有这样的一个列表，里边存了很多个状态。那另外一个分区子任务也存了很多个，那接下来如果并行都变成三的话，所有的这个状态怎么平均分配到三个并行子任务上呢？直接轮取，哎，第一个来这边，第二个元素来这边，第三个元素来这边，依次分配就可以了，这是列表状态的分配方式，那如果是联合列表状态呢？Union states呢？哎，它就不是这样做轮询了，它是直接把原先的这两个列表。
09:20
合并在一起，然后得到了一个完整的大列表啊，然后接下来呢，直接全部发送给下游，呃，就是发生并行度调整之后的所有并行子任，让他们自己去选择我要保留哪些对应的状态，哎，那所以这样的话，它就相当于灵活度啊，可选的自由度更高，但是如果说我们这个列表当中状态项太多的话，可能资源的耗费就会更大啊，因为它要同时发给所有的并行子任务啊啊，那效率可能也会低一点，所以一般情况啊，我们平常使用算子状态的时候，用的就是list state UN list state用的比较少。
10:01
那除了这两种之外呢？另外还有一个比较特殊的算子状态，叫做广播状态broadcast state，这个前面我们也提到了，所谓的广播是什么意思呢？那就是所有的并行子任务，当前有两个并行子任务，他们的状态。都是一样的，长得完全相同，所以看起来呢，就好像所有的数据到了这一步任务做操作的时候，好像访问到的都是同一份状态一样。啊，那在这种场景下呢，如果要做并行动调整，那就更简单了，因为我们的每一份状态都一样吧，那你如果二调整成三的话，那就相当于多复制一份状态，然后给第三个多出来的那个并行子任务不就完了吗？哎，那所以这种方式的话，调整并行度的时候就会比较简单，那广播状态一般是用在。就是前面我们提到的广播连接流里边会使用到它，所以这个我会放在后边单独进行讲解。
11:02
这就是关于算子状态的概念和分类，我们已经做了一个整体的介绍，有了直观的认识。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（109/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

109_第九章_算子状态的概念和类型

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐