文章/答案/技术大牛

发布

首页视频099_第九章_状态的分类

099_第九章_状态的分类

2022-12-022022-12-02 16:02:30播放36

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/099_第九章_状态的分类.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
所以现在我们已经了解了，Flink当中为我们提供了一整套的状态管理机制，主要就是为了解决分布式流处理中出现的这些问题，那接下来呢，我们就来介绍一下具体在flink当中状态有哪些类型。哎，那首先呢，整体来讲，状态可以分成两大类，一类叫做manage state，另外一类叫做roll state，啊翻译的话，那manage state就是托管状态，State就是原始状态。那它俩的区别呢？呃，字面上可以说是一目了然，托管状态，那就是被link统一管理起来的，一系列的状态，那就是所有这些状态的存储和访问，发生故障之后的恢复啊，遇到并行度调整之后的重组，所有这些问题都是被link帮我们统一管理起来了。我们只要调用对应的接口，然后接下来所有的事情都不需要我们操心，而所谓的原始状态呢，哎，这个就真的是相当于是我们本地内存里边的一段数据了。
01:05
Flink什么都不管，所有的东西都要我们自定义去进行实现，那所以整体来讲的话，一般情况肯定我们都不会去用这个原始状态啊，我们都是让弗link帮我们统一进行管理的，所以接下来我们介绍的主要内容都是基于manager state。而member state又能分成哪些类型呢？诶，那简单来讲的话，如果按照状态底层的数据结构哎，我们可以大概的分成值状态、列表状态、映射状态、聚合状态等等不同的数据结构啊。那值状态的话，前面我们也接触到了啊，Value state，它就是一个单独的值，至于这个值本身的数据类型又是什么样，我们可以对它定义里边的泛型啊，那另外呢，我们还可以定义列表状态啊，就是保存成一张列表啊list，那另外还可以定义映射状态，这是一个map啊，另外还可以有聚合状态everygg state。
02:00
那所有的这些托管状态呢？呃，其实整体来讲，按照他们的访问范围，可见范围又可以分成两大类，那就是所谓的算子状态和案件分区状态operator state和k state。哎，所以一看这个名字的划分我们就知道了，这又跟当前的key有关系了啊，因为前面我们提到啊，分布式的流处理里边对于状态的控制最大的一个问题不就是状态的访问权限吗？哎，我们说你当前这个K的分配并不是说一个K一个分区，那这个时候你在当前这个分区上有很多个K都能访问同样的状态，怎么解决这个问题呢？哎，那我们自然想到了，你就按照不同的K对它进行一个单独保存不就完了吗？哎，所以如果说对于K不同的key有单独的状态对应的实例的话，那这种状态就叫做按键分区状态k state。那如果说没有这样单独的定义的话，那就叫做算子状态operator state啊，首先我们先来看算子状态啊，Operator state其实是我们最容易理解的一种状态了，哎，那就是它的状态作用范围就限定在当前算子任务的实例上，也就是说我们当前一个任务task，比方说我们这里就是一步map吧，我们可以设置一个并行度，并行度是二的话，当前map操作就会有两个并行的子任务。
03:25
那么如果说我们对于当前这个任务设置了一个状态的话。那每一个并行的子任务，它占据一个分区，这个分区里边对应的内存里边就会有我们设置的一个状态实例，啊，那所以对于当前这个分区里边所有的数据而言，他们都会访问到相同的一份状态。所以从这个角度来看的话，这样一个算子状态，它就跟我们当前这个分区里边的一个本地变量是非常类似的啊，你调用的时候其实也就是一样的啊，拿出来直接用就可以了啊，然后每个数据来了之后都会访问到，都可以去进行更改。
04:08
那它跟本地变量有什么区别呢？诶，它的主要区别其实就在于如果真的是内存里边的本地变量的话，诶，那我们定义出来之后，后面没有任何的持久化保存的策略，如果掉店当然就丢了，好接下来你还是啊，重新创建实例，然后就重新开始了，那我们现在的状态呢，那是需要有容错性保证的，就是发生故障之后还得能恢复的，所以得有一个持久化保存的机制，那这个机制呢，在弗link当中是所谓的检查点。Checkpoint。啊，那这个机制我们会在后边的第十章。专门在进行讲解。现在我们介绍算子状态的话，它在代码当中最大的一个区别其实就是实现一个所谓的checkpoint的方式接口，然后接下来就可以对状态进行持久化。这是关于算子状态，那另外还有一大类就是按键分区状态k state k state的话，我们自然就想到它是按照当前我们流里边所定义的K来对于状态进行了一个单独的划分。所以接下来呢，对于状态的访问就不是每一个分区所有的数据都可以访问到同样的状态了，而是尽管进入的是同一个分区。
05:27
接下来，如果说当前数据的K不一样，他们访问到的就只是。自己那个K对应的一份状态实例。那这样的话就解决了我们之前那个问题，诶T败之后，如果说我们要做一个sum统计的话，现在就不会搞混了，我们统计的诶，比方说就是A出现了几次，B出现了几次，如果A和B作为T的话，数据都发送到了我们这里的第一个分区的话，现在他们就不会搞混了，因为A的状态是单独的一份，B的状态是另外一份。
06:00
啊，其实我们想到这个底层的话要保存，这就相当于是一个哈希表嘛，一个哈希map，一个K一个value，一个K一个value，这样的话就可以分开不同T对应的状态值了。啊，那在实际的使用过程当中，如果说我们想要去定义一个k state的话，很明显那必须得有键才可以，所以必须在TBY之后进行有状态计算的算子才可以定义k state啊，那比如说之前我们所说的。聚合计算啊，像我们直接做一个reduce k by之后做reduce的话，它在本地就会保存一个k state，哎，那同样后面我们说到的窗口计算啊，KBY之后做开窗，然后做聚合，那么聚合的过程当中，它的所有状态是什么类型呢？哎，那都是根据当前的K进行划分的，所以就都是这里的kid state都是这种类型。另外呢，就是我们之前在代码里边去实现的那样，在当前的运行时，上下文里边可以直接获取到状态控制句柄，这样的话就可以去自定义状态，然后进行状态编程了，那这里要注意，只有获取到运行上下文才能做这些操作，那所以我们这里的定义呢，就只能在负函数类里面去实现啊，那这里像我们定义这个key process方式的话，它本身是处理函数，处理函数是继成字抽象负函数类的，所以这里面我们同样也可以实现自定义的状态。
07:33
那既然这么说，哎，我们自然就想到了，那假如说啊，我们之前说过，这个算子任务不是可以分成两大类吗？一大类是没有状态的算子，另外一大类是有状态的算子。之前我们说map filter flat map，它们都属于无状态的算子，那确实我们直接实现一个map function里边并没有任何涉及到状态的地方，还有那个map转换，也就是一个输入一个输出就完了嘛。但是现在我们发现，如果我们要是实现的是一个reach map function的话。
08:05
那情况就有所不同了，如果是负函数类的话，我们可以获取到运行时上下文，那自然就可以在运行上下文里面去做自定义状态的使用，哎，所以我们会发现啊，所谓的无状态的算子，我们说map是属于无状态的算子，事实上呢，我们也可以让它变得有状态。所以从这个角度上来讲，Link真正意义上实现了有状态的流失计算，它里边的每一步操作、每一个任务，每一个算子都可以认为是有状态的。这就是关于我们所说的状态分类，主要我们要了解的就是算子状态和按键分区状态operator state和k state，那这里还需要强调的一点就是不管是算子状态还是按键分区状态，他们对于每一个分区而言，状态的实力都是在本地维护的。所以不同分区之间。
09:05
他们的状态是没有办法相互交流的，如果是不同分区的数据的话，肯定就没有办法跨分区访问到别的状态。哎，当然了，后面我们还会提到一种比较特殊的情况，那就是所谓的广播状态，如果是广播状态的话，其实也不是跨分区去访问状态了，而是所有分区的状态都长得一样，他们都是同一份状态，这个时候我们就可以认为所有数据都访问到了相同的状态。这就是关于状态分类的基本概念。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（99/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

099_第九章_状态的分类

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐