文章/答案/技术大牛

发布

首页视频049.尚硅谷_Flink-状态管理（一）_状态的概念

049.尚硅谷_Flink-状态管理（一）_状态的概念

2022-12-022022-12-02 16:02:28播放40

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷Flink从入门到实战（scala版）/视频/049.尚硅谷_Flink-状态管理（一）_状态的概念.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
讲flink当中也是非常重要的，另外一部分内容就是所谓的状态管理啊，那状态管理这一部分呢，主要给大家讲一讲，就是一直在讲状态，什么是flink里边的状态，先给出一个概念，然后呢，对于flink里边的状态主要是分成两大类，一类叫做operator state，我们翻译成算子状态，另外一类呢，叫做k state啊，我们叫做监控状态，或者叫分组状态，这个都是可以的，那呃，在实际使用的过程当中，一般情况啊，我们编程做这个状态编程的时候，使用这个监控状态k state比较多啊，那往往我们就是以这个啊去去做这个状态管理状态编程的，所以说我们的重点是讲这个，那最后还有一部分是讲这个状态后端啊，就是大家看看这个所谓的状态后端的配置是什么，那最后当然了还有一部分，呃，就是从状态这一块又会延伸出来一个内容，就是说做状态编程，那有了状态。
01:00
后端之后呢，它还可以去做状态的保存啊，那这个保存其实是涉及到了flink里边的容错机制，那就涉及到了checkpoint，那这一块内容我们放到后面再讲啊，但是大家会想到它跟状态都是密切联系，息息相关的，所以接下来其实是一整块内容，那首先我们还是先来说一说弗link当中的状态到底是什么啊，那前面我们一直就是说第一节课大家就提到了啊flink对对自己的定位是什么呢？它是一个呃，分布式的这个框架和大数据处理引擎，而且它做的计算是什么呢？是有界和无界的数，有有状态的数据流，对吧？啊，对于这个数据流做有状态的计算，哎，那这里边大家就会想到这个状态，我们其实在做操作的过程当中，好像也未必随时都有，对不对啊，所以对于这个flink而言，它其实里边的计算啊，啊，我们知道它是。
02:00
分开的每一步计算都是一个任务，对吧？啊，都是这个data flow数据流里边的一个任务，然后我们这个任务呢，它其实是可以有状态也可以没有状态的，那你像我们之前讲的没有状态的话，你像我们直接做一个map，直接做一个filter，哎，大家想想我们在做这个操作的过程当中，你是不是就只是依据当前输入的数据是什么，然后按照一个规则做一个转换输出就完事了啊所以在这种场景下，其实呢，呃，就是我们讲的这个简单的聚合，呃，简单的转换算子啊，其实这里边就只是一个输入和输出而已，所以这里边其实并没有涉及到状态。只跟当前这条数据有关，对吧？啊，我不需要其他额外的数据了，但是有一些呢，就没那么简单，比方说我们讲到的reduce，对吧，讲到的这个聚合操作，比方说我们讲到的这个窗口计算啊，那你说你要窗口最后输出一个结果的时候，你能是一条数据来了之后直接就输出一条结果吗？当然不能，对吧？啊，你做这个K之后，Reduce或者说做sum，做这个count的，做这个呃，最大最小值计算的时候，你是只根据当前的这个数据就能输出一个最大最小值吗？当然不能，还必须知道什么呢？还必须知道之前我们所有数据统计出来的一个最大最小值，那这个数据其实对于我们而言，就是为了得到当前最新输入的输出的时候，哎，我们就是除了当前的输入数据之外，我还得依赖另外的一个数据，那这个数据就叫做当前任务的。
03:43
状态对吧？啊，那就是我们所说的这个，如果说呃，就是对于这个flink里边来讲啊，我们说它是做这个有状态的流式计算，那有些任务比较简单，其实也可以是无状态的，而对于我们一般情况下用到的这种聚合计算，或者说窗口计算，或者说其他一些比较复杂的计算，我们自己又定义了一些额外需要处理的这个呃数据，对吧？这些数据就都叫做状态，那整体来讲的话，状态到底是什么呢？大家可以简单认为它就是一个本地变量啊，因为我们说这个task啊，在执行的时候，它不就是在lo上执行的一个线程吗？啊，对吧，那它在执行的过程当中，我们用到的所有数据是不是就应该保存在当前线程所独享的那一段内存里边去啊，那所以这个状态其实就是它已经持有的一个变量而已，可以被当前任务的任意业务逻辑来访问。
04:43
啊，那弗link在这个状，在这个整个运行的过程当中，会帮我们做这个状态管理啊，因为大家想到有同学可能想，如果是本一个本地变量的话，那干嘛还非得叫这个状态呢，我自己定义一个变量不就完了吗？你就像我们在代码里边，你随便这个挖一个对吧，要想还想改变这个值的话，你你做做这个就定义成这个可变类型的，可变的这个类型啊，就是定义成Y，不要定义成value不就完了吗。
05:10
但是我们现在是一个分布式系统啊，你如果要是这个当前这个状态还涉及到什么问题呢？哎，我在做来回做转换操作的时候，可能涉及到它的一个序列化反序列化的过程，对吧，特别是涉及到哎，我们现在要做这个，呃，状态一致性的保证，那可能。如果发生故障之后，我还需要从那个checkpoint存储的地方把它再拿出来，再恢复出来，你如果要是只是一个本地变量的话，那那这个当前这个我到底是按照什么类型去把它做这样的一个存储管理呢？那就不知道了，对吧？因为我们说flink里边是有自己的整个一套类型系统的嘛，所以你当前定义的这些所谓的这个本地变量啊，这些状态，如果你想让让让它有这个容错的管理，就是发生故障之后能够恢复的话，那你就必须用flink给我们提供的这一套状态管理机制把它管理起来啊，那那当然了，就是说如果说这一套机制我们自己来实现的话，它很麻烦，对吧，我也考虑它的这个序列化，反序列化，考虑他在那个做拆矿里的保存的时候，到底是怎么样去保存，对吧，怎么样一个行为，它还是分布式的对吧？呃，然后你这分布式的怎么样拼在一起，然后还有什么呢？就是有可能我们那个大家知道集群我一开始。
06:29
可能是三个并行度对吧，当前这个给并行度给了三，这个task有三个，呃，这个分布式的这个状态我都保存在拆point里了，那后来呢，我发现这个可能呃有点不够对吧，当前的这个并行度搞不定这个数据了，我我扩容了，我把这个相当于这个集群先停了，然后又从之前的那个保存的状态里边把它重启，重启起来之后呢，呃，这个啊，重启起来之后，我当前的这个这个任务数据，任务的这个个数就增大了，并行度变成四个了，如果要是有这样的一个变化的话，大家想想，那是不是就会涉及到我之前的这三份state怎么样去拼，拼起来之后再怎么样，因为你还想要负载均衡，对吧，怎么样再比较均匀平均的分配给后边我重启的这四个任务，然后让他们在之前基础上再分别去做计算，对吧？而这个就要考虑的问题就非常非常多了。而flink呢，给我们比。
07:29
层已经实现了这一一整套机制，它的状态管理机制可以给我们搞定这个状态一致性，对吧？故障处理的时候重启怎么样去重新加载，重新做反序列化去去恢复这个状态，还有就是整个状态的高效存储和访问，你去读写状态的时候到底怎么样去做处理，这些flink都已经帮我们搞定了，那这样的话我们就不用再去做这种比较底层的比较难受的事情了，对吧，你的我们作为开发人员，注意力就可以都放在业务逻辑的开发上了啊，这是关于flink当中状态的一个定义。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷Flink从入门到实战（scala版）

（49/137）

10分49秒

001.尚硅谷_Flink-Flink简介

510

19分45秒

002.尚硅谷_Flink-Flink应用场景

480

11分3秒

003.尚硅谷_Flink-流式处理的提出

380

15分16秒

004.尚硅谷_Flink-流式处理的演变

350

16分33秒

005.尚硅谷_Flink-Flink的特点

340

23分57秒

006.尚硅谷_Flink-批处理wordcount

520

20分13秒

007.尚硅谷_Flink-流处理wordcount

380

19分14秒

008.尚硅谷_Flink-流处理wordcount扩展测试和说明

410

26分46秒

009.尚硅谷_Flink-Flink集群部署

470

22分34秒

010.尚硅谷_Flink-提交Job

400

7分30秒

011.尚硅谷_Flink-命令行提交Job

350

12分50秒

012.尚硅谷_Flink-其它方式集群部署

360

8分35秒

013.尚硅谷_Flink-运行时架构_运行时组件

390

13分22秒

014.尚硅谷_Flink-运行时架构_作业提交流程

430

16分27秒

015.尚硅谷_Flink-运行时架构_任务调度原理（一）_并行度和slot

360

17分22秒

016.尚硅谷_Flink-运行时架构_任务调度原理（二）_slot共享

470

6分15秒

017.尚硅谷_Flink-运行时架构_任务调度原理（三）_slot共享示例

300

25分35秒

018.尚硅谷_Flink-运行时架构_任务调度原理（四）_执行图和任务链

310

12分20秒

019.尚硅谷_Flink-运行时架构_任务调度原理（五）_自定义任务调度规则

350

16分18秒

020.尚硅谷_Flink-流处理API_Source（一）_从集合和文件读取数据

380

21分32秒

021.尚硅谷_Flink-流处理API_Source（二）_从Kafka读取数据

430

24分49秒

022.尚硅谷_Flink-流处理API_Source（三）_自定义Source

410

6分49秒

023.尚硅谷_Flink-流处理API_Transform（一）_简单转换算子

320

19分15秒

024.尚硅谷_Flink-流处理API_Transform（二）_简单分组聚合

380

11分20秒

025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合

320

12分23秒

026.尚硅谷_Flink-流处理API_Transform（四）_分流操作

350

19分54秒

027.尚硅谷_Flink-流处理API_Transform（五）_合流操作

290

9分39秒

028.尚硅谷_Flink-流处理API_Flink支持的数据类型

420

19分40秒

029.尚硅谷_Flink-流处理API_函数类和富函数类

280

18分54秒

030.尚硅谷_Flink-流处理API_Sink（一）_文件

410

10分44秒

031.尚硅谷_Flink-流处理API_Sink（二）_Kafka

430

18分29秒

032.尚硅谷_Flink-流处理API_Sink（三）_Redis

360

16分42秒

033.尚硅谷_Flink-流处理API_Sink（四）_ElasticSearch

350

17分47秒

034.尚硅谷_Flink-流处理API_Sink（五）_MySQL

480

7分21秒

035.尚硅谷_Flink-流处理API_Window API_窗口概念

360

10分12秒

036.尚硅谷_Flink-流处理API_Window API_窗口类型

330

27分16秒

037.尚硅谷_Flink-流处理API_Window API_窗口分配器

450

20分59秒

038.尚硅谷_Flink-流处理API_Window API_窗口函数及其它可选API

410

15分5秒

039.尚硅谷_Flink-流处理API_Window API_窗口计算测试

270

17分56秒

040.尚硅谷_Flink-时间语义

300

4分32秒

041.尚硅谷_Flink-时间语义的设置

350

19分5秒

042.尚硅谷_Flink-Watermark概念

370

15分56秒

043.尚硅谷_Flink-Watermark原理和特点

320

8分7秒

044.尚硅谷_Flink-Watermark传递

260

16分32秒

045.尚硅谷_Flink-Watermark代码中引入

290

7分8秒

046.尚硅谷_Flink-自定义Watermark生成机制

290

16分10秒

047.尚硅谷_Flink-事件时间语义下的窗口测试

360

9分20秒

048.尚硅谷_Flink-窗口起始点的确定

360

8分7秒

049.尚硅谷_Flink-状态管理（一）_状态的概念

400

15分13秒

050.尚硅谷_Flink-状态管理（二）_算子状态和键控状态

290

27分24秒

051.尚硅谷_Flink-状态管理（三）_状态在代码中的定义和使用

340

17分14秒

052.尚硅谷_Flink-状态编程示例（一）

380

17分29秒

053.尚硅谷_Flink-状态编程示例（二）

410

23分23秒

054.尚硅谷_Flink-ProcessFuntion_基本概念和使用

360

32分49秒

055.尚硅谷_Flink-ProcessFuntion_定时器应用示例

320

9分44秒

056.尚硅谷_Flink-ProcessFuntion_侧输出流应用示例

360

15分35秒

057.尚硅谷_Flink-状态后端

390

13分30秒

058.尚硅谷_Flink-容错机制_检查点概念和原理

280

25分45秒

059.尚硅谷_Flink-容错机制_检查点算法

380

26分28秒

060.尚硅谷_Flink-容错机制_checkpoint配置

350

8分20秒

061.尚硅谷_Flink-容错机制_重启策略配置

440

7分31秒

062.尚硅谷_Flink-保存点

460

10分45秒

063.尚硅谷_Flink-状态一致性_基本概念

400

8分42秒

064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证

390

23分34秒

065.尚硅谷_Flink-状态一致性_幂等写入和事务写入

410

18分19秒

066.尚硅谷_Flink-状态一致性_Flink与Kafka连接的状态一致性

400

22分2秒

067.尚硅谷_Flink-Table API和Flink SQL_基本概念和示例程序

400

9分21秒

068.尚硅谷_Flink-Table API和Flink SQL_基本程序结构

340

15分42秒

069.尚硅谷_Flink-Table API和Flink SQL_表执行环境

360

19分13秒

070.尚硅谷_Flink-Table API和Flink SQL_表的概念和从文件读取数据

410

9分28秒

071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据

340

11分3秒

072.尚硅谷_Flink-Table API和Flink SQL_表的查询转换

390

8分24秒

073.尚硅谷_Flink-Table API和Flink SQL_DataStream和表的转换

400

25分13秒

074.尚硅谷_Flink-Table API和Flink SQL_输出到文件

320

10分50秒

075.尚硅谷_Flink-Table API和Flink SQL_更新模式

310

17分40秒

076.尚硅谷_Flink-Table API和Flink SQL_Kafka管道测试

380

18分17秒

077.尚硅谷_Flink-Table API和Flink SQL_输出到ES

340

8分8秒

078.尚硅谷_Flink-Table API和Flink SQL_输出到MySQL

390

11分33秒

079.尚硅谷_Flink-Table API和Flink SQL_表转换成流

290

7分6秒

080.尚硅谷_Flink-Table API和Flink SQL_流处理和SQL查询的不同

340

12分23秒

081.尚硅谷_Flink-Table API和Flink SQL_动态表和持续查询

430

12分49秒

082.尚硅谷_Flink-Table API和Flink SQL_持续查询示例具体过程

410

20分15秒

083.尚硅谷_Flink-Table API和Flink SQL_时间特性（一）_处理时间

340

14分15秒

084.尚硅谷_Flink-Table API和Flink SQL_时间特性（二）_事件时间

330

13分10秒

085.尚硅谷_Flink-Table API和Flink SQL_窗口（一）_分组窗口

440

18分42秒

086.尚硅谷_Flink-Table API和Flink SQL_窗口（二）_分组窗口测试

400

11分57秒

087.尚硅谷_Flink-Table API和Flink SQL_窗口（三）_Over窗口

380

13分1秒

088.尚硅谷_Flink-Table API和Flink SQL_窗口（四）_Over窗口测试

340

11分3秒

089.尚硅谷_Flink-Table API和Flink SQL_函数（一）_系统内置函数

310

14分38秒

090.尚硅谷_Flink-Table API和Flink SQL_函数（二）_UDF函数_标量函数

430

17分18秒

091.尚硅谷_Flink-Table API和Flink SQL_函数（三）_UDF函数_表函数

350

26分57秒

092.尚硅谷_Flink-Table API和Flink SQL_函数（四）_UDF函数_聚合函数

410

27分55秒

093.尚硅谷_Flink-Table API和Flink SQL_函数（五）_UDF函数_表聚合函数

370

8分11秒

094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型

350

15分26秒

095.尚硅谷_Flink项目-电商用户行为分析_用户行为分析应用场景

370

9分11秒

096.尚硅谷_Flink项目-电商用户行为分析_模块设计和数据分析

440

21分2秒

097.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（一）

350

9分6秒

098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）

400

10分2秒

099.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_其它需求

400

100

10分20秒

100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建

380

101

27分53秒

101.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（一）_窗口聚合

360

102

27分13秒

102.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（二）_排序统计输出

390

103

20分50秒

103.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（三）_从Kafka消费数据测试

450

104

10分2秒

104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试

480

105

28分42秒

105.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（五）_Table API和SQL实现

350

106

26分5秒

106.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（一）_开窗聚合统计

250

107

9分46秒

107.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（二）_统计结果排序输出

350

108

21分3秒

108.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（三）_乱序数据的处理

420

109

21分40秒

109.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（四）_保证状态更新结果正确

390

110

20分38秒

110.尚硅谷_Flink项目-电商用户行为分析_PV统计（一）_基本实现

430

111

19分21秒

111.尚硅谷_Flink项目-电商用户行为分析_PV统计（二）_数据并行的优化

320

112

15分27秒

112.尚硅谷_Flink项目-电商用户行为分析_UV统计（一）_基本实现

430

113

30分47秒

113.尚硅谷_Flink项目-电商用户行为分析_UV统计（二）_布隆过滤器去重思路和程序架构

350

114

9分11秒

114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现

340

115

23分31秒

115.尚硅谷_Flink项目-电商用户行为分析_UV统计（四）_UV去重的布隆过滤器实现

300

116

17分2秒

116.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（一）_自定义数据源

480

117

20分43秒

117.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（二）_开窗聚合统计输出

320

118

19分18秒

118.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（一）_基本需求实现

310

119

14分27秒

119.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（二）_刷单行为过滤思路和整体框架

380

120

23分19秒

120.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（三）_刷单行为过滤代码实现

360

121

18分16秒

121.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（一）_实现思路和代码框架

400

122

18分20秒

122.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（二）_具体代码实现

350

123

18分18秒

123.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（三）_代码改进

350

124

30分32秒

124.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（四）_CEP代码实现

330

125

12分22秒

125.尚硅谷_Flink项目-电商用户行为分析_CEP简介（一）_CEP介绍及Pattern API整体概念

390

126

12分40秒

126.尚硅谷_Flink项目-电商用户行为分析_CEP简介（二）_个体模式

300

127

10分22秒

127.尚硅谷_Flink项目-电商用户行为分析_CEP简介（三）_模式序列

390

128

9分49秒

128.尚硅谷_Flink项目-电商用户行为分析_CEP简介（四）_模式的检测和事件处理

380

129

19分49秒

129.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（一）_实现思路和程序架构

340

130

17分28秒

130.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（二）_CEP具体代码实现

440

131

6分41秒

131.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（三）_流式输入数据测试

390

132

32分19秒

132.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（四）_ProcessFunction代码实现

380

133

13分48秒

133.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（一）_需求分析和整体架构

350

134

22分23秒

134.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（二）_合流代码实现

380

135

12分55秒

135.尚硅谷_Flink项目-电商用户行为分析_Join API（一）_Window Join

380

136

9分46秒

136.尚硅谷_Flink项目-电商用户行为分析_Join API（二）_Interval Join

240

137

9分21秒

137.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（三）_Join代码实现

330

049.尚硅谷_Flink-状态管理（一）_状态的概念

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐