文章/答案/技术大牛

发布

首页视频075_尚硅谷大数据技术_Flink理论_状态一致性（一）一致性概念和分类

075_尚硅谷大数据技术_Flink理论_状态一致性（一）一致性概念和分类

2022-12-022022-12-02 16:02:18播放43

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分/075_尚硅谷大数据技术_Flink理论_状态一致性（一）一致性概念和分类.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
下来我们再详细的给大家讲解一下，什么叫做flink里边的状态一致性啊，这一部分内容呢，主要分成这么几大部分，首先提出一下状态一致性的概念啊，以及它的一些不同状态一致性的级别分类，然后呢，我们再回顾一下所谓的一致性检查点，因为前面大家已经提到了啊，所谓的checkpoint是不是就是就是用来保证状态一致性的呀，对吧，保证状态一致性，然后呃，做这个发生故障的时候可以做故障恢复啊，然后之后呢，我们再来提出一个概念，叫做端到端的状态一致性，End to end这样的一个概念。啊，那最关键的当然就是端到端，怎么样去保证精确一次状态一致性的保证，最后呢，我们再来讲一下弗林跟卡夫卡连接在一起之后，它是怎么样去保证端到端状态一致性的，所以这就是我们这节课主要要讨论的内容，首先我们来先来说一下什么是状态一致性，简单来讲的话啊，那首先大家回忆一下什么是状态，对吧？
01:03
就是我们要分开吧，状态和一致性啊，什么叫状态呢？状态其实就是我们在这个流处理里边，每一个算子，每一个任务啊，他自己是不是都可以有内部的一些数据用来，就是我们在处理数据的时候，需要去读取，需要去保存，对吧？啊，就是额外的一些那些数据啊，自己维护的这些数据都叫做自己的状态，我们说所谓的弗link是有状态的流失处理，就是每个算子里边都可以有自己的状态。那对于流处理器内部来讲，什么叫状态一致性呢？那其实就是我们说的一致，是不是就是说的啊，这个它是准确的正确的呀。不一致的话，那就是发生错误了啊，所以我们说的计算结果要保持正确的话，这就是做到了内部的状态一致性，比方说像之前我们的这个例子，这就是说的，假如说这个读取数据啊，读到七的时候，处理到七的时候这里挂掉了。
02:01
那之后如果我们要是恢复这个状态，是不是必须这个七，就是必须是加在我们这个奇数求和里边只加一次啊，大家想，如果要是说本来我这里边七在路上的时候直接挂了，这个状态是不是没加进去，没加进去的话，那相当于之后我就应该重放，如果没重放，最后这个结果里面就少了一个七的。呃，这个求和的过程，那最终结果就不对，这就叫不一致，那如果说这个我们之前这个七是已经，或者说这里面我们说这个六吧，六这里边大家看到这是不是已经加了一次啊。12这个结果里面大家知道二加四加六是不是已经加了六了。那所以六接下来发生故障的时候，回滚的时候，六要重新重放吗？那那就考虑到如果我当时保存的这个状态直接存的是12的话，后边如果再重放六这个数据，是不是相当于六就加了两次啊。啊，所以大家要注意就是，呃，如果说我们要保证结果正确的话，数据就是不能重复计算也不能丢掉。
03:08
这就是我们说的要计算，而且只计算一次对吧，就发生故障的时候，我们可以从那个之前保存的状态里边把状态恢复出来，恢复出来之后跟没有发生故障之前是完全一样的，这就是这就是一致性的定义。呃，那我们来说一下具体这个状态一致性的分类啊，最简单的状态一致性的级别叫做at most one。字面上翻译的话，这个叫做最多一次，什么叫最多一次呢？啊，就是说可以是计算一次对吧？啊，但是也有可能，但是说最多一次的话，是不是就有可能不计算啊，那他想不计算的话，是不是我发生故障的时候啥都不干，那大不了就是这个数丢了嘛，那是不是就不计算啊，啊所以大家注意啊，就是这个at most once，其实它就代表就是什么都不干，呃，就相当于什么都没保证啊，这也是这这就能达到所谓的at most ones的这样的一个状态一致性的语义。
04:09
那那我们可能会觉得有点奇怪，这也算是状态一致性级别吗？诶，在有些场景下，其实它还是有意义的啊，比如说呃，你像之前大家应该也听说过，就是关于这个网络传输，传输层协议里边啊，比较经典的两个协议，TCP和udp，大家知道这两个协议。它们的主要特点就是TCP。要三次握手对吧？啊，这个连接的时候，这个非常重，但是建立连接之后非常有保证对不对，传输数据的话就是很稳定的一个方式，大家知道我们如果要是做一些比方说你登录网站对吧？啊网银啊，登录上去之后，它肯定是要三四握手做这个连接的，那大家想对于这个udp而言的话，它是所谓的这个用户数据报协议啊，啊，它其实是什么呢？根本不见连接。就是有数据直接就发对不对，哎，那他他想的就是，哎，反正没关系，你这个大不了我这个数据不重要对吧？呃，你如果要是丢丢一两个可能也没影响，如果要是说呃这个有影响，你那边还需要的话，我你再请求我再发一次不就完了吗。
05:12
大家想像这个udp这种协议啊，它有应用场景吗？这就看场景，这就看具体应用了，你像我们要是登录网站，这当然你不能说是我我这个请求，或者说就是我要发的这个交易，对吧，网银要做转账，丢就丢了，那那这肯定不行啊，这乱七八糟，你这什么都没有保证嘛啊所以有人就说这个呃，Udp啊，它是这个，呃，Unreallizable DA proocol就是不可靠的糟糕的协议是吧？啊，但其实在有些场景下，它还是很很有很有作用的，比如说大家想我们在看视频的时候，视频流，那你想视频流里边丢一个数据包，或者说缺缺失一点数据，这个有影响吗？哎，你稍微喊一下，或者是这个当前这个画面里边缺失一点东西，花一点无所谓对吧，马上就过去了，但是我们对什么要求比较高呢？我对当前的这个速度流畅性要要求比较高，对不对？那我实时看这个视频的话，我要的是快速流畅，所以说在这种场景下，Udp不去做繁琐的建立连接的操作，是不是就相当于可以保证传输速度啊，所以说这里面也一样，Atmo ones它它的应用场景是什么？
06:25
什么都不干，大家想，那就是说你也不用去做检查点保存对吧？啊，也不要有任何的什么简单点算法呀，什么Barry啊，去做这个处理啊，去做这个容错啊，那那你想它的特点就是。对系统性能的影响最小，对吧，那就是我所有的这个计算资源全部用来做task的处理计算，根本不用去做容错相关的保证，那就可以保证快嘛，性能最优嘛，但是带来的缺点就是没保证对吧？啊，就是数据可能丢就丢了，这就是这个atmos advance的这种状态。自然我们就想到了，在真实的场景里边，我会觉得你这个如果数据什么都没保证全丢了的话，这个太差劲儿了是吧，至少我想保证你这个数据不要丢，那这样的保证呢，就叫做at least once，字面上理解至少一次，至少一次，意思就是说，呃，我至少保证这个数据是不是要处理一次啊，而且还有可能啊，有可能要处理多次，所以它的含义就是说我只保证它不丢啊，但是呢，就是如果出现有可能出现故障的时候，我是不是就是就是不停的重放数据就完事了，你大不了就重新再做一遍嘛，对吧？啊，但是至少这个数据我是不会丢掉的，这是这种场景，呃，那我们可能想到有一些场景里边，其实这个at least ones还是可以，可以起到很好的作用的，比如说什么呢。
07:50
大家想我们在做这个数据统计的时候，很多这个平台指标里边都会做这样的一个，呃，都会做一个UV统计，对吧？那你想如果是UV数据的话，这个是不是你一个用户啊，同一个用户他的这个比方说浏览数据或者是下单数据啊，呃，他的活跃数据，你统计多次是不是最后不影响最后的UV值啊，那没问题对不对，只要他不丢，数据不丢，最后我就能保证结果，对对吧？诶所以有些场景下是没有问题的啊，那但是有一些场景肯定就不行了，就比方说像我们我要统计的是总共的订单，订单的那个销售额，那你说这个数据，你如果呃，你之前发生故障了，你不确定它到底计算没有，你再把它重放一遍，再算一遍，那那有可能加两遍，是不是这个订单就多了一倍啊啊，所以这个就是还是看具体的应用场景。
08:39
那所以at least once还是有缺陷的，那最好的最严格的状态一致性保证是什么呢？就是传说中的exactly once就是翻译过来一般是叫精确一次，或者叫恰好一次。它所说的就是。我当前所有的数据首先不能丢，每个数据都要处理到对吧，来了之后都要统计进去，然后呢，统计的结果里边只能统计一次，不管出现什么情况，对吧，不管是你发生故障回滚，还是说出现了其他的一些异常的状况，我最后回滚之后啊，重新处理也只能这个最后的结果里面只有一个，不能有重复的叠加。
09:20
这就是所谓的，大家自然就想到这个语义要求是最严格的，应该也就是最难实现的，对吧？各种异常状况你都得hold住，都得把它这个呃，就是重复计算的那种情形都排除掉，这就是所谓的状态一致性概念和分类。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分

（75/99）

5分36秒

001_尚硅谷大数据技术_Flink理论_Flink简介（一）Flink是什么

410

13分11秒

002_尚硅谷大数据技术_Flink理论_Flink简介（二）为什么要用Flink

370

12分49秒

003_尚硅谷大数据技术_Flink理论_Flink简介（三）流数据处理的行业

400

16分17秒

004_尚硅谷大数据技术_Flink理论_Flink简介（四）流处理的发展演变

320

9分14秒

005_尚硅谷大数据技术_Flink理论_Flink简介（五）Flink的特点

350

7分44秒

006_尚硅谷大数据技术_Flink理论_Flink简介（六）Flink vs Spark Streaming

350

26分36秒

007_尚硅谷大数据技术_Flink理论_简单上手（一）批处理WordCount

380

13分51秒

008_尚硅谷大数据技术_Flink理论_简单上手（二）流处理WordCount

300

10分59秒

009_尚硅谷大数据技术_Flink理论_简单上手（三）流式数据源测试

410

27分53秒

010_尚硅谷大数据技术_Flink理论_Flink部署（一）Flink安装和配置

420

24分18秒

011_尚硅谷大数据技术_Flink理论_Flink部署（二）Job的提交运行

400

7分5秒

012_尚硅谷大数据技术_Flink理论_Flink部署（三）资源的分配和并行度测试

420

6分54秒

013_尚硅谷大数据技术_Flink理论_Flink部署（四）命令行提交Job

450

14分7秒

014_尚硅谷大数据技术_Flink理论_Flink部署（五）Yarn和K8s平台的Flink部署

450

11分29秒

015_尚硅谷大数据技术_Flink理论_运行时架构（一）Flink四大组件

340

4分48秒

016_尚硅谷大数据技术_Flink理论_运行时架构（二）作业提交流程_抽象架构

370

4分48秒

017_尚硅谷大数据技术_Flink理论_运行时架构（三）Yarn上作业提交流程

370

7分26秒

018_尚硅谷大数据技术_Flink理论_运行时架构（四）作业调度原理及思考问题

360

27分16秒

019_尚硅谷大数据技术_Flink理论_运行时架构（五）Slot和任务调度

380

14分24秒

020_尚硅谷大数据技术_Flink理论_运行时架构（六）Slot和并行度的关系

440

11分0秒

021_尚硅谷大数据技术_Flink理论_运行时架构（七）程序结构和数据流图

340

19分37秒

022_尚硅谷大数据技术_Flink理论_运行时架构（八）数据传输和任务链

430

5分43秒

023_尚硅谷大数据技术_Flink理论_流处理API_创建执行环境

360

16分38秒

024_尚硅谷大数据技术_Flink理论_流处理API_Source（一）从集合读取数据

430

4分22秒

025_尚硅谷大数据技术_Flink理论_流处理API_Source（二）从文件读取数据

420

10分45秒

026_尚硅谷大数据技术_Flink理论_流处理API_Source（三）从kafka读取数据

370

22分21秒

027_尚硅谷大数据技术_Flink理论_流处理API_Source（四）自定义测试数据源

400

14分42秒

028_尚硅谷大数据技术_Flink理论_流处理API_Transform（一）基本转换操作

270

29分53秒

029_尚硅谷大数据技术_Flink理论_流处理API_Transform（二）滚动聚合

400

12分4秒

030_尚硅谷大数据技术_Flink理论_流处理API_Transform（三）reduce聚合

480

12分57秒

031_尚硅谷大数据技术_Flink理论_流处理API_Transform（四）分流

390

14分1秒

032_尚硅谷大数据技术_Flink理论_流处理API_Transform（五）connect合流

330

6分28秒

033_尚硅谷大数据技术_Flink理论_流处理API_Transform（六）union合流

330

6分21秒

034_尚硅谷大数据技术_Flink理论_流处理API_Flink支持的数据类型

370

25分10秒

035_尚硅谷大数据技术_Flink理论_流处理API_Flink中的UDF函数类

350

14分27秒

036_尚硅谷大数据技术_Flink理论_流处理API_Flink中的数据重分区操作

370

17分39秒

037_尚硅谷大数据技术_Flink理论_流处理API_Sink（一）_Kafka

470

17分5秒

038_尚硅谷大数据技术_Flink理论_流处理API_Sink（二）_Redis

410

19分18秒

039_尚硅谷大数据技术_Flink理论_流处理API_Sink（三）_Es

300

18分25秒

040_尚硅谷大数据技术_Flink理论_流处理API_Sink（四）_JDBC

390

7分18秒

041_尚硅谷大数据技术_Flink理论_Window API（一）_基本概念

350

16分33秒

042_尚硅谷大数据技术_Flink理论_Window API（二）_窗口类型

360

17分18秒

043_尚硅谷大数据技术_Flink理论_Window API（三）_窗口分配器

330

19分24秒

044_尚硅谷大数据技术_Flink理论_Window API（四）_窗口函数（一）时间窗口u增量聚合

340

14分45秒

045_尚硅谷大数据技术_Flink理论_Window API（五）_窗口函数（二）时间窗口全窗口聚合

370

12分59秒

046_尚硅谷大数据技术_Flink理论_Window API（六）_窗口函数（三）计数窗口测试

310

20分8秒

047_尚硅谷大数据技术_Flink理论_Window API（七）_其它可选API

340

6分55秒

048_尚硅谷大数据技术_Flink理论_时间语义（一）_时间语义概念

440

11分18秒

049_尚硅谷大数据技术_Flink理论_时间语义（二）_时间语义的应用

380

4分51秒

050_尚硅谷大数据技术_Flink理论_时间语义（三）_事件时间语义的设置

460

21分13秒

051_尚硅谷大数据技术_Flink理论_Watermark（四）_Watermark概念和原理

390

17分48秒

052_尚硅谷大数据技术_Flink理论_Watermark（五）_Watermark特点和行为

480

9分0秒

053_尚硅谷大数据技术_Flink理论_Watermark（六）_Watermark在任务间的传递

340

21分44秒

054_尚硅谷大数据技术_Flink理论_Watermark（七）_Watermark在代码中的设置

380

10分41秒

055_尚硅谷大数据技术_Flink理论_Watermark（八）_Watermark的设定原则

400

11分59秒

056_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（一）

380

15分48秒

057_尚硅谷大数据技术_Flink理论_窗口起始点和偏移量

360

9分20秒

058_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（二）迟到数据处理

370

9分7秒

059_尚硅谷大数据技术_Flink理论_状态管理（一）状态定义

330

21分11秒

060_尚硅谷大数据技术_Flink理论_状态管理（二）算子状态

440

26分41秒

061_尚硅谷大数据技术_Flink理论_状态管理（三）键控状态

380

16分29秒

062_尚硅谷大数据技术_Flink理论_状态编程_温度跳变报警

420

15分56秒

063_尚硅谷大数据技术_Flink理论_并行任务Watermark传递测试

380

21分58秒

064_尚硅谷大数据技术_Flink理论_状态管理（四）状态后端

420

13分31秒

065_尚硅谷大数据技术_Flink理论_ProcessFunction（一）整体介绍和分类

330

24分55秒

066_尚硅谷大数据技术_Flink理论_ProcessFunction（二）KeyedProcessFunction测试

360

25分30秒

067_尚硅谷大数据技术_Flink理论_ProcessFunction（三）应用案例_一段时间内温度连续上升

380

10分2秒

068_尚硅谷大数据技术_Flink理论_ProcessFunction（四）应用案例_高低温分流

370

11分21秒

069_尚硅谷大数据技术_Flink理论_容错机制（一）检查点概念

370

6分39秒

070_尚硅谷大数据技术_Flink理论_容错机制（二）从检查点做故障恢复

330

14分54秒

071_尚硅谷大数据技术_Flink理论_容错机制（三）检查点算法思路和Barrier

350

22分14秒

072_尚硅谷大数据技术_Flink理论_容错机制（四）检查点具体算法

370

7分23秒

073_尚硅谷大数据技术_Flink理论_容错机制（五）保存点

390

23分6秒

074_尚硅谷大数据技术_Flink理论_容错机制（六）检查点和重启策略配置

410

9分38秒

075_尚硅谷大数据技术_Flink理论_状态一致性（一）一致性概念和分类

430

8分6秒

076_尚硅谷大数据技术_Flink理论_状态一致性（二）端到端状态一致性

390

5分12秒

077_尚硅谷大数据技术_Flink理论_状态一致性（三）幂等写入

340

18分58秒

078_尚硅谷大数据技术_Flink理论_状态一致性（四）事物写入_预写日志和两阶段提交

370

18分29秒

079_尚硅谷大数据技术_Flink理论_状态一致性（五）事物写入_Flink和Kafka连接保证状态一致性

350

24分1秒

080_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（一）_基本介绍和简单示例

390

6分59秒

081_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二）_基本程序结构

380

12分36秒

082_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（三）_表环境配置

310

21分50秒

083_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（四）_创建表_从文件读取数据

470

15分55秒

084_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（五）_表的查询

390

8分10秒

085_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（六）_表的输出_输出到文件

320

16分32秒

086_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（七）_Kafka数据管道测试

330

8分1秒

087_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（八）_更新模式

410

10分8秒

088_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（九）_输出到其它外部系统

310

9分33秒

089_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十）_表和流的转换

350

19分35秒

090_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十一）_动态表和持续查询

340

12分22秒

091_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十二）_处理时间特性

330

10分9秒

092_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十三）_事件时间特性

330

25分49秒

093_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十四）_分组窗口

300

19分14秒

094_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十五）_开窗函数

390

14分44秒

095_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十六）_系统内置函数

310

21分22秒

096_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十七）_标量函数

340

18分50秒

097_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十八）_表函数

370

20分0秒

098_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十九）_聚合函数

380

7分31秒

099_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二十）_表聚合函数

420

075_尚硅谷大数据技术_Flink理论_状态一致性（一）一致性概念和分类

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐