文章/答案/技术大牛

发布

首页视频006_尚硅谷大数据技术_Flink理论_Flink简介（六）Flink vs Spark Streaming

006_尚硅谷大数据技术_Flink理论_Flink简介（六）Flink vs Spark Streaming

2022-12-022022-12-02 16:02:17播放35

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分/006_尚硅谷大数据技术_Flink理论_Flink简介（六）Flink vs Spark Streaming.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们最后再来对比一下flink跟Spark streaming，因为大家知道Spark streaming也是用来做实时处理的嘛，它的特点也是实时延迟比较低，那如果说要把它俩做一个对比的话，他们主要的区别在哪里呢？首先大家就会想到flink跟Spark streaming，尽管他们都是用来处理实时的场景的，他们的延迟好像都比较低，但是他们的延迟是不一样的，哎，大家会想到这个SPA streaming，我们之前做计算的时候会发现它的这个延迟时间至少要达到。几百毫秒，一般我们设置都是在秒级的，呃，几秒钟啊，一般都要设一个几秒钟的这个延迟，因为它是要攒一批嘛，而flink的话，它其实是毫秒级别的延迟，它真的是来一个就处理一个，所以这个延迟上的不同，他们的区别，核心的区别，往本质去说的话，还是他们整个架构的不同。
01:00
对于flink而言，它是。真正意义上的理由处理，而Spark streaming其实它是一个对，它还是一个批处理的过程，所以为了跟真正的理由处理做做对比，我们经常把SPA stream是叫做VP处理，对吧？啊，Micro BAT的一个处理方式啊，所以它其实核心的理念是把连续来的这个流逝的数据啊。他也是在攒批，他是只不过就是把这个批次攒的很小，那是不是从架构上来讲，看起来好像就是，诶我变成了这个很短时间内的，来了数据就处理，来了数据就处理啊，只要我这个批次足够小，那是不是相当于我这个实时性就会足够好啊啊那有同学可能会想到，那要这么说的话，如果我要把这个VP做到极极致的话，来一个数据就就攒一个一个批次，那是不是就跟我们的流处理一样了呢？呃，对，就是从本身从这个数据处理来讲，看起来是一样了，但是从架构上来讲，它还有一个攒批，然后按照划分我们这个数据集，然后去做数据集计算的这个过程，对吧？所以这个过程是没有办法去节省的，所以架构上设计SPA streaming整体来讲就要慢一些。
02:18
这个延迟是不可避免的，而对于flink而言，他的这个观点就是底层就是流，就是来一个处理一个，那大家知道如果说用flink要去做这个P计算怎么办呢？那就是前面我们说的对，是不是把它转换成一个有界流啊，所以大家看到就是对于Spark而言，它可以认为。就是Spark认为啊，我也是批流统一，我可以去处理流失数据，只不过我把流失数据是看成一个，是不是看成一种特殊的P啊VP去做处理，对吧？啊，那flink呢，Flink就是所有的数据都是流，对于我来讲一切都是流式数据，那你如果要是一个离线的一批数据，我把它看成一个有界的流是不是就可以了，所以大家看这就是一个世界观的不同啊，本身架构对于这个数据的处理过程就是不一样的。
03:13
然后另外还有一个非常重要的区别就在于他们底层的数据结构、数据模型是不一样的，我们知道Spark里边数据模型是RDD，我们处理的这个底层都是弹性分布式数据集，那对于Spark streaming而言其实也是一样的，我们所处理的那个stream是不是也是一组一组小批的这个数据集的集合集合啊啊，所以我们在做处理的时候，往往也是直接就for each r DD直接就做计算了。而对于flink而言，它的底层数据模型真的意义上就是data flow就是数据流。所以它处理的是什么呢？是事件序列，就是一个一个的事件，或者说我们说的一条一条的数据。它是不存在这样一个数据集RDD这样的一个概念的啊，所以本质上就是有所区别。
04:07
那最后还有一个就是运行式架构啊，那我们知道Spark里边做的是P计算嘛，它是将整个任务处理的这个dag，大家知道本身我们这个大数据处理的过程当中是任务是有先后发生的顺序的，对吧？诶所以说我们把那个dag画出来之后，Spark里边是要划分不同的stage，呃，所以一个stage完成之后，然后才去做下一个计算啊，那大家也非常熟悉，Spark里边我们要有有不同的这个算子，有这个呃，转换算子和行动算子，这个其实就是在运行式架构里边带来的这样一个问题啊，它做计算的时候是划分stage，那大家想一下，既然你划分了stage。就会导致一个什么问题。是不是假如说我当前的这个分布式处理啊，不同的分区，不同的节点处理有先后，那我当前一个节点已经处理完了，但是别的没处理完。
05:05
那会怎么样呢？是不是就还得等啊，等当前这个stage结束才能进行下一步计算啊，因为你中间还要杀做其他的一些调整嘛，你不能直接就就打乱啊，那flink里边它会等待吗？大家注意flink里边没有这样的一个过程。弗link真的就是标准的流执行模式，什么叫流执行模式呢？它真的就是说这里边我们的所有这个节点啊，没有stage的概念，我们这里边就是所有数据来了之后要处理你就发到，比方说有一个任务，它它在一个分区里边，对吧？啊，那么我们这里边就是来一个来一个数据啊。比方说这里边，我把这个数据来了之后放在这里，哎，我们有一个分区啊，做这样的一个处理啊，然后处理完成之后，它就会直接发送到。
06:00
下一个处理的流程里面去，下一个要处理它的这个节点里面去，那这个过程它是完全不等待的，就是假如说我下边又有一个。又有一个跟他并行的这样的一个任务，那大家会想到正常来讲是不是。下面我这里边也可以有数据去处理啊。那这里面就有一个问题啊，假如说我们按照之前的那个概念有这个stage的话，那是不是就是我要等到所有的这个当前啊，这部任务，这个数据全处理完成之后才能做下一步啊，但是大家注意我现在这个数据。有可能是无界的呀，是连续不停的来对不对，那我这个数据有处理完的那个时候吗？没有啊，那我那我等到什么时候才是个完呢。所以大家注意啊，真正的流处理里边没有stage，我不要去等，你等是等不完的，对吧？所以我怎么办呢？我只要关心当前这个数据就够了，我当前这个数据这一步做完操作之后，直接发到下一下一步操作的那个任务里边去执行就完事了，那同样这里边的数据也是你你做完了之后直接发到下一步，对吧？诶，当然他他有可能是发到下一个是同一个分区，所以他只管这一个操作做传输就完事了，并不涉及到stage的划分，所以也就没有中间的延迟的时间，这就是flink的特点啊，大家看就是flink跟SPA streaming底层架构不一样，实现思路原理不一样，其实就导致了对于流处理这种方式，是不是明显flink就要占上风啊，对吧？它的延迟就会低一点，因为它本身架构设计就是针对流式数据的这种场景来设计的。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分

（6/99）

5分36秒

001_尚硅谷大数据技术_Flink理论_Flink简介（一）Flink是什么

410

13分11秒

002_尚硅谷大数据技术_Flink理论_Flink简介（二）为什么要用Flink

370

12分49秒

003_尚硅谷大数据技术_Flink理论_Flink简介（三）流数据处理的行业

400

16分17秒

004_尚硅谷大数据技术_Flink理论_Flink简介（四）流处理的发展演变

320

9分14秒

005_尚硅谷大数据技术_Flink理论_Flink简介（五）Flink的特点

350

7分44秒

006_尚硅谷大数据技术_Flink理论_Flink简介（六）Flink vs Spark Streaming

350

26分36秒

007_尚硅谷大数据技术_Flink理论_简单上手（一）批处理WordCount

380

13分51秒

008_尚硅谷大数据技术_Flink理论_简单上手（二）流处理WordCount

300

10分59秒

009_尚硅谷大数据技术_Flink理论_简单上手（三）流式数据源测试

410

27分53秒

010_尚硅谷大数据技术_Flink理论_Flink部署（一）Flink安装和配置

420

24分18秒

011_尚硅谷大数据技术_Flink理论_Flink部署（二）Job的提交运行

400

7分5秒

012_尚硅谷大数据技术_Flink理论_Flink部署（三）资源的分配和并行度测试

420

6分54秒

013_尚硅谷大数据技术_Flink理论_Flink部署（四）命令行提交Job

450

14分7秒

014_尚硅谷大数据技术_Flink理论_Flink部署（五）Yarn和K8s平台的Flink部署

450

11分29秒

015_尚硅谷大数据技术_Flink理论_运行时架构（一）Flink四大组件

340

4分48秒

016_尚硅谷大数据技术_Flink理论_运行时架构（二）作业提交流程_抽象架构

370

4分48秒

017_尚硅谷大数据技术_Flink理论_运行时架构（三）Yarn上作业提交流程

370

7分26秒

018_尚硅谷大数据技术_Flink理论_运行时架构（四）作业调度原理及思考问题

360

27分16秒

019_尚硅谷大数据技术_Flink理论_运行时架构（五）Slot和任务调度

380

14分24秒

020_尚硅谷大数据技术_Flink理论_运行时架构（六）Slot和并行度的关系

440

11分0秒

021_尚硅谷大数据技术_Flink理论_运行时架构（七）程序结构和数据流图

340

19分37秒

022_尚硅谷大数据技术_Flink理论_运行时架构（八）数据传输和任务链

430

5分43秒

023_尚硅谷大数据技术_Flink理论_流处理API_创建执行环境

360

16分38秒

024_尚硅谷大数据技术_Flink理论_流处理API_Source（一）从集合读取数据

430

4分22秒

025_尚硅谷大数据技术_Flink理论_流处理API_Source（二）从文件读取数据

420

10分45秒

026_尚硅谷大数据技术_Flink理论_流处理API_Source（三）从kafka读取数据

370

22分21秒

027_尚硅谷大数据技术_Flink理论_流处理API_Source（四）自定义测试数据源

400

14分42秒

028_尚硅谷大数据技术_Flink理论_流处理API_Transform（一）基本转换操作

270

29分53秒

029_尚硅谷大数据技术_Flink理论_流处理API_Transform（二）滚动聚合

400

12分4秒

030_尚硅谷大数据技术_Flink理论_流处理API_Transform（三）reduce聚合

480

12分57秒

031_尚硅谷大数据技术_Flink理论_流处理API_Transform（四）分流

390

14分1秒

032_尚硅谷大数据技术_Flink理论_流处理API_Transform（五）connect合流

330

6分28秒

033_尚硅谷大数据技术_Flink理论_流处理API_Transform（六）union合流

330

6分21秒

034_尚硅谷大数据技术_Flink理论_流处理API_Flink支持的数据类型

370

25分10秒

035_尚硅谷大数据技术_Flink理论_流处理API_Flink中的UDF函数类

350

14分27秒

036_尚硅谷大数据技术_Flink理论_流处理API_Flink中的数据重分区操作

370

17分39秒

037_尚硅谷大数据技术_Flink理论_流处理API_Sink（一）_Kafka

470

17分5秒

038_尚硅谷大数据技术_Flink理论_流处理API_Sink（二）_Redis

410

19分18秒

039_尚硅谷大数据技术_Flink理论_流处理API_Sink（三）_Es

300

18分25秒

040_尚硅谷大数据技术_Flink理论_流处理API_Sink（四）_JDBC

390

7分18秒

041_尚硅谷大数据技术_Flink理论_Window API（一）_基本概念

350

16分33秒

042_尚硅谷大数据技术_Flink理论_Window API（二）_窗口类型

360

17分18秒

043_尚硅谷大数据技术_Flink理论_Window API（三）_窗口分配器

330

19分24秒

044_尚硅谷大数据技术_Flink理论_Window API（四）_窗口函数（一）时间窗口u增量聚合

340

14分45秒

045_尚硅谷大数据技术_Flink理论_Window API（五）_窗口函数（二）时间窗口全窗口聚合

370

12分59秒

046_尚硅谷大数据技术_Flink理论_Window API（六）_窗口函数（三）计数窗口测试

310

20分8秒

047_尚硅谷大数据技术_Flink理论_Window API（七）_其它可选API

340

6分55秒

048_尚硅谷大数据技术_Flink理论_时间语义（一）_时间语义概念

440

11分18秒

049_尚硅谷大数据技术_Flink理论_时间语义（二）_时间语义的应用

380

4分51秒

050_尚硅谷大数据技术_Flink理论_时间语义（三）_事件时间语义的设置

460

21分13秒

051_尚硅谷大数据技术_Flink理论_Watermark（四）_Watermark概念和原理

390

17分48秒

052_尚硅谷大数据技术_Flink理论_Watermark（五）_Watermark特点和行为

480

9分0秒

053_尚硅谷大数据技术_Flink理论_Watermark（六）_Watermark在任务间的传递

340

21分44秒

054_尚硅谷大数据技术_Flink理论_Watermark（七）_Watermark在代码中的设置

380

10分41秒

055_尚硅谷大数据技术_Flink理论_Watermark（八）_Watermark的设定原则

400

11分59秒

056_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（一）

380

15分48秒

057_尚硅谷大数据技术_Flink理论_窗口起始点和偏移量

360

9分20秒

058_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（二）迟到数据处理

370

9分7秒

059_尚硅谷大数据技术_Flink理论_状态管理（一）状态定义

330

21分11秒

060_尚硅谷大数据技术_Flink理论_状态管理（二）算子状态

440

26分41秒

061_尚硅谷大数据技术_Flink理论_状态管理（三）键控状态

380

16分29秒

062_尚硅谷大数据技术_Flink理论_状态编程_温度跳变报警

420

15分56秒

063_尚硅谷大数据技术_Flink理论_并行任务Watermark传递测试

380

21分58秒

064_尚硅谷大数据技术_Flink理论_状态管理（四）状态后端

420

13分31秒

065_尚硅谷大数据技术_Flink理论_ProcessFunction（一）整体介绍和分类

330

24分55秒

066_尚硅谷大数据技术_Flink理论_ProcessFunction（二）KeyedProcessFunction测试

360

25分30秒

067_尚硅谷大数据技术_Flink理论_ProcessFunction（三）应用案例_一段时间内温度连续上升

380

10分2秒

068_尚硅谷大数据技术_Flink理论_ProcessFunction（四）应用案例_高低温分流

360

11分21秒

069_尚硅谷大数据技术_Flink理论_容错机制（一）检查点概念

370

6分39秒

070_尚硅谷大数据技术_Flink理论_容错机制（二）从检查点做故障恢复

330

14分54秒

071_尚硅谷大数据技术_Flink理论_容错机制（三）检查点算法思路和Barrier

350

22分14秒

072_尚硅谷大数据技术_Flink理论_容错机制（四）检查点具体算法

370

7分23秒

073_尚硅谷大数据技术_Flink理论_容错机制（五）保存点

390

23分6秒

074_尚硅谷大数据技术_Flink理论_容错机制（六）检查点和重启策略配置

410

9分38秒

075_尚硅谷大数据技术_Flink理论_状态一致性（一）一致性概念和分类

430

8分6秒

076_尚硅谷大数据技术_Flink理论_状态一致性（二）端到端状态一致性

390

5分12秒

077_尚硅谷大数据技术_Flink理论_状态一致性（三）幂等写入

340

18分58秒

078_尚硅谷大数据技术_Flink理论_状态一致性（四）事物写入_预写日志和两阶段提交

370

18分29秒

079_尚硅谷大数据技术_Flink理论_状态一致性（五）事物写入_Flink和Kafka连接保证状态一致性

350

24分1秒

080_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（一）_基本介绍和简单示例

380

6分59秒

081_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二）_基本程序结构

380

12分36秒

082_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（三）_表环境配置

310

21分50秒

083_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（四）_创建表_从文件读取数据

450

15分55秒

084_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（五）_表的查询

390

8分10秒

085_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（六）_表的输出_输出到文件

320

16分32秒

086_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（七）_Kafka数据管道测试

330

8分1秒

087_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（八）_更新模式

410

10分8秒

088_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（九）_输出到其它外部系统

310

9分33秒

089_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十）_表和流的转换

350

19分35秒

090_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十一）_动态表和持续查询

340

12分22秒

091_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十二）_处理时间特性

330

10分9秒

092_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十三）_事件时间特性

330

25分49秒

093_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十四）_分组窗口

300

19分14秒

094_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十五）_开窗函数

390

14分44秒

095_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十六）_系统内置函数

310

21分22秒

096_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十七）_标量函数

340

18分50秒

097_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十八）_表函数

370

20分0秒

098_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十九）_聚合函数

380

7分31秒

099_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二十）_表聚合函数

420

006_尚硅谷大数据技术_Flink理论_Flink简介（六）Flink vs Spark Streaming

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐