文章/答案/技术大牛

发布

首页视频018_尚硅谷大数据技术_Flink理论_运行时架构（四）作业调度原理及思考问题

018_尚硅谷大数据技术_Flink理论_运行时架构（四）作业调度原理及思考问题

2022-12-022022-12-02 16:02:17播放36

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分/018_尚硅谷大数据技术_Flink理论_运行时架构（四）作业调度原理及思考问题.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那接下来呢，我们再看一下这个所谓的任务调度原理，这里面其实就涉及到了很多任务在具体分配，在执行，在调度过程当中的一些概念和原则啊，那首先我们看一下这张图，这就是一个笼统的概念啊，整个任务调度的时候是什么样的一个状态呢？啊，简单来讲，首先我们写了一个flink。程序啊，一段代码啊，不管你用这个Java写还是skyla写，写出这个代码来之后，其实大家想到。大家回忆一下之前我们写的那个代码，是不是每一步操作都是非常清晰的呀，哎，流失处理嘛，一步一步对吧，每一步任务都非常的明确，所以基于这个代码直接就可以生成一个数据流图data flow。然后基于这个数据流图呢，大家看就是我通过这个client啊，一个客户端把它要提交给提交到当前那个当当前的这个弗link集群嘛，不管是通过这个，呃，比方说雅恩的resource manager，还是说dispat，对吧，STEMSTEM模式下自己的那个Dis dispat，那大家看最终是不是都会给到job manager，那job manager拿到了这样的一个job对应的那些数据流图之后，他就会把这个数据流图做一些分析处理，最后生成一个。
01:19
可执行的执行图对吧，大家还记得这样的一个概念啊，所以大家看这个客户端和这个job manager之间，它的这个数据主要是有哪些交互呢？啊，非常简单，客户端这边其实就是只给他提提供这个就是提交drop啊，Submit啊这样一个作业，或者呢，就是后面我们要取消一个drop的时候，我们也是在那客文客户端上点点点对吧，或者说是这个用一个命令啊flink cancel只需把它取消掉，所以客户端这边就只是发送这些消息。而这个drop manager呢，就给他来返回一些状态的信息和一些结果，对吧？啊，就是一些执行的运行的结果，这就是关于这个前面啊，我们生成这个数据流图，然后提交的过程，然后我们更关心的是当前的这个作业里边所有的任务到底怎么调度。
02:13
那其实简单来讲就是。当前一个作业里边应该有一个job manager，另外还应该有多个task manager，然后每一个task manager呢，里边又可以有多个task slot，对吧？啊，就可以有多个这个插槽，所以最终我这里边job manager分配开的每一个任务，大家看他是不是最终都要执行在。每一个对应的这个slot上面啊，然后接下来大家就会发现，这就相当于是一个多线程执行的过程了啊，每一个任务都并行执行，那是不是我们这就是一个大数据并行处理的一个过程啊，对吧，后面就是这样的一个过程了，那这里边job manager和task manager之间又要交互哪些信息呢？呃，其实主要就是跟这个job manager，像task manager，那是要就是把我们的这个任务要分配下去，要发送过去，另外就是如果说我们这里边取消了这个作业的话，我去停止取消这些。
03:14
任务也是需要照manager发指令的，对吧？啊，这些都是控制类的指令啊，都是照manager来发，还有就是如果我要想触发那个检查点保存的话，要做存盘也得job manager来发指令啊，所以这些都是job manager来做的，那另外这个task manager呢啊，要给这个job job manager发一些，哎，当前我的状态信息，心跳信息对吧，或者说统计统计信息啊，啊这些都是互相之间要做一些交互。那运行的过程当中，我们其实会发现job manager其实就对具体的这个干活的过程不管了，对吧，就是你至至于这个呃，数据怎么来，怎么处理，完全跟drop manager没关系了，所以接下来其实就是数据来了之后，那么当前的它，呃，这个slot上啊运行的这个任务，我接收到数据，那就开始执行，执行完了之后呢，得到的结果。
04:07
是不是一定有一个下游的任务啊，啊，对吧？啊，除非就是你是最后一步，比方说你控制台打印输出，那你就直接输出完了嘛，所以这里面一定有一个执行的流程，所以在这个执行的过程当中，就是每一个任务执行完毕，把数据就向下游去传递啊，那大家看就是task manager之间会有这样的一个数据流动的过程。这就是整个任务调度的原理和它提交运行的一个架构。啊，那大家看到这里面其实就涉及到了一个非常重要的几个问题啊。大家可以先来做一个思考。我们现在flink是一个分布式的大数据处理引擎，一个框架，那我们说既然要做这个分布式架构啊，它其实最关键的我们不是要做这个低延迟高吞吐吗？高吞吐最关键的一个一个要素，其实就是利用分布式架构进行并行计算，对吧？啊大家想一下，现在我们这个到底怎么样做并行计算呢？
05:09
其实这个问题很简单，大家看这里面怎么做并行计算的。对不就是相当于我每一个任务，每一步操作，我都可以给它设一个并行度，然后拆成并行的几个task，几个任务，那这不就相当于并行计算了吗？啊，对吧，简单来讲的话就是设置并行任务对吧，然后分配到不同的slot上，多线程就可以把它执行起来了。这是这个问题的解答，那接下来问题就来了。并行的这个任务到底需要占多少个slot呢？哎，之前大家，呃，通过我们那个测试的例子，大家发现好像啊是我当前这个所有任务里边啊，就是并行度最高的那个，好像就是最后占用的那个slot对吧？啊好像这是我们测试的结果，那问题就来了，为什么我不是所有的任务都单独的放在一个slot里边呢？
06:06
这是这个问题啊，后面我们要解答这个问题，然后另外还有一个问题，就是我们当前一个流处理程序里边到底应该包含多少个任务呢？哎，之前我们想的是你定义的那个代码里边每一步计算操作就应该是一个任务，对吧，但是最后我们发现有些情况下它是不是就合在一起了呀，到底什么场景可以合并，什么场景不能合并呢？哎，所以说这几个任务大家如果，呃，这几个问题大家如果都想清楚的话，那接下来我们其实就把整个过程就串起来了，就是诶，当前我通过这个代码，首先先分析每一步操作是干什么，对吧，然后每一个操作都可以设置一个并行度，然后我一分析之后，我可以知道他们哪些能合并，哪些不合并，我就知道最后一共有多少个任务了。然后有多少个任务，最后是不是我还可以就是分析出来它到底应该占用多少个slot呀，啊对吧，那那接下来他这个分配的时候，我就知道它到底应该分配到多少个slo上，我应该给他多少资源，就可以把它跑起来，然后接下来运行的时候，就是不同的lo之间，不同的它manager之间去交互数据，传输数据就可以了。
07:17
这就是一个完整流程，就可以串起来，所以大家可以把这三个问题做一个细致的思考。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分

（18/99）

5分36秒

001_尚硅谷大数据技术_Flink理论_Flink简介（一）Flink是什么

410

13分11秒

002_尚硅谷大数据技术_Flink理论_Flink简介（二）为什么要用Flink

370

12分49秒

003_尚硅谷大数据技术_Flink理论_Flink简介（三）流数据处理的行业

400

16分17秒

004_尚硅谷大数据技术_Flink理论_Flink简介（四）流处理的发展演变

320

9分14秒

005_尚硅谷大数据技术_Flink理论_Flink简介（五）Flink的特点

350

7分44秒

006_尚硅谷大数据技术_Flink理论_Flink简介（六）Flink vs Spark Streaming

350

26分36秒

007_尚硅谷大数据技术_Flink理论_简单上手（一）批处理WordCount

380

13分51秒

008_尚硅谷大数据技术_Flink理论_简单上手（二）流处理WordCount

300

10分59秒

009_尚硅谷大数据技术_Flink理论_简单上手（三）流式数据源测试

410

27分53秒

010_尚硅谷大数据技术_Flink理论_Flink部署（一）Flink安装和配置

420

24分18秒

011_尚硅谷大数据技术_Flink理论_Flink部署（二）Job的提交运行

400

7分5秒

012_尚硅谷大数据技术_Flink理论_Flink部署（三）资源的分配和并行度测试

420

6分54秒

013_尚硅谷大数据技术_Flink理论_Flink部署（四）命令行提交Job

450

14分7秒

014_尚硅谷大数据技术_Flink理论_Flink部署（五）Yarn和K8s平台的Flink部署

450

11分29秒

015_尚硅谷大数据技术_Flink理论_运行时架构（一）Flink四大组件

340

4分48秒

016_尚硅谷大数据技术_Flink理论_运行时架构（二）作业提交流程_抽象架构

370

4分48秒

017_尚硅谷大数据技术_Flink理论_运行时架构（三）Yarn上作业提交流程

370

7分26秒

018_尚硅谷大数据技术_Flink理论_运行时架构（四）作业调度原理及思考问题

360

27分16秒

019_尚硅谷大数据技术_Flink理论_运行时架构（五）Slot和任务调度

380

14分24秒

020_尚硅谷大数据技术_Flink理论_运行时架构（六）Slot和并行度的关系

440

11分0秒

021_尚硅谷大数据技术_Flink理论_运行时架构（七）程序结构和数据流图

340

19分37秒

022_尚硅谷大数据技术_Flink理论_运行时架构（八）数据传输和任务链

430

5分43秒

023_尚硅谷大数据技术_Flink理论_流处理API_创建执行环境

360

16分38秒

024_尚硅谷大数据技术_Flink理论_流处理API_Source（一）从集合读取数据

430

4分22秒

025_尚硅谷大数据技术_Flink理论_流处理API_Source（二）从文件读取数据

420

10分45秒

026_尚硅谷大数据技术_Flink理论_流处理API_Source（三）从kafka读取数据

370

22分21秒

027_尚硅谷大数据技术_Flink理论_流处理API_Source（四）自定义测试数据源

400

14分42秒

028_尚硅谷大数据技术_Flink理论_流处理API_Transform（一）基本转换操作

270

29分53秒

029_尚硅谷大数据技术_Flink理论_流处理API_Transform（二）滚动聚合

400

12分4秒

030_尚硅谷大数据技术_Flink理论_流处理API_Transform（三）reduce聚合

480

12分57秒

031_尚硅谷大数据技术_Flink理论_流处理API_Transform（四）分流

390

14分1秒

032_尚硅谷大数据技术_Flink理论_流处理API_Transform（五）connect合流

330

6分28秒

033_尚硅谷大数据技术_Flink理论_流处理API_Transform（六）union合流

330

6分21秒

034_尚硅谷大数据技术_Flink理论_流处理API_Flink支持的数据类型

370

25分10秒

035_尚硅谷大数据技术_Flink理论_流处理API_Flink中的UDF函数类

350

14分27秒

036_尚硅谷大数据技术_Flink理论_流处理API_Flink中的数据重分区操作

370

17分39秒

037_尚硅谷大数据技术_Flink理论_流处理API_Sink（一）_Kafka

470

17分5秒

038_尚硅谷大数据技术_Flink理论_流处理API_Sink（二）_Redis

410

19分18秒

039_尚硅谷大数据技术_Flink理论_流处理API_Sink（三）_Es

300

18分25秒

040_尚硅谷大数据技术_Flink理论_流处理API_Sink（四）_JDBC

390

7分18秒

041_尚硅谷大数据技术_Flink理论_Window API（一）_基本概念

350

16分33秒

042_尚硅谷大数据技术_Flink理论_Window API（二）_窗口类型

360

17分18秒

043_尚硅谷大数据技术_Flink理论_Window API（三）_窗口分配器

330

19分24秒

044_尚硅谷大数据技术_Flink理论_Window API（四）_窗口函数（一）时间窗口u增量聚合

340

14分45秒

045_尚硅谷大数据技术_Flink理论_Window API（五）_窗口函数（二）时间窗口全窗口聚合

370

12分59秒

046_尚硅谷大数据技术_Flink理论_Window API（六）_窗口函数（三）计数窗口测试

310

20分8秒

047_尚硅谷大数据技术_Flink理论_Window API（七）_其它可选API

340

6分55秒

048_尚硅谷大数据技术_Flink理论_时间语义（一）_时间语义概念

440

11分18秒

049_尚硅谷大数据技术_Flink理论_时间语义（二）_时间语义的应用

380

4分51秒

050_尚硅谷大数据技术_Flink理论_时间语义（三）_事件时间语义的设置

460

21分13秒

051_尚硅谷大数据技术_Flink理论_Watermark（四）_Watermark概念和原理

390

17分48秒

052_尚硅谷大数据技术_Flink理论_Watermark（五）_Watermark特点和行为

480

9分0秒

053_尚硅谷大数据技术_Flink理论_Watermark（六）_Watermark在任务间的传递

340

21分44秒

054_尚硅谷大数据技术_Flink理论_Watermark（七）_Watermark在代码中的设置

380

10分41秒

055_尚硅谷大数据技术_Flink理论_Watermark（八）_Watermark的设定原则

400

11分59秒

056_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（一）

380

15分48秒

057_尚硅谷大数据技术_Flink理论_窗口起始点和偏移量

360

9分20秒

058_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（二）迟到数据处理

370

9分7秒

059_尚硅谷大数据技术_Flink理论_状态管理（一）状态定义

330

21分11秒

060_尚硅谷大数据技术_Flink理论_状态管理（二）算子状态

440

26分41秒

061_尚硅谷大数据技术_Flink理论_状态管理（三）键控状态

380

16分29秒

062_尚硅谷大数据技术_Flink理论_状态编程_温度跳变报警

420

15分56秒

063_尚硅谷大数据技术_Flink理论_并行任务Watermark传递测试

380

21分58秒

064_尚硅谷大数据技术_Flink理论_状态管理（四）状态后端

420

13分31秒

065_尚硅谷大数据技术_Flink理论_ProcessFunction（一）整体介绍和分类

330

24分55秒

066_尚硅谷大数据技术_Flink理论_ProcessFunction（二）KeyedProcessFunction测试

360

25分30秒

067_尚硅谷大数据技术_Flink理论_ProcessFunction（三）应用案例_一段时间内温度连续上升

380

10分2秒

068_尚硅谷大数据技术_Flink理论_ProcessFunction（四）应用案例_高低温分流

370

11分21秒

069_尚硅谷大数据技术_Flink理论_容错机制（一）检查点概念

370

6分39秒

070_尚硅谷大数据技术_Flink理论_容错机制（二）从检查点做故障恢复

330

14分54秒

071_尚硅谷大数据技术_Flink理论_容错机制（三）检查点算法思路和Barrier

350

22分14秒

072_尚硅谷大数据技术_Flink理论_容错机制（四）检查点具体算法

370

7分23秒

073_尚硅谷大数据技术_Flink理论_容错机制（五）保存点

390

23分6秒

074_尚硅谷大数据技术_Flink理论_容错机制（六）检查点和重启策略配置

410

9分38秒

075_尚硅谷大数据技术_Flink理论_状态一致性（一）一致性概念和分类

430

8分6秒

076_尚硅谷大数据技术_Flink理论_状态一致性（二）端到端状态一致性

390

5分12秒

077_尚硅谷大数据技术_Flink理论_状态一致性（三）幂等写入

340

18分58秒

078_尚硅谷大数据技术_Flink理论_状态一致性（四）事物写入_预写日志和两阶段提交

370

18分29秒

079_尚硅谷大数据技术_Flink理论_状态一致性（五）事物写入_Flink和Kafka连接保证状态一致性

350

24分1秒

080_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（一）_基本介绍和简单示例

390

6分59秒

081_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二）_基本程序结构

380

12分36秒

082_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（三）_表环境配置

310

21分50秒

083_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（四）_创建表_从文件读取数据

470

15分55秒

084_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（五）_表的查询

390

8分10秒

085_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（六）_表的输出_输出到文件

320

16分32秒

086_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（七）_Kafka数据管道测试

330

8分1秒

087_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（八）_更新模式

410

10分8秒

088_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（九）_输出到其它外部系统

310

9分33秒

089_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十）_表和流的转换

350

19分35秒

090_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十一）_动态表和持续查询

340

12分22秒

091_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十二）_处理时间特性

330

10分9秒

092_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十三）_事件时间特性

330

25分49秒

093_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十四）_分组窗口

300

19分14秒

094_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十五）_开窗函数

390

14分44秒

095_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十六）_系统内置函数

310

21分22秒

096_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十七）_标量函数

340

18分50秒

097_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十八）_表函数

370

20分0秒

098_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十九）_聚合函数

380

7分31秒

099_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二十）_表聚合函数

420

018_尚硅谷大数据技术_Flink理论_运行时架构（四）作业调度原理及思考问题

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐