文章/答案/技术大牛

发布

首页视频024_第四章_并行度

024_第四章_并行度

2022-12-022022-12-02 16:02:30播放41

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/024_第四章_并行度.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
有了这个概念之后呢，我们再来介绍另外一个很重要的概念，就是所谓的并行度啊，这个其实很好理解，在做作业提交的时候，我们还可以改并行度嘛，那什么叫并行度呢？所谓的并行度其实就是每一个算子，大家知道啊，这不是把这个程序里边的每一个转换操作，转换方法对应到了我们这个data flow里边的算子嘛，那既然是算子是一个operator，它是可以操作的嘛，那最后这个算子是不是就应该对应着一个任务呢？呃，确实大概的想法应该是这样的啊，一个算子就应该对应一个任务，但是最后我们是还要做大数据处理嘛，应该要并行计算，怎么并行计算呢。一个非常简单的想法就是我把这个算子在不同的机器不同的节点上。复制多份。然后那是不是在不同的节点上就都能去执行这个操作了，哎，所以这样的话，我就相当于把这个任务并行去处理了，这样的时候如果一同一个数据来了之后，是不是我我进入这个算子也可以，进入这个算子也可以，只要进入一个都是把它处理完了，哎，这就是所谓的并行计算对吧？这个大家需要区别一个的是在我们这个流处理架构里边啊。
01:15
呃，跟Spark不一样，Spark是分阶段的嘛，它有stage啊，然后杀Le什么的，我们这里边流处理的时候，它本身就是数据流，所以前后的任务它本身就可以并行，什么意思呢？就是假如说啊，我这边的数据。停的来，我这来了一个一，然后又来了一个二，又来了一个三，那么大家知道一通过这个S读进来之后，然后去做这里的这个map转换操作，如果一已经在这儿做map转换了，那大家说这个S会闲着吗？SS肯定不闲着，对不对，他只要把这个一这个数据处理完了，传输出去，传递出去了，那他就可以读下一个数了呀。所以就有可能会出现map正在做啊，就是比方说啊，后边的任务正在做，一这个数据正在处理，而map在处理，二这个数据SS已经在读三这个数据了。
02:07
所以完全有可能我们不同的任务都在执行，但是他们可能运运行的正在处理的是不同的数啊，所以这是一种并行，这种并行叫做任务并行。就是数没有并行开，同一个操作没有在同时处理，对吧，那就只是在一个这个节点上去处理，但是呢，不同的操作我可以把它排开同时处理，这是任务并行。那另外还有一种并行是什么呢？大家知道任务并行，你这个还是有瓶颈嘛，你数据如果特别多的时候，你还得一个一个嘛，只是前后发生的这个前后执行的任务可以同时执行，那你同样都是在SS这里的话，你还是得处理完一才能处理二，处理处理三，如果我一下子来了1亿个数，你你这个SS还是得一个一个等着吗？那怎么办呢？把它SS复制成多份一字排开，那这样的话接下来就变成什么了。
03:06
那就变成了我的数据来了，一可以分配到SS1这个并行任务里边，二来了之后可以分配到SS2这个并行任务里边，诶那家看现在是不是这个就数据都可以同时由同一步操作，我们说的同一个算子。直接同一时间执行了，哎，所以从这个意义上，我们可以认为并行有两种概念，一种叫任务并行。就是我们说的前后发生的不同任务，他们是同时处理数据的，另外呢，还有一个叫做数据并行。就是说同一个操作，同一个算子。可以把它拆成多份，同时处理多个数据。在大数据场景下，我们所说的并行更加关注的是数据并行，对吧？啊，当然任务并行也也很好，你像Spark那样的话就是，呃，前后不同阶段的任务也没法并行，你必须一个阶段处理完了之后才能处理下一个啊，啊，所以这个概念大家还是要区分一下，那总结起来给一个标准概念的话，就是每一个算子一个operator，它对应着任务是什么呢？它可以对应一个或多个任务，有时候我们把这个任务就叫做并行子任务。
04:20
就是sub task啊啊，这这个sub task和task概念我们不做呃强制的区分啊，一般情况下我们所所说的任务就是最后在task manager上单独执行的这一个东西，对吧？所以有时候我会把它叫做并行子任务，这个就听着非常的非常的明确了啊，一看就知道是单独的这一个啊，那对于这个统一的SS这步操作，我们就把它叫做SS算子啊，这样的话就是它包含可能包含多个并行子任务，那这些子任务可能会怎么样去执行呢？诶，那之前我们就说了，每一个task manager不是可以认为是一个GVM进程吗？那这个进程上是不是就可以多线程去处理啊，啊，所以这些并行子任务可以在不同的线程，当然也可以在不同的机器，不同的task manager，对吧？那不同的task manager可以是不同的物理机，也可以是不同的容器，它们都可以完全独立的运行。
05:15
这就是所谓并行计算的概念。那什么叫做并行度呢？那就是当前并行计算某一个特定算子，它做并行计算的子任务的个数就叫做它的并行度parallela。通过这个定义，大家可以明确的看出来，定形度针对的是什么。并行度针对的是算子对吧？啊，所以它其实针对的是我们这里边的某一步操作而言的，言下之意，那是不是一个程序里边一个作业里边的不同步骤不同算子。是不是可以设不同的并行度啊，哎，所以大家看前面几个并行度这是几啊，拆开之后都是并行度是二，而最后一个S有可能大家看我直接给它设置并行度是一，这样的话就相当于前面都是并行两个任务在做处理，同时处理的最后一步呢，我需要汇总在一起，在一个。
06:14
Think任务里边去输出。啊，这个其实有时候还是挺常见的，因为大家知道，呃，Think这步操作，比方说我要写入到文件，我不想把它分布式的写到不同的文件里，对吧，我就想汇总到一个大的文件里边，那是不是最后我就应该把它复制，就是只有一个这个任务啊，你如果并行执行的话，那不同的task manager在执行，那肯定是本地不同的文件嘛。所以这个就是我们可以看到这个它有一些实际应用的场景啊，它确实是这样去去做的。呃，那并行度在代码里边怎么样去设置呢？其实前面我们讲讲到并行度的时候说了啊，并行度是针对每一个特定算子而言的，所以在代码里边我们可以针对每一个真正意义上的算子对应的那个方法调用后边跟上一个并路的设置啊前面我们也说了Fla map本身是一个算子啊，那所以我们可以在它后边用that parallelism去做一个并行路的设置，就可以随便给一个数字就可以，好，那像这个K派，我们知道它本身就不是一个算子，所以这个就不能做设置，对吧？而其他的你像这个sum后边。
07:25
像这个print后边他们都是可以直接去做这个并行度设置，这是把里边设置的方法啊，那另外呢，我们会发现其实在整个这个应用程序里面啊。因为本身也有一个that这样一个方法，这样表示什么含义呢？就是全局的，在整个这个程序里边啊，整个这个应用里边，全局的把所有算子的并行度设置为一。啊，那有同学可能想了，你既然这里可以全局的设，那后边假如说我在这儿又设了一个这这怎么办呢。
08:02
啊，这就有一个设置并行度优先级的一个问题了，啊，设置并行度最优先的是什么呢？是代码里边每一个算子，它本身的设置的并行度。就是这里边如果单独你给萨姆设了一个二的话，那么它的并行度就是二，如果这里没有设置，那就要看。当前全局有没有设置，如果设了一哦，那当前所有的算子啊，没有设的并行度就都是一，其实啊，这个全局在这里边直接设一个并行度，这个并不提倡，为什么呢？因为大家知道这相当于hard code啊，直接把它定死了嘛，现在我们直接提交作业的时候，其实就受到了很大的限制，你即使是提交作业的时候，想要让他给他分配更多的资源，也分配不了，因为他并行度只能拆这么多的这个并行任务嘛，对于每一个算子而言，是有可能你需要去单独定义的啊，就当前这个这个算子，呃，可能我就只希望它在用一个任务来执行，就像最后我只希望写入到一个文件里边，那你就单独的把它设成并行度是一，这是可以的，但是全局的这个设置就没有必要。
09:07
因为它等价于什么呢？就等价于我们在这个作业提交时候给定的这个杠P参数，大家还记得这里边这个parallelism在命令行提交的时候，其实就是一句放屁对吧。P2，那么这就相当于什么？就是对当前提交的这个作业。全局指定了一个并行度是二，跟在代码里边直接写死这个en nv parallelism2是一样的，效果是一样，那如果说我在代码里边写了，也在外面这里边设置了，那以谁为准呢？以代码为准，因为大家知道你这里提交的时候只是外部的一个设置，而代码呢，是运行的时候的一个本身设置啊，所以代码的优先级是最高的啊啊，所以总结起来的话，我们就是先看每一个算子它的并行度的设置，然后如果没有的话，看代码里边env环境的全局设置，如果这里又没有的话，那么看作业提交时候给的杠P参数的设置。
10:11
如果这里也没有呢？哎，这就回到我们最前前面说的那个了啊，如果这里也没有的话，那是不是就需要看集群环境comungf flink压文件下边有一个配置的参数叫做parallelism.default。这里设置的这个不是整个集群里边所有提交的作业最终默认的那个并行度，当然了它的优先级就最低，因为它是对集整个集群都生效嘛，哎，所以我们就看到了啊，就是越精细，你如果控制的范围越小，它的优先级就越高，控制的范围越大越灵活，哎，这样的话它的优先级就越低啊就是大概就是这样的一个状态，那一般情况项目实践的时候推荐是什么呢？呃，其实集群里边这个配置，这只是一个默认配置而已，一般我们不会以这个一为准，对吧，而且也不会直接把这个集群里边直接就定死，所有的并行度都一样，肯定是针对每一个作业而言的啊，要单独指定的，那指定的时候呢，一般就是如果有特殊需求的算子，那我们单独的分配一下，代码里边分配一下。
11:21
那没有需求的呢，我们全局就不要去设置了，而是在提交作业的时候在这里加杠P参数，那就非常灵活嘛，你假如说当前这个资源不够用了，我还可以把它停掉之后再重启，重启的时候给一个小点的并行度，诶这样肯定占的资源就小了嘛，或者说如果现在我们这个数据量变大了，那怎么办呢？呃，之前资源不够用了，那我还可以。停掉之后以更高的并行度重新运行，哎，这些都是可行的，这就是flink非常灵活的地方，并行度的设置和它的优先级别。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（24/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

024_第四章_并行度

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐