文章/答案/技术大牛

发布

首页视频030_第五章_执行环境

030_第五章_执行环境

2022-12-022022-12-02 16:02:30播放40

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/030_第五章_执行环境.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们想要在flink当中调用data three API，那首先第一步就是先要去创建一个执行环境啊，这个其实很好理解，因为我们说FNK是一个分布式的处理引擎，所以一般情况下呢，我们当前的代码应该是要打包之后提交到远程的分布式集群上去执行的啊，就像我们之前做的部署提交的那些步骤一样，那那另外呢，我们当然也可以直接在本地当前的一个集成开发环境里边，在IDE里边直接运行模拟一个当前的Li集群，那这种方式跟提交到远程集群上去运行当然是有所不同的，所以我们会发现，对于一个link程序而言，它应该先要知道当前到底处在什么样的一个上下文当中，首先就是要获取当前的执行环境。那这一步其实我们发现在代码当中非常简单，上来之后就是直接调用STEM execution environment的get execution environment方法啊，这个我们可以理解成这是一个静态方法，当然呃，对于代码而言啊，没有静态这样一个说法，那我们点进去的话就会发现这调用的其实就是。
01:14
当前stream environment这个类的伴生对象里边的方法，哎，那其实本质上来讲就可以认为这是一个静态方法了，但是我们就会发现这样一个调用啊，得到了一个当前的流市执行环境。哎，那我们说流式执行环境可以是本地，也可以是远程的一个分布式集群，那当前1GET到底得到的是什么呢？啊，其实使用这种方法调用getecu environment这个方法对于我们来讲其实是非常友好的，它比较智能，它会自动的帮我们判断当前的运行上下文到底是什么样子啊，就是如果当前程序是独立运行的，那么就直接返回一个本地执行环境。如果是创建了抓包，然后从命令行调用啊，提交到集群里面执行的，那么就返回集群的执行环境，所以我们可以认为它就是一个智能化的判断方式啊，直接用统一的接口调这个方法，直接就把这一个最终真正的运行环境获取到了，所以一般情况下我们都是直接这样调用获取到就可以了啊，那当然了，通过这样一个介绍我们就会发现啊，那getcu environment它其实本质上应该是link框架帮我们做了一些事情。
02:31
他帮我们做了一个自动判断，那真正意义上底层应该调用什么样的方法呢？诶，那其实那就是判断出来，如果当前是本地执行环境的话，它应该执行的就是。Create local environment，创建一个本地环境这样的一个方法。我们可以看到啊，第二种我们创建获取当前执行环境的方法，就是调用create local environment，好，那直接得到的就是当前的本地执行环境，这里边可以传入一个整数的参数。
03:04
指定默认的并行度，如果不传的话，诶，那我们知道啊，本地执行环境啊，就像我们在这个IDE里边直接模拟一个定的集群一样，默认的并行度就是当前CPU的核心数。那与之对应的有本地就有远程，所以另外一个方法就叫做create remote environment，同样它也是直接调用这样一个方法啊，基于stream execution environment，调用create remote environment就可以了。那里边呢，我们就可以指定当前集群的join manager的主机名、端口号，以及我们要提交给manager当前打包好的那个抓包。这样的话，我们得到的就是一个集群的执行环境啊，当然了，在真正的代码应用的过程当中，我们不需要调这两个方式啊，啊，因为我们知道，如果说在代表当中我们要调这个方法的话，那就得自己先明确我当前到底是一个本地还是一个远程，那假如说我是在本地开发，然后做完了测试，最终我要提交到远程上去执行，那这个时候难道我还要再去改更改代码吗？这显然是不可能的，哎，所以一般我们就直接调这个统一的啊，自动判断的这个方法就可以了。
04:17
这是关于在代码当中创建一个执行环境，然后另外我们需要说的，那就是执行模式。其实前面在第二章我们也已经介绍过啊，就所谓的执行模式execution mode指的是什么呢？其实指的就是批处理和流处理两种方式，我们之前说过啊，对于新版本的弗林而言。01:12之后，哎，那当前已经做到了流批起data set API已经被弃用了，那这个时候我们不管是做批处理还是流处理都是使用data API，所以我们这里啊，直接开发了这个程序之后，它是既可以做批处理也可以做流处理，诶那我们知道这个默认情况下，直接一执行，它显然是来一个处理一个，这是流式处理程序嘛，那假如说我们要想直接把它变成一个批处理程序怎么办呢？那就是在提交当前作业的时候指定执行模式啊。
05:14
就是之前我所说的加上一个参数指定当前的runtime mode啊，那对于早些时候的弗link版本啊，它的批处理的执行环境的获取跟流处理是非常类似的，那只不过呢，调用的是另外一个方法，直接调用的就是execution environment的get execution environment方法啊，所以整体来讲就是流失执行环境多加了一个stream。哎，但是这种情况我们就会发现啊，容易混淆，而且批处理和流处理获取的方式是完全不一样的，这就会比较麻烦，哎，所以之后呢，这种方式就将被弃用了，那如果我们看到一些早期的代码，也应该知道它到底是怎么回事，那现在的做法是什么呢？诶，那就是直接使用统一的stream API，前面那就都是streamq，里面获取到的都是一个流失执行环境，那对于批处理而言，我们只要提交的时候flink wrong指定一个杠d execution.run开mode等于batch就可以了。
06:16
所以这里的batch就是一个批处理的执行模式。如果不做配置的话，默认这个模式其实就是streaming，也就是流处理的模式啊，所以一般情况如果我们是流处理程序的话，就不用指定任何参数就可以了。这是比较常用的一种方式，就是直接通过命令行提交的时候去做一个配置，那另外还有一种方式呢，我们可以直接在代码里边进行配置，诶这个方式可以简单了解一下，就是env调用一个方法叫做set runtime mode，直接对当前的运行模式做一个设置。里边要配置的呢，那当然就是runtime execution mode这样一个枚举类型里边的某一个值啊，比如说点batch指定当前是批处理模式。
07:04
那这里需要强调一点的是这种方式代码里边配置这种方式并不推荐，为什么呢？啊，因为我们知道这相当于就是hard code嘛，直接在代码里边写死了，那当前这段代码我们打包之后的这个应用就只能作为一个批处理程序去做提交了啊，那假如说我们想要把它当成一个流处理程序去做运行的话，那显然我们就得重新写代码，重新打包，重新提交。其实我们知道没有必要啊，同样一份代码，如果我们统一使用了data stream API，只是在外面提交的时候单独去指定。当前的执行模式的话，那显然我们就是同一份代码，可以重复利用，你让他做批处理就是批处理，让他做流处理就是流处理啊，这个扩展性就会更好。所以一般情况。在代码里边利用当前的EV，当前的执行环境去做设置，这种方式是不常见的，不推荐的。那另外最后我们还要说一下，就是到底什么时候去选择当前一个批处理模式呢？简单来讲那就是。
08:08
当我们的数据是一批一批的，哎，都收集齐了，然后统一要做一次处理的时候，那当然就应该是批处理模式啊，啊，所以我们的标准就是用batch模式去处理批数据，用streaming模式去处理流数据，那对于一般情况下，我们知道这个数据都是正常真实的。环境里边，生产环境里边数据都应该是一个一个不停到来的，应该是一个流式的数据，所以一般情况我们还是使用流式STEM模式会更多，也会更加的高效，实时性会更强啊，但是有些时候呢，我们会发现啊，所收集的数据你来一个就收集一个，处理一个，可能代价会比较高，我们可能也是一批一批到来的，那这个时候我们就可以考虑使用Bach模式，而且有很多情况下，我们可能不需要每来一个数据就得到一个输出结果，我们有可能就是来了一批之后啊，最终统计一段时间得到一个结果就可以诶，那这种模式显然使用BI就会更加的简单，对于资源的占用也会更少。
09:13
这就是关于当前执行环境的一些内容啊，那当然了，最后我们不要忘记，就是在当前代码定义好，所有操作完成之后，最后要加上一个Env.ecute把当前的流处理程序要执行起来。这就是关于执行环境这一部分，内容比较简单。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（30/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

030_第五章_执行环境

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐