文章/答案/技术大牛

发布

首页视频175_课程总结

175_课程总结

2022-12-022022-12-02 16:02:30播放35

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/175_课程总结.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
到目前为止呢，我们已经学完了flink的所有内容，在这个漫长的学习过程当中，我们其实会发现啊，Link里边的知识点真的是非常非常的多，而且也很有难度，所以最后呢，我们再来做一个总结回顾，把之前所有学过的内容再梳理一遍。哎，那一开始首先呢，我们其实是做了一个flink的简单介绍，哎，我们先了解了一下flink到底是用来干什么的，它的缘起设计理念到底是什么样的，那学完了之后回头看的话，我们其实已经很明确的知道，Flink就是一个有状态的流式处理引擎，它用在大数据的实时流分析当中，当然了，现在的弗link呢，已经是一个流批一体的大数据处理框架了，哎，那但是它的本质，它的底层架构还是基于流处理的，所以它的最主要的特点呢，就是快，就是低延迟。但是我们又说它在保证快的同时，还保证了高吞吐，还保证了处理结果的正确性，它是怎么做到呢？诶，我们知道传统数据处理里边，如果想同时做到结果的正确性和实时性的话，诶，那我们得用拉姆达架构，也就是同时使用一个批处理器和流处理器两套架构来保证这一点。
01:16
而现在弗link呢，一套架构就实现了我们所有的功能，诶，所以我们说弗link特别强大，后边我们学完了之后其实也就发现了啊，在我们讲到时间属性的时候，这里边非常重要的一个概念就是水位线的引入，怎么样能保证结果的正确性呢？关键就在于能够正确的处理迟到数据，能够处理乱序数据，这里的水位线我们可以通过设置一个延迟时间，多等一会儿，这样的话就可以正确处理乱序数据了啊，当然了，我们说对于弗link而言，它处理迟到数据的方式呢，不仅仅只有水位线的延迟一种方式，因为我们知道水位线延迟相当于是直接把这个时间调慢，它是全局有效的，这个代价比较大，哎，那所以一般呢，我们是给水位线一个比较小的延迟时间，那如果说后边我们经过这个时间操作之后，发现又有迟到的数据，又出现乱序，那水位线搞不定那些数据要丢了。
02:16
怎么办呢？哎，如果是窗口处理的话，我们还有第二处保证窗口可以设置一个loud lateness时间多等一会儿，在这个时间段内呢，还可以收集迟到的数据，在之前窗口聚合结果基础上继续进行叠加，那最后还有一个兜底的方法，我们说那就是最终的输出到测出出流啊，其实这个方法呢，在我们最后讲到的cep里边也有体现，我们可以把最后water mark延迟没有等到的那些迟到数据都塞到特殊出流里边进行一个额外的处理。所以我们说flink使用一套系统就实现了拉姆达架构里边两套系统的功能。整体来看的话啊，我们这里处理的核心其实还是实时性和我们结果正确性的一个平衡啊，这就是关于这个link核心特性的一个解释，我们学完了之后就知道到底是怎么回事。
03:13
然后接下来呢，Link还有一个非常重要的特性，就是我们所谓的分层API，其实关于这里的分层API我们就会发现啊，中间层data three没PI，这就是我们整个学习link过程当中的最重要的一个环节。那后边我们讲到第五章内容，Data没PI本身就是针对这个核心层API的主要讲解，当然了，这里都是一些基础的应用，最简单的应用啊，我们分成了三步，那就是首先是一个S，然后是转换算子transformation，最后是输出算子think。那除了这些之外呢，弗link还提供了很多更加高级的转换处理操作，诶那其实后边的内容我们都可以认为是dataam API这个核心层里面的一部分啊，比如说后面我们讲到第六章里面的窗口，那窗口API我们单独把它叫做window API，那本身呢，它也是基于一个data stream，首先我们做KY啊，KY之后呢，基于k stream调一个window方法，诶，那指定一个窗口分配器，得到一个window stream，然后再定义一个窗口函数，最终再回到data stream，所以我们看同样它也是核心层API基于data stream做的转换啊，所以窗口操作是一种比较高级的data stream API。
04:29
除了窗口之外呢，哎，那另外我们还可以做一些比如说多流转换的操作，本质上来讲这其实也是API，只不过我们可能涉及到了两条或者两条以上的流，那最经典的方式当然就是两条流直接connect了，我们也知道啊，Connect底层的话可以获取到非常多的信息。那另外呢，还可以方便的进行基于时间的合流，这就是我们所说的双流draw啊，我们可以做window draw窗口连接，也可以做间隔连接internal draw，另外还可以做窗口同组连接window Co group，这就是我们所说的data threepi所介绍的所有内容。
05:09
那当然了，前面第七章我们还介绍了一个更加底层的API的用法，那就是处理函数process方式，它的最大的特点其实就能获取到一般我们在data stream API里边拿不到的那些东西，哎，那本质上来讲，在最底层呢，我们直接可以获取到当前的状态，我们可以进行有状态的流处理，另外呢，在处理函数process方式里边还可以去获取到当前的时间信息，另外还可以注册定时器，指定我们过一段时间之后在某个时间点去触发一些操作，所以说process function啊，它是一个大招，平常能够遇到的所有需求，几乎都可以使用处理函数去进行一个实现啊。那另外处理函数还有一个功能，就是我们说的啊，它可以做这个测殊处理啊，那有了这个功能之后，就可以非常简单的实现所谓的分流操作了。
06:01
诶，那这样的话就把我们前面介绍的所有内容都串在一起了，另外还需要强调的一点，就是所谓的有状态的流处理计算呢，并不一定非得在处理函数process function里边去定义我们的状态啊，因为我们说process function之所以能够定义状态，主要是因为哎，它继承自负函数类，它是一个rich方式，而在负函数类里边呢，直接可以获取到当前的运行式上下文，所以本质上来讲是在负函数类里边获取到了运行上下文，就可以去进行有状态的处理了。诶所以第九章我们介绍的状态编程，这个就不局限在process方式里边，针对flink里边的每一个算子，我们说它其实都有对应的rich版本，如果我们实现了reach方式的话，那其实就可以在里边自定义状态，然后进行各种各样复杂的处理了。那关于这个状态呢，我们又进行了划分啊，最常见的其实是k set，它是按键分区的状态，注意这种状态其实是使用最频繁，而且我们说啊，只有按键分区之后，如果使用K的process方式的话，才能定义定时器，诶，所以基本上我们实际编程的时候啊，都要对当前的数据流进行一个KBY按键分居操作啊，这基本上就是一个标配了啊。然后另外呢，我们还介绍了算子状态，算子状态主要特点就是诶，那就跟K无关，同一个分区里边的所有数据都能够访问到相同的状态实例啊，那这个就相对来讲会简单一点啊。然后另外还有一个广播状态，这个更特殊一点，我们说它一般呢，就是一些动态的配置项可以放到一个广播流里边，然后呢，两条流在做一个connect，接下来就可以使用广播状态去控制我们的一些行为了。
07:49
那最后在第十章的时候，我们还介绍了flink里边的容错机制，那核心就是一致性检查点checkpoint。啊，那除了底层的这些API之外，另外呢，我们还介绍了flink的上层API，那就是table API和CQ，这部分内容比较多，但是事实上呢，最核心的地方就是我们理解在流处理当中，表到底是怎么做计算，我们搞清楚了动态表和持续查询，知道了最终得到的结果是一个更新查询的结果，还是紧追加查询，哎，那其实所有的问题就都迎刃而解了。其他的API调用呢，那其实就是对应我们之前data three API在CQ里面的一个表达而已。
08:34
那最后我们还介绍了flink cp，这主要是处理复杂事件的一个flink库，哎，那同样CP也应该是更加高层级应用层级的API，而整体来看的话，CP其实是跟CQ在一个层级，有了这些所有的知识之后，接下来我们在工作当中到底应该怎么去用这个link相关的API呢？诶，那就是我们说的啊，如果我们对CQ比较熟悉的话，那肯定就是来了一个简单的需求，能用CQ就用CQ了，因为CQ里边给我们提供了很多很多系统函数，哎，所以像我们之前说的啊，你如果做一个。
09:11
平均值的计算，哎，那我们根本没有必要在data STEM里边自定义对应的那些聚合操作，你直接调用avg不就完了吗？诶，包括我们之前说要计算UV的时候，你直接用一个distinct不就完了吗？哎，那所以直接使用CQ其实是最简单的方式，那当然了，如果说有一些需求比较复杂，CQ没有办法直接搞定啊，或者说我们对CQ不太熟悉，诶，那平常一般也就是直接使用datapi。核心层的做一个流处理计算就可以了，那如果说data stream API搞不定的话，那怎么办呢？诶，那我们就使用瑞function去做状态编程，或者是使用最底层的process function做各种各样的处理转换，还可以定义定时器，那基本上就可以把所有的需求全都搞定。这就是关于我们link学习的所有内容。
10:02
在这里也感谢大家的坚持观看，那我们这门课程的内容就全部结束了。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（176/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

175_课程总结

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐