文章/答案/技术大牛

发布

首页视频002_第一章_Flink的起源和发展

002_第一章_Flink的起源和发展

2022-12-022022-12-02 16:02:30播放47

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/002_第一章_Flink的起源和发展.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
要学习flink，首先我们应该对flink有一个整体的了解，我们得知道flink是什么，它有哪些特点，能用来干什么事情啊，所以这里呢，我们首先用这样一个PPT对flink做一个整体的简介。那这里我们看到标题写的是flink流处理简介，这里所谓的流处理指的是一种数据处理的架构，数据处理的方式啊，那与之对应的呢，另外还有一种数据处理的方式，就叫做批处理。他的代表可能大家也听说过，那就是另外一个非常著名的大数据处理框架Spark。所以后边呢，我们会详细展开介绍什么叫流处理，什么叫批处理，Flink和Spark的区别又在哪里？那首先我们先看一下当前这一部分我们要介绍的主要内容啊，首先呢，我们会说一下弗林到底是什么，然后呢，我们会去介绍为什么我们在实际工作当中要去使用弗link，弗link其实现在非常的火热啊，我们可能也听说过很多公司都在使用弗Li，那为什么要用它呢？
01:06
之后呢，我们再站在一个比较高层级的视角看一看流处理的发展和演变，弗link就是流处理的代表，最后呢，我们再来总结一下flink的主要特点，并且比较一下flink和Spark stream啊，因为我们知道在Spark里边，Spark本身是进行批处理的一个框架，而它里边呢，专门针对流处理有一个组件叫做SPA streaming，诶，那它跟link又有什么区别呢？我们会详细的做一个比较。首先我们来看flink到底是什么。那现在我们可能知道flink是一个大数据的处理框架，它是阿帕奇软件基金会下的一个开源项目，它有一个logo，就是这里我们看到的这一个漂亮的红棕色的小松鼠，那其实呢，这个项目在最初的时候并不叫做flink这个名字，这就涉及到了它起源和发展的一些小故事了啊，那它起源的时候叫什么呢？它是起源于一个叫做stra fair的项目，那这个项目呢，是由德国柏林的几所大学和欧洲的其他一些大学啊，在2010年的时候就发起，2010年到2014年的时候共同进行的一个研究项目啊，当然了，我们知道最初他只是做这个学术研究的目的嘛，所以这个发展的速度相对来讲就会比较缓慢一些，那在2014年的时候，2014年的四月，Stress fair这个项目的代码就被复制，并且捐赠给了阿帕奇软件基金会。那么接下来这个项目就被。
02:40
命名叫做flink，从此项目就走上了快车道，得到了非常速的发展，到今天变成了一个非常火爆的大数据处理框架。那link这个项目到底是用来干什么的呢？它的设计目的是什么样的呢？啊，其实这个从它的命名和logo的选择上我们也能看出一些端倪。
03:02
首先，Flink这个词在德语里边本身就是快速、灵巧的意思。而且啊，非常有趣的是啊，在德国柏林当地就有一种非常漂亮的松鼠啊，它的颜色就是非常迷人的红棕色，所以呢，当前这个项目它就以flink快速灵巧作为自己的名称，而且选择了快速灵巧的小松鼠作为了自己的logo啊，那这个松鼠在选择它的颜色的时候，我们看到啊，它还有一个非常漂亮的带有渐变色的一个大尾巴，这个跟阿帕奇软件基金会的这个羽毛的风格也是非常一致的啊，所以它采用了一个具有阿帕奇风格的松鼠作为自己的logo，那整体它想表现的特点就是快速灵巧，这就是这个项目对于自己做大数据处理时候的一个基本定位，也就是说来我们做大数据处理一定要快速灵巧。
04:00
接下来呢，我们再来看一看弗link发展的时间线，有一些比较关键的时间点我们需要了解一下。首先前面我们提到2014年4月的时候，弗link变成了阿帕奇基金会下属的一个孵化项，那么在2014年8月的时候，Flink第一个版本0.6就正式发布出来了，与此同时呢，Flink的几位核心开发人员创办了一个商业化的公司，叫做datas啊，那当然了，这里我们可能有一个疑问，就是为什么一个版本直接就是0.6呢？那之前的0.1~0.5去哪儿了呢？诶，之前的那些版本那就叫做fair了啊，所以flink本身第一个版本就是从0.6开始算的。然后接下来flink的发展其实就非常的快了，在2014年12月的时候，Flink项目就完成了孵化，就变成了阿帕旗下的顶级项目，得到了广泛的关注。然后在2015年4月的时候，弗link发布了一个非常重要的版本，里程碑式的版本，0.9.0啊，很多国内外的大公司啊，也正是从这个时间点开始关注弗link，而且参与到了弗link的社区建设里面来啊，那这里边我们必须要提的就是中国的一个互联网巨头公司阿里巴巴啊，阿里其实也是在那个时候开始关注弗link，而且在这方面做了大量的工作啊，长期积蓄在2019年1月的时候。
05:29
阿里做了一个让整个行业震动的事情，那就是以9000万欧元的价格收购了前面我们提到的啊，做弗林商业化开发的这样一个母公司data。2019年8月的时候呢，阿里又将自己内部的flink版本叫做blink，就是以B打头的啊，Blink blink这样一个版本做了一个开源，并且合并到了flink1.9.0版本里边啊，所以当时的那几个版本啊，Flink的变化其实是非常非常大，在之后逐渐就变得越来越稳定，到2020年12月的时候，弗林克又发布了一个重要版本01:12点零。
06:10
这是正式实现流批一体化的里程碑式的版本。那发展到今天的话，Flink也已经发布了01:13一点十四啊，甚至啊最近我们可以看到在GI上flink已经发布了01:15的RC版本啊，也就是所谓的release candidate啊，候选版本也已经马上就要发布了，所以我们会看到弗Li的发展其实是非常非常的快速，短短的几年时间啊，弗link已经成长成为了当前大数据处理领域最为活跃也最复杂的开源流处理引擎啊，得到了非常广泛的应用啊，这里可以提一些数据，就是根据阿帕奇软件基金会2020年发布的年度报告啊，Flink社区参与和贡献度是非常的活跃的，Flink的GI访问量在所有阿帕奇旗下的众多项目里边排名第二啊，那另外还有就是它的代码提交量，也就是commit数量排名第二，另外还有v list，就是所谓的邮件列表的活跃度是排名第一。
07:15
一所以可以说现在link真的是非常的火爆。那了解了弗link的起源和发展的过程，那弗link到底是用来干什么呢？我们说它是用来做大数据处理，那是怎么样做处理的呢？呃，这里我们可以来参考一下官网的介绍，我们可以直接在网页里边敲flink，点阿帕奇点org，这就是flink的官网，官方网站上面首先映入眼帘的就是这样的一行介绍。我们看到它的介绍是flink阿帕奇flink是state for computations over data streams，这里边有两个关键词，一个叫state for computations，也就是说有状态的计算。另外还有一个叫做。
08:00
Data streams，也就是我们所谓的数据流，哎，这里就给出了flink的一个基本定义，它就是有状态的数据流的处理，它主要是用来做这方面的计算。如果说我们想要看到一个详细的介绍的话，也可以点这里，What is，阿帕奇link，哎，我们看到在这里第一句话其实就是官网给弗link下的一个具体的定义，呃，这里可能字比较小，我们看不清楚啊，在这里我们已经把它完整的复制下来，而且提炼出了里边的关键字，我们可以看一下。阿帕奇link，它是一个framework，也就是它是一个框架and distributed processing energy，也就是它是一个分布式的处理引擎。哦，这是基本的一个定位，它是一个数据处理的框架，或者叫分布式的处理引擎，然后后面是for，那就是用来用在什么样的场景下呢？For state for computs，有状态的计算。
09:04
那么针对什么样的数据进行有状态的计算呢？Over unbounded andbounded data streams，也就是对于无界和有界的数据流进行这样的有状态的计算。这里涉及到了各种各样不同的概念，我们现在听着可能会稍微的有一点枯燥，这个没关系，在后面的讲解当中我们会逐渐的展开。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（2/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

002_第一章_Flink的起源和发展

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐