文章/答案/技术大牛

发布

首页视频049_第五章_Sink（一）_Flink连接到外部系统

049_第五章_Sink（一）_Flink连接到外部系统

2022-12-022022-12-02 16:02:30播放48

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/049_第五章_Sink（一）_Flink连接到外部系统.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
到目前为止，我们已经了解了一段flink代码当中主要要做的几个步骤，首先我们应该要创建一个执行环境，然后呢，基于这个执行环境，我们就可以去source，然后读取数据源，得到一个data stream。接下来呢，基于data stream就可以去调用各种方法进行转换处理计算，最终我们就可以得到自己想要的计算结果。啊，那其实我们知道flink是一个大数据的处理引擎，它处理得到的结果其实最后肯定是要为外部应用提供支持的，你不管是直接拿来看也好，还是说作为别的处理计算的进一步提供数据基础也好，我们都应该把它要落盘存放到某个存储系统里边，这样的话才能够被外部系统调用。所以接下来我们就到了最后一步，那就是输出这一步操作啊，那输出这一步任务呢，在flink里边是整体把它叫做think啊，这个单词我们知道它有下沉的意思，这个其实非常的直观，因为我们说当前处理的是数据流嘛，那就像水流一样，它是从高处流到低处，那高处这里呢。
01:14
那就是有一个源头，这个叫做S。读取进来之后，哎，那接下来我们做一系列的转换处理计算。这些我们都可以把它看成是中间的流动的管道，那最后呢，当然就要下沉到某一个池子里边，或者某一个槽里面去啊，那这个下沉到的地方，我们就把它叫做sink啊，所以有些资料里边，我们说是管最后这一步操作叫做数据会啊，对应的数据源，这个叫做数据会，这个也是可以理解的，我们在这里呢，就统一把它叫做输出算子或者叫think算子就可以了，这就是我们要把处理的结果向外部进行输出的一步任务。其实如果我们自己去构思的话，我们会想到啊，朝外部系统某个文件，或者说某个数据库里边去写入数据，这个很复杂吗？
02:08
其实不复杂，非常简单，只要我们比方说啊，建立一个到数据库的连接，然后接下来我们得到结果不就可以直接往里边写入了吗？调用接口就可以了吧，所以在很多大数据框架里面，其实对于这一步操作是没有单独的定义的，诶都是你做完处理结果之后，你自己去定义啊，想建立连接啊，想写写到哪儿就写到哪儿就完了，但是弗link不太一样啊，弗link其实也可以做到这一点啊，就像之前我们说的啊，在自定义。函数类里边我们可以去实现一个负函数类reach方式，那么在这个reach方式里边，它有运行上下文，还可以有open和close生命周期方法，我们当时说过一个比较好的最佳实践就是可以在open生命周期里边去做一些创建到数据库的连接操作，啊，直接建立连接，然后呢，诶，那我们就可以在后边的处理map或者Fla map这一步操作，数据来了之后，做完转换计算之后，直接向数据库进行一个写入了，那最后在close里边去关闭连接，做一些清理工作就可以了，所以这种操作其实是完全没有问题的，我们完全可以实现处理结果向外部系统的写入。
03:22
但是对于flink来说呢，它其实能做到这一点，但是不推荐我们这么做，为什么呢？啊，那就是因为当前我们是一个实时的流处理系统，在这个处理的过程当中，对于整个系统的稳定性和容错性要求是非常非常高的，诶那我们想啊，我们这里在源源不断的处理数据，那中间假如说某一个时刻出然出现故障挂掉怎么办呢？诶，那我们知道啊，我们可以去保存一些当前的临时状态，给它存盘，然后再把它恢复出来不就可以了吗？诶，那这里就涉及到另外一个问题，那假如说你之前已经有写入到外部的数据，或者说正有写了一半的数据，那又应该怎么办呢？
04:05
所以我们会发现啊，假如说我们不去系统性的考虑这些问题的话，那所有的这些事情就要我们自己去实现，自己去处理了。啊，Flink考虑到了这一点，所以在flink的架构当中，他专门在程序的最后一步加入了一步thinkink操作，他在整个架构上帮我们把向外部系统的输出这步操作管理起来了，给我们提供了结果正确性、一致性的保障。如果在代码里边去实现的话，其实也非常简单啊，你像我们这里得到了一个data stream之后。我们这里可以调用一个ADD的sin方法，诶我们看到之前基于enna可以调用一个a source，那就是创建一个原算子，那现在呢，可以调用at think，就可以创建一个输出算子，那ADD source里边通用的传入的是一个s function式，那现在呢，At think当然传入的就是一个think function了，那think function我们看到这里也是一个Java接口，里边它最关键的一个抽象方法叫做invoke。
05:11
啊入我们知道有唤醒的意思，所以它主要的作用就是什么呢？啊，就是唤醒我们当前数据跟外部系统的连接，我们要去写入数据了啊，那当前的输入的参数当然就是我们要写入的数据，它不需要有任何的返回，只要输出写入就可以了。当然我们会看到invoke还有一个重载的方法啊，它里边可以传入一个当前的上下文啊，一个context，这里边就可以有更多的信息，我们可以获取到时间相关的信息。好，这就是关于think function的一个基本的用法。那其实前面我们看到的这个print最后打印，它其实也是一个特殊的输出，我们看到啊当前的print，它最后什么呢？返回的也是一个data stream s，但它本质上调用的是什么呢？调用了stream的点print方法，我们可以继续追进去看看源码里面的实现。
06:07
我们看到他其实就是自己去new创建了一个print think function，然后去做了一个ADD think操作，把当前的这个function直接作为参数传进来了，那自然我们就想到了这个print think function是什么呢？它就是一个rich think function啊，那这个rich think function当然就是一般的think function的一个复函数的版本了啊，复函数类的版本，Rich版本，所以在这个rich think function里边不光有invo方法，还有open和close生命周期方法，还可以调用运行时的上下文，可以得到更多的东西，那所以这就是关于我们当前think在代码当中使用的一个基本架构啊，那当然了，我们可能会想到啊，那要这么说的话，我们想要向外部系统写入的时候，是不是就得自己ADD think，然后去实现对应的think方式了呢？啊，原则上是这样的，但是其实没有那么麻烦。因为既然link框。
07:08
框架里边给我们构建了这样一个接口，那自然弗link就会帮我们实现很多预定一好的一些连接工具啊，那所以我们可以看到啊，这是flink官网上面列出来的，目前这个01:13版本已经支持的第三方系统的连接器，这里边有很多各种各样的外部数据存储工具，或者是大数据组件啊，都可以跟flink连接起来啊，这里整体来讲呢，可以分成两大类啊，一大类呢，就是像卡夫卡啊，还有像这个rabbit MQ啊这样的一些流式通信的组件。流式系统跟flink我们知道啊，本来就是都是处理数据流嘛，那显然就是非常的匹配啊，他们可以实现完美的对接，所以后边我们看到SS这是表示卡夫卡可以作为当前flink的数据源啊，可以ADDS的时候连接到卡夫卡去读取数据，也可以ADD think的时候连接到卡夫卡去向卡夫卡写入数据啊，所以就是既可以作为数据源，又可以作为输出。
08:14
同样rabbit MQ也是这样，那另外还有一大类，比方说啊，像我们比较熟悉的file system啊，这是文件系统啊，啊，那比方说是包含了这个哈豆腐就是hfs啊，这样分布式文件系统都是包含在里边的，那另外像这个elastic search ES啊，非常著名的这个大数据组件，那像这些存储系统，他们就不是一个常规的流逝系统了，他们只是作为一个数据存储的空间来使用啊，或者说查询的一个工具来使用的话，我们就只能往里边写入，不能去直接读取数据流，所以我们看到他们的支持就是只有think，只有往里边写入数据的时候可以去提供啊。另外还有JDBC啊，那就是我们知道啊，像这个MYQ啊，Post graq Oracle这些常规的业务数据库啊，都可以进行写入操作了啊，当然了，像有一些比较特殊，就是你像这个Twitter的stream API，它本身就是一个流式的API接口，所以呢，它是只能作为。
09:14
数据源去读取，它是不能去写入的啊啊啊，那所以这就是官方给我们列出来目前已经支持的一些连接器。那我们会发现这也不是所有的常用的工具都能够连得上啊，那假如说没有了怎么办呢？啊，另外还有一个备选，那就是。阿帕奇hi这个项目，它主要就是用来给sparklink这样的大数据处理框架提供扩展支持的，那么它呢，里边就实现了一些其他的第三方系统跟flink的连接器，比如说像flu阿卡等等等等。所以整体来讲，想要把flink处理好的数据写入到外部系统的时候，那第一选择当然是使用flink官方给我们提供的连接器，假如说没有官方连接器的话，那么啊，就使用。
10:05
把here给我们提供了连接器，那如果所有的连接器都没有现成的提供怎么办呢？当然我们也可以到网上去找一些别人实现好的资源啊，那如果都没有的话，那就只好去自定义实现了啊，就是我们说的啊，ADD think，然后自己去写那个think function自己去实现一个。这就是我们所说的连接到外部系统的流程和方法。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（49/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

049_第五章_Sink（一）_Flink连接到外部系统

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐