文章/答案/技术大牛

发布

首页视频050_第五章_Sink（二）_写入文件

050_第五章_Sink（二）_写入文件

2022-12-022022-12-02 16:02:30播放44

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/050_第五章_Sink（二）_写入文件.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
了解了flink跟外部系统的连接方式，那接下来呢，我们就可以举一些具体的例子，看一看怎么样把flink的处理结果写入到外部系统当中，最简单的当然就是写入到文件当中去了啊，其实我们知道啊，之前我们说flink可以直接读取文件里的数据作为数据源啊，就像之前我们在做workout的时候曾经举过的例子啊，直接可以读取文件，那就是read text file，读取一个文本文件里的数据，每一行读进来作为数据挨个处理。哎，那同样对应着我们也就可以写入数据到文本文件，那关于入到文本文件呢？我们可以直接点到data streamam这个类的源码里边来，去搜索一下当前写入的方式，比方说我们搜right，就可以看到有right as text，还有right as csv啊，那就是写入到文本文件，但是我们会发现啊，这种方式简单粗暴，就是直接传一个路径进去，呃，就像我们读取这个数据文件的时候一样啊，呃，直接就可以把对应的内容写入到文本文件里面去了。但是这种方式。
01:13
已经要被弃用。主要就是因为。我们当前是大数据处理，往往我们要做的呢是并行计算，那最后的写入也应该是一个并行写入，最好的方式是应该要写入到分布式的文件系统里面去，那所以我们知道这样一个文本文件啊，只给一个路径，你这样去写的话，它是不支持分布式的写入的，诶那如果说我们想要把最后的文件在汇总到同一个文件里边去的话，这个可能就会很麻烦，所以我们在用right as text或者是right as csv的时候，往往会直接把它的并行度设置成一，也就是说哎，规定了我当前写入输出到文件的时候就写到同一个文件里面去啊，但这样的话就会拖慢我们的运行效率嘛，而且对于这种方式呢，它也没有更多的故障恢复之后一致性的保证，所以之后诶这种方式就要被弃用了，那接下来我们到底用什么呢？啊，那就是用。
02:17
通用的方法，直接data swim.add sink里边传入一个think方式，那这个sin方式难道我们要去自己写吗？当然不用，Flink当中给我们提供了这样的一个具体的实现，叫做stream file s，也就是说流逝的文件系统输出的这样一个连接器。它本身就继承自抽象类rich think方式，那就实现了我们要的这个think方式的功能啊，而且它集成了flink的检查点机制，可以保证精确一次的状态一致性语义，那关于这个检查点和精确一次性呢，我们会放在后边，放到第十章再去做讲解，那这里可以简单提一句就是。
03:00
它主要保证的就是故障恢复之后整个系统的正确性，或者说状态的一致性。对于这个stream file think呢，呃，它是为我们当前的批处理和流处理提供了一个统一的接口，那简单来说，它其实就是要把要写入的数据先写到一个一个的桶里边，Buckets里边，然后这个分桶的方式呢，默认是基于时间的，每一个小时写入到所有的数据啊，就写入到一个新的桶里面去，而每个桶里的数据呢，都可以分割成一个一个大小有限的分区文件，所以我们看这就真正意义上的实现了分布式的文件存储，所以这种方式天生就适合我们当前的并行处理，就适合写入到HTFS这样的分布式存储系统上去啊，所以在实际应用当中啊，基本上我们应该是用这种方式去写入到文件。所以接下来我们可以在代码里边来看一看啊，到底是怎么用的，那我们还是在当前的包下边去新建一个SKY的object，现在我们要测试的是think think to five。
04:13
Test。那方法先写出来啊，那同样前面的这一部分内容呢，我们还是可以照搬一下之前我们的这个设置啊，先创建执行环境，然后读取数据啊，现在我们要分布式的写入嘛，所以这个数据多一点啊，我们用之前这个reduce这一部分的数据，先把它拿过来。同样，引入之后，我们需要改成下划线，方便后边做影视转换。好，接下来呢，我们可以直接以文本形式。分布式的。写入到文件中，哎，当然了，我们现在如果要是不是写入到HDFS的话，其实就应该是分布式的很多个文件啊，分区文件，所以接下来我们可以直接来做一个尝试STEM啊，那当然了，最简单的方式是文本形式嘛，我们先做一个map转换，把它转换成string，这个也很简单，因为本身我们这个样例类它就有to string方法嘛，所以我们这里面只要调一下啊。
05:17
只要把它to string转换成string，然后去做一个at think写入就可以了，那这里边呢，我们需要去创建的就是一个streaming。Fair SK，好，那这里的泛型是stream，当前的数据类型是stream嘛，所以这是完全没有问题的，这看起来非常的简单诶，但是如果说我们点进去啊，看一看这个stream fair think的话，就会发现，首先我们看到啊，Stream fair think，它记什么字，Rich think function，所以这里边还可以有生命周期方法，可以获取运行上下文，另外呢，我们看implement，它还实现了checkpointed function接口。Checkpoint listener接口啊，那所以呢，它跟当前的checkpoint这个检查点，这就是跟容错机制有关，它有这方面的保证，然后接下来我们看它的构造方法。
06:08
我们看到stream fell s，它的构造方法是一个protected方法。所以我们在这里如果要去接创建啊，在外部要想去直接创建它的对象new的话，其实是不能成立的。所以我们应该怎么样去创建呢？啊，其实里边我们就看到啊，这里面本身它要传的是对应的builder，好，那自然就想到了，其实我们当前使用的这一个设计模式啊，应该是一个builder模式，建造者模式啊，那下面我们看看它的think builders有哪些，主要有两种。一种哎，叫做row format builder，另外一种叫做B。Format build啊，所以这对应的其实是文件底层的两种编码方式啊，那一种就是行编码roll format啊，另外一种就是批量编码啊，比如说park这样的格式啊，啊，那所以对于这两种编码呢，我们直接调用当前的这个静态方法，For row format或者for bank format就可以了。
07:17
就可以得到这样的一个format build，然后接下来有了这个建造者之后，那怎么样最后得到我们真正的string think对应的这个think function的对象呢？哎，那当然了，最后我们就是可以调用它的。Build的方法，这里有一个build，最后就会创建出真正的给我们创建出相应的对象实例，所以整体来讲，我们在这里使用的这个过程啊，就不是直接去new，而是要调用streaming。Fair s下边的建造者的方法，哎，那比方说现在我们就是行编码吧啊，For row format。然后里边这里需要传参，我们看这里需要的参数就是两个，一个叫base pass啊，那这个很简单，就是文件路径吧，我们总得指定当前的这个文件写到哪里去，注意这个并不是一个字符串啊，这是一个pass类型啊，我们要你有一个pass，然后另外呢，还有一个encoder，一个编码器，这就是我们当前数据的编码逻辑了啊，那现在我们既然已经转换成to string了嘛，转换成文本文字了啊，那显然我们直接使用一个最简单的啊，指定这个字符编码集就可以了，所以接下来我们在这里可以直接传入，这里需要去new一个pass。
08:37
那当然了，Pass里边直接传一个对应的路径，一个string就可以，比方说我们这里啊，就创建一个目录叫做output吧，直接把所有输出的文件写到这个output目录下边，然后另外还有第二个参数，那就是需要去创建一个encoder啊，这个非常简单，我们就直接用一个simple stringcoder就可以了。
09:00
里边需要有泛型，刚才就是string。里边给一个当前的字符编码及UTF8，这样的话我们就创建好了。如果我们觉得这个一长串看起来太不方便的话，我们也可以把它放在外边，这样看的会更加清楚一点。比方说我们定义一个当前的这个就叫做fair think。诶，那么我们把这个定义在这儿，注意接下来这还没完，当前我们只是得到了一个builder，接下来真正的fair think，那还需要再去调一个build的方法才能够得到，然后这里ADD think的时候，只要把fair think添加进去就可以了。好，那最后我们不要忘记env执行起来，当然了，我们不需要再打印了，因为已经有输出了。最后flink的程序的最后就是一步think操作，Print也可以，我们直接写入到文件，当然也是可以的。所以接下来我们就可以直接执行一下。
10:02
我们看一看效果怎么样。当前已经执行完毕了，控制台并没有任何的输出，因为我们没有print操作，那当前的输出在哪里呢？诶，我们可以去找上边多了一个output文件夹，那接下来我们可以看到哦，当前就多了一个。这样一个以part开头的文件，那我们可以看到当前所有的数据都以文本的形式写入到了这个文件里面去啊，而且这个目录是以当前的这个时间来作为名称的啊，那所以当前我们只有一个文件，那是为什么呢？那是因为我们的全局并行度是一啊。所以我们当前就是按照顺序一个一个读出来，然后一个一个写进去，只写入到一个并行分区里面啊，那当然就只有一个文件了，所以我们可以调大这个并行度，我们先把当前的这个output先删掉。然后调大并行度，重新做一个测试，做一个分区写入，看看效果会有什么不同。
11:04
运行好，现在已经结束了，我们看到。这里的output下边就变成了四个分区文件，这就做了一个四分区的并行写入，如果点开的话，其实我们会看到啊，当前一个Bo报B的数据，第二秒的数据和第六秒的数据，那其实我们会发现啊，这就是我之前我们说的这个轮询吧，啊，那假如说从这个开始的话，那就是123412啊啊，那按照这个顺序的话，前面这个1000它应该是在第四个分区，我们看看是不是。果然，第一秒的数据是在第四个分区一和四，它是在这里，所以这就是我们使用streaming file s去进行分布式文件写入的操作，在这里呢，我们还可以多做一点扩展，就是关于这里的stream file SK啊，我们直接调用for RO ma或者for bank format可以创建它的builder，那另外呢，在这个builder里边还可以调用一些方法。
12:03
比如说我们这里可以调用一个with，我们可以看到可以with rolling policy，这个rolling policy就是一个滚动策略，什么叫做滚动策略呢？其实这个概念在日志文件写入的时候经常会遇到啊，因为我们知道这个文件它是连续不断有内容要写进去嘛，所以诶，那这个文件如果要是一直写的话，内容会越来越多，那写到什么程度，我们就应该到此为止去开一个新的文件去写入呢？诶，那这个应该是有一个标准的，所以这就是所谓的文件写入的滚动策略啊，那一般这个里边可以设什么呢？我们可以看一下。文档里边对应代码的这种配置，比方说我们可以设一个with roll over t，哎，也就是说我们可以设置多长时间就滚动一次啊，就是我们当前收集数据啊，后面给了一个时间，我们看这是15分钟，所以说就是隔15分钟我们就开启一个新的文件去写入。
13:04
然后另外还可以配什么呢？With in activity in inter，不活跃的时间间隔是五分钟，也就是说如果有五分钟之内啊，没有新的数据写入了，这个文件一直没动，那即使当前没有到15分钟的间隔时间，我也可以直接开启一个新的文件去写入。啊，因为一段时间没有数据来的话，那可能我们当前的数据收集应该告一段落了啊，所以就可以重新打开，另外还可以设置最大的文件大小，比如说这里我们三个1024相乘，那也就是说达到文件大小达到一个G的时候，诶，那我们当前文件就结束，可以开启一个新的文件去接收数据了啊这是一些常见的滚动策略的配置，我们这里就不再详细说了，大家可以在实际的工作应用当中去进行自定义的设置。这就是关于分布式写入文件的测试。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（50/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

050_第五章_Sink（二）_写入文件

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐