文章/答案/技术大牛

发布

首页视频089_第八章_联合（Union）

089_第八章_联合（Union）

2022-12-022022-12-02 16:02:30播放38

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/089_第八章_联合（Union）.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们已经了解了分流操作，那就是将一条流拆分成多条完全独立的流啊，那当然了，有分就有合嘛。接下来我们要介绍的就是flink当中的河流操作，其实整体来说呢，在实际应用过程当中，河流操作会更加的频繁，更加的普遍，因为可能我们经常就会遇到来源收集的数据源完全不同的两条流，他们的数据呢又有相应的一些联系，我们需要把它们结合在一起来进行处理，这个时候就需要涉及到河流的操作了。那在flink当中呢，其实给我们提供了非常丰富的河流对应的API，那最为简单的就是这里的联合操作union啊union直观上来讲的话。就是最为简单粗暴的把两条流捏在一起，捏合在一起啊，那它有一个非常严苛的要求，就是流里边的数据类型必须相同啊，所以我们可以看到这张图的示意就是不需要做其他任何的操作，两条流本身的数据类型就是完全一样的，然后呢，经过幽操作之后，就汇合在一起，变成了一条新的流啊，那接下来就把它当成一条完整的流，然后进行接下来的转换操作就可以了。
01:19
在代码当中也非常简单，那就是基于一条data stream，调一个点union方法，然后他需要传一个参数，传入另外一个data stream，注意他俩的数据类型必须要是一样的，然后得到的就变成了一个新的data stream啊，那其实我们知道这个所谓的新的data stream本质上还是相同类型的流，哎，那其实这个就没多大区别嘛，就是把两条流里边的元素按照顺序又重新排到了一条流里边而已。所以在代码上呢，其实实现也非常的简单，那接下来呢，我们其实是想用这种方式啊，利用UNI的方式来测试一下，当我们出现多条流合并的时候，水位线到底是怎么样去推进的啊，因为我们之前说过啊，水位线在事件时间语义下，它就是时间进展的标志，那假如说我们现在有两条流要合并，那他们的数据来源有可能完全不同嘛。
02:18
自然水位线进展也是不同的，那假如说我们一条流快一条流慢，他们合并之后，接下来的这个水位线又会变成什么样呢？诶，那数据的话，我可以说是谁先来，哎，我接下来在下一个流里边，合并之后的流里边就先处理谁，但是水位线到底以谁的为准呢？哎，所以这其实就涉及到了水位线在不同任务之间传递的规则，之前我们就曾经说过，水位线传递的规则其实是有一个所谓的木桶原理的啊，就是假如说啊是上游有多个并行子任务的话，向下游去传递水位线，那么下游任务就会以他们当中时间最慢的那个为准啊，这就是我们说的啊，为每一个上游分区设置一个分区水位线，然后取他们当中最小的那个作为自己的事件之中。
03:13
这是上游不同分区子任务朝下游传递水平线的规则，那现在如果说我们变成了上游是两个不同的原算子呢？两条不同的流呢？河流的操作又是怎么样呢？啊，其实跟我们之前说的这个传递规则是完全一样的。接下来我们就可以在代码里边去做一个对应的测试，刚好也可以把UN做一个测试啊，那所以接下来我们在这儿新建一个SC的object，这个就叫union test。没方法先写出来啊，那首先当然还是stream execution environment，我们先把它get获取到。同样叫做env，上面改成下划线，那全局的并行度还是直接设置成一，方便我们进行打印输出，看到测试的结果。接下来我们要做的当然就是读取。
04:07
两条流。进行合并。我们就先定义一个STREAM1ENV，我们可以直接ADD source啊，那当然了，ADD source如果我们传入自己定义的测试数据源和一个S的话，它是隔一秒产生一个这个，而且是完全按照顺序的话，我们可能也看不清楚到底这个水位线是怎么变化的，我们干脆就直接用一个so文本流手动的去发送数据，这样的话我们就能够更加清楚的看到水线的变化了，对它有更好的控制啊。那所以我们现在调用的方法是socket type stream。传入哈杜普102。7777。当然了，如果说我们是直接读取文本流的话，得到的是一个字符串，我们还得对它进行一个map转换，包装成我们想要的类型啊，因为我们接下来要处理的时候，肯定还是event类型更加的方便一些啊。那我们首先做一个字段的提取，叫做fields，从data里边split。
05:16
按照逗号进行一个分割，然后要返回的当然就是一个event。我们要引入。CHAPTER05下边的event。包装对应的字段，这个我们非常熟悉了，F0本身就是user字符串类型，直接返回啊，那1URL也是字符串类型，Tri之后直接返回，最后一个是F2，这是一个长整型的时间戳，所以要做一个too long转换啊，这样的话就得到我们想要的数据了，那当然了，后面我们要做水位线的测试，所以还应该有一个分配时间戳，提取时间戳，生成水位线这样的一个方法调用啊，那我们这里边直接就是使用升序的时间戳提取就可以了，我们主要是测试水位线传递嘛，不需要去测试乱序，所以直接下划线点TIME3提取出来。哎，这就是我们对于第一条流STREAM1的定义，那其实我们想到第二条流应该也是完全一样的啊，完全类似。
06:17
直接copy过来就可以了，STEM，那后边我们读取的端口可以改一下，把它改成8888啊，那下边的map转换以及提取时间戳和生成水位线的策略都是完全一样的，有了这两条流之后，接下来就可以进行合并了，合并的操作非常的简单直接，UN stream2。然后接下来啊呢，可以去定义一步转换计算，然后在里面我们关键是想看一看当前的水位线到底是多少，哎，那如果想看当前水位线的话。当然就需要使用一个process function，因为在process function里边有timer service，我们可以直接捕获current water啊，那这里就调用一个点process方法里边我们要实现一个自定义的process方式。
07:09
哎，那这个process function里边的数据类型呢，当然就是event，最终我们输出的还是直接用一个string。来看一看里面的信息就可以了，好，那当前我们直接做一个process element，每一个数据来了之后调用的都是这个方法，我们这里希望做的其实就是要输出当前的一个水位线信息啊，那当然了，如果我们想输出的话是alt.C然后把水位线信息包装在一个字符串里面就可以了啊，那我们可以写一下当前水位线。到底是什么样的？那这里我们就可以直接调用ctx的timer service，然后去获取当前的current water mark做一个打印输出。啊，那当然了，这里我们只是作为process的处理结果，得到这样一个string类型的数据，那最后想要看到的话，还应该要加一个think任务，直接print到当前的控制台。
08:07
最后env执行起来，这就是我们完整的测试流程。接下来我们要做测试的话，那当然应该先到哈图102上去把NC要提起来啊，那我们NC-LK7777。然后我们可以新建一个terminal控制台。NC-LK8888。两个都提起来啊，那当然了，我们可以看的清楚一点啊，把它们并排的窗口放在这里，然后我们可以分别输入数据，就可以进行测试了。接下来我们把当前的flink代码运行起来。然后分别去输入对应的数据。好，接下来我们在7777这里先来做一个输入。输入一条数据之后，我们看一下当前的水位线是什么呢？诶，注意这里的水位线，如果我们还记得话，这就是最初没有数据到来的时候，默认水位线的那个最小值，哎，那所以我们看到啊，一条数据来了之后，现在输出的当前水位线是最小值。
09:13
好，那接下来我们可以继续输入。比如我们可以复制Bob的这条数据啊，接下来我们同样还是在777这边把第一条流里边再去输入一条数据，在之前我们进行测试的时候，其实会发现啊，第一条数据输入的时候，因为当前的水位线200毫秒周期性的生成一次第一条数据的时间戳，还没有引发当前水平线的变化，这个是正常的。但是第二条数据来的时候，哎，我们说那第一条数据它的这个最大时间戳应该已经影响到水位线了呀，那我们现在这个水位线如果减一毫秒的话，不应该是999吗？为什么第二条数据来了之后，当前的水位线还是之前的那个最小值呢？这就是我们所说的当前如果有多条流进行合并的话，那合并之后的水位线是按照之前最慢的那个时钟来计算，哎，那所以说我们当前是有分区水位线的吧，整个的这个过程的话，我们可以用一个图来做一个描述，哎，那可以看到我们现在有两条流要进行合并，最初的时候呢，水位线都是长整形的最小值，哎，那接下来我们当前算子啊，进行合并之后，UN之后进行process处理的时候，它的水位线当然也就是最小值了。
10:34
我们可以把它认为就是一个负无穷大，然后接下来呢，如果第一条流里边来了一条数据，它是第一秒的数据，这个时候分区水位线推进到了999，哎，那这个时候本身算子的水位线啊，我们当前合并之后，Process的水位线根本没有变化，因为它是以最小的这个为准的。假如说第一条流的数据继续到来，又来了一个2000毫秒的数据，第二秒的数据水位线推进到1999，诶，那其实还是没有变化，我们这里的瓶颈是第二条流这里的最小值啊，所以这个话就解释了我们这里能够看到的这样一个结果。
11:17
所以怎么样我们当前输出的水位线可以发生变化呢？哎，那其实非常简单。我们只要。继续推进这里的水位线。如果说我们给STREAM2这边来一个水平线的推进，比如说我们先推进它到一秒钟吧。如果这里到一秒钟的话，我们可以看到当前的水位线并没有发生变化，那这个也很好理解，因为现在STREAM1这里的水位线应该已经到了1999，但是STREAM2这里的水位线在我们输入这条数据的时候，它还没有发生变化，它还是之前的最小值，所以如果我们在这里要直接输出当前的水位线的话，那肯定还是以之前的最小值为准的啊。但是我们既然讲到了如果。
12:09
继续输入一条数据的话。再给一条两秒钟的数据，这个时候效果就会有所不同了，因为在输入这条数据的时候，第二条流STEM2的水位线本身已经到达了999，而第一条流STREAM1的水位线呢，已经是1999，哎，那所以我们这个时候如果要想输出当前的水位线的话，那肯定就已经是999了。其实我们输入了这条数据之后，接下来再去过200毫秒时间周期之后发出的水位线，那就应该已经推进到了1999才对，所以说如果我们在STREAM1这边再发出一条。三秒钟的数据的话，很显然这里当前的水平线就已经进展到了1999啊，那如果说我们只是在STREAM1第一条流这里不停的推进。
13:05
那它就不会有任何的进展，当前的水位线还是1999。只有在STEM2这边也有了进展之候，两边齐头并进的时候，当前的水位线才会发生变化，当然了，在我们刚刚输入这条数据的时候，STREAM2的水位线还处在1999，所以这个时候呢，我们如果看的话，还不会看到它的变化，那什么时候会变化呢？其实我们就知道了，只要是下一次它能够输出水位线信息的时候，我们当前就应该已经变化，因为第二条流已经推进到2999了啊啊，那所以只要有一个机会啊，让它输出明显，它就会变化，比如说我们这里直接输出一个没有推进水位线的信息的一条数据，甚至你来一个乱序数据都可以啊，只要触发了输出水位线的信息，来一个4000。那我们就可以看到现在的水位线已经变成了2999。
14:04
哎，所以这就是我们所说的多流转换，多条流进行合并的时候，水位线的传递规则还是符合木桶原理，它会以所有合并的数据流里边最慢的那个水位线为准啊，而且我们在测试的时候需要注意的就是每一个数据触发调用这里的process element，然后输出当前水位线的时候呢，当前数据时间戳对水位线的影响还没有办法体现出来啊，这个我们一定要考虑到。这就是关于union以及水位线传递规则的测试。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（89/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

089_第八章_联合（Union）

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐