文章/答案/技术大牛

发布

首页视频078_第六章_处理迟到数据（三）_运行测试

078_第六章_处理迟到数据（三）_运行测试

2022-12-022022-12-02 16:02:30播放38

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/078_第六章_处理迟到数据（三）_运行测试.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，这段代码的处理流程我们就已经完成了啊，那整体来看的话，我们主要就是用了三种方式去处理十道数据。首先是water的生存策略，在前面我们ign time stamp and waters这里就已经指定了延迟五秒，这相当于是全局的一个延迟。然后呢，我们接下来窗口。就会按照自己定义的结束时间去进行处理计算，那处理完成之后呢，不要直接关闭，而是等待一分钟，在这一分钟范围内还可以继续处理迟到的数据，如果说到达一分钟之后，当前的窗口已经关闭了，如果还有迟到数据的话，接下来我们就把它扔到测输出流里面去啊，那当然了，这里面我们设置的这个窗口是一个滑动窗口啊呃，如果说我们觉得这个可能输出的内容会有点儿多，而且测试时间的时候会有点麻烦的话，我们也可以简化这个过程。直接把它改成一个滚动窗口，那就是tumbling even time Windows啊这样的话后面我们测试就会更加简单了，就是十秒钟一个，好，接下来我们就可以测试一下了，那首先是需要去哈度比102上起一个NC杠，LK7777。
01:14
起起来之后，接下来我们这个代码就可以运行了。啊，那这里边我们运行起来之后呢，肯定就是一条一条输入这里的数据嘛。直接把它做一个copy。放在这里来。Mary，第一秒的一个点击数据，诶，那我们看到当前我们的处理逻辑是每一条数据来了之后。STEM这里都有一个直接的输出啊，那如果说窗口有输出的话，那么我们是result这里有一个输出，所以接下来我们就继续增加数据了。这里的不同用户呢，我们就不用再去测试了，因为我们知道不同用户肯定都是分开去统计的嘛，我们这里只关心迟到数据到底是怎么做的，所以就干脆都是Mary就好了，哎，那接下来来一个第二秒的数据，这个肯定还是一样的啊，不会触发窗口计算，所以下一步我们直接就跳到。
02:02
十秒钟。十秒钟的时候，因为当前我们设置的water延迟，其实还是没有任何窗口关闭啊，所以如果说我们想让第十秒的窗口关闭啊，其实现在它它肯定不会关闭啊，如果我们想要触发第十秒钟结束窗口的计算的话，那显然水位线要推进到十秒，那么给定的时间戳就得到达15秒才行，五秒的延迟嘛，那同样还是。在这里给一个15，我们放在这里。接下来可以看到。已经输出了一条窗口统计的结果，哎，那就是我们输出的点后这个页面它被访问了两次，当前的窗口是零到十秒的这个窗口，哎，这是一个URL view count。然后接下来我们可以继续去测试，诶，那我们会想到这个已经零到十秒钟，这个窗口已经输出一次了，那是不是这个窗口就已经关闭了呢？我们继续给数据。
03:02
接下来我们可以直接给一个比方说，还是给一个一秒钟的数据。他显然这是一个迟到数据了，而且他迟到的还很久啊，我们看到15秒的数据已经来了，一秒的数据才来，这相当于这个乱序已经达到14秒了，那我们之前定义的这个五秒钟的延迟能不能搞定呢？诶，那关键其实并不是说这个延迟能不能搞定，而是看它所属的那个窗口到底有没有关闭，核心的逻辑是在这里，它属于的窗口是零到十秒，那我们看一下零到十秒关闭了吗？我们看这条数据来了之后。零到十秒的窗口又输出了一次结果，现在的点后，这个页面被统计了三次。可以看得出来，他其实是在之前已经统计出来的两次访问的基础上又叠加，又加了一变，成了现在的三。啊，所以我们还可以继续去测试啊，啊，假如说这里边我们再来一条数据，这个是第五秒的数据，然后再来一条数据，这是第八秒的数据。
04:03
只要都是在零到十这个窗口范围内的，我们就看它会不停的叠加，来一个叠加一次啊，所以他现在这个状态就变成了我们的数据是数据流一个一个的来，这里是一个窗口算子，然后到了它的窗口结束时间的时候呢，它会直接输出一个结果，但是当前窗口还不关闭，还一直保持着，所以接下来如果有迟到数据还是属于这个窗口的话，那么它会直接触发窗口计算，就在之前统计的基础上继续输出一个结果。来一个数据就输出一个结果，这就有点像之前我们所说的第二代流处理系统，那就是拉姆达架构了啊，那当时我们处理的过程是什么呢？就是很快速的先得到一个用流处理啊，实时性非常好的，很快速的先得到一个近似正确的结果。那这个结果呢，不准确，接下来呢，我们会根据后续的数据不停的更改，不停的更改，把剩下的数据添加进来，对结果进行修正，诶，所以我们看现在的flink其实就相当于用一套系统就实现了之前拉姆达架构两套系统所做的这件事。
05:16
之前在拉姆达架构当中呢，我们快速的输出近似的结果，这是用流处理器来做的，而剩下的数据的收集和最后的合并，这是用一个批处理器来实现的，哎，所以之前拉玛架构呢，用了两套系统实现这个过程，那现在flink我们只用一套系统，一套API，非常简单的利用窗口的这个迟到数据等待就实现了类似的功能啊，所以这就是弗link非常给力的地方。这是关于迟到数据的处理，我们已经看到它的样子了。当然我们还可以继续测试啊，比如说这里我们多给一些数据，那前面我们给的都是零到十秒之间的数据，那假如说现在我给一个12秒的数据呢。这已经不属于零到十秒钟了，它会触发之前的窗口计算吗？我们可以看一下，它其实就不会触发之前窗口的计算啊，因为我们说当前这个数据到底属于哪个窗口是可以判断出来的嘛，窗口分配器就是干这件事儿，它不属于之前这个窗口，这个窗口当然就不会再被触发计算，哎，所以我们看这个就一定能得到正确的计算结果。
06:23
啊，那我们继续来思考，那这个窗口到底什么时候就真的关了，就不再接收数据了呢？啊，那就是我们说的啊，等到等待的这个延迟时间已经到达的时候，那就直接关闭窗口，不再去等待了，诶那所以这个时间是什么时候呢？啊，对于零到十秒这个窗口来讲，等待一分钟当然就是等到70秒，哎，那所以这里边我们可以考虑直接给一个时间戳。是70。我们可以看一下。当前它的效果是什么样啊？那首先给了一个70，之后呢，这里又输出了一个结果，这是因为时间已经推进到了70秒，那相当于之前所有的窗口都已经到了结束时间了，这就包括呃，零到十秒的窗口，十到20秒的，20~30秒的，30~40秒等等等等，这些窗口都可以输出结果。
07:13
那零到十秒的窗口呢，诶，显然没有进一步的更新，它就不输出，所以这里输出的是十到20秒窗口的统计结果是三啊，后面被点击了三次，这个也看的很明显，前面我们有一次十秒的，有一次15秒的，后面还有一次12秒的，所以是三次点击。诶，那我们会发现好像他并没有输出后边比方说30秒结束的，40秒结束的那些窗口的结果，为什么他不输出呢？诶，这就是我们说的啊，窗口的创建必须要有对应的数据到来才会去创建窗口，那后面那些窗口相当于没有数据，它就根本没有创建，当然也就无所谓输出结果和关闭了啊，那所以这里边我们就只输出了十到20秒的结果。好，那接下来我们是要看这个窗口之前的这个零到十秒窗口是是不是关闭了，所以我们呢，就再给一个零到十秒的数据啊，比如说就是第一秒的数据，我们来看一下，哎，我们会发现当前这个数据又被叠加进来了。
08:15
我们看当前后面的这个点击次数已经变成了六，在之前的基础上又加了一。说明当前的窗口还没关闭，十道数据还可以被接收进来，这是为什么呢？这其实就是因为我们当前设置了一分钟的等待时间，所以我们知道那就是要时间进展到70秒的时候就去关闭这个窗口。那这个时间到底是事件时间还是处理时间呢？啊，我们当前当然还是事件时间，如果是事件时间的话，那就不是看到70秒这样的时间戳就去直接关窗的，而是要等到water mark长到70秒。哎，那所以water mark的话，比当前最大时间戳是要延迟五秒钟的，我们全局的表调慢了嘛，所以要想让water mark达到70秒，显然我们给的最大时间戳就得达到75秒才行，所以这里我们可以直接给一个75000。
09:12
直接给一个这个数据，那当然了，输入这条数据之后，在这里没有任何特殊的显示，因为关闭这个窗口，他也没有特别的输出啊，诶，所以关键我们现在是要看一看，继续输入一条数据。第一秒的数据现在还能继续叠加吗？我们看到不会再继续叠加了，而是把它输出到了雷data这个侧输出流里面。啊，那如果说我们这里需要把它再叠加到之前的聚合结果里的话，那就应该保存之前的统计结果，诶，这是六，然后接下来呢，我发现它又来了一条数据，它的时间戳落在了零到十秒这个范围，那就应该在之前的基础上再把它叠加进来啊，这就是手动去做合并了。所以我们可以看到，这就是弗link里边使用三重保证这样的机制去处理迟到数据。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（78/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

078_第六章_处理迟到数据（三）_运行测试

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐