文章/答案/技术大牛

发布

首页视频060_第六章_水位线生成策略

060_第六章_水位线生成策略

2022-12-022022-12-02 16:02:30播放36

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Flink1.13（Scala版）/视频/060_第六章_水位线生成策略.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们已经了解了水位线的概念和特性，那接下来呢，就可以做一个实践，在代码当中去尝试着生成水位线了，其实前面我们已经知道水位线设置的一个基本原则啊，我们知道一般要去处理乱序流数据的话，那么。我们的基本原则就是基于当前已经接收到数据的最大时间戳，然后设置一个延迟时间，多等一会儿啊，我们说的啊，延迟发车，只要多等一会儿，等到所有的乱序数据到齐，这个时候就可以正确处理数据了。那所以这里有一个核心问题，就是我们这个延迟发车，到底延迟多久呢。啊，在实际发车的这个例子里边，我们是知道到底有多少人，到底有哪些人要上这班车的，那我们等到所有人到齐就可以了，但是在处理数据的过程当中，我们要收集八点到九点的数据，我们并不知道八点到9.1共有多少数据啊，所以我们并没有一个完整的结束标准。
01:04
那这个数据有可能它一直会到来啊，就有可能这个延迟的时间也是无限长的，我们等等一分钟啊，那有可能一分钟之后还会有十道数据，等两分钟可能之后还会有十道数据，那这怎么办呢？难道无限等下去吗？所以这里有一个基本的整体原则，那就是我们既不能延迟太高，也不能延迟太低哈，啊其实这个是很容易想到的，因为如果说我们延迟足够高的话，那很显然整个flink的实时流处理啊，这个实时性就大大降低了，而且我们之前的数据都要缓存起来嘛，啊，那整个会占用大量的系统资源，我们整个处理效率会比较低，那如果说把这一个等待的时间延迟时间设置很低好不好呢？诶，当然不好，因为前面我们说啊，设置的这个延迟时间应该最好就是当前数据流里边的。
02:00
最大乱序程度，但是关键问题就在于，在这个数据还没到来之前，我们根本不知道它能乱到什么程度啊啊啊，所以这个时候你如果能够把之前的数据统计出它的一个乱序程度的规律的话，哎，那我们知道往往可能这是一个类似于正态分布的一个规律啊，就是乱序程度的这个时间可能是正态分布的啊，那中间的这个值可能也就是个几毫秒，然后在它某一个范围内，大部分数据的乱序程度啊，都在这个范围之内。所以我们就会发现啊，这我们就要做取舍了，假如是这样的话，那如果说我们想保证。足够快的话，那等待的时间可以设置的很小，但是就有可能绝大多数的数据，乱序的数据啊，迟到数据都没有办法正确处理，那如果说我们把这一个乱序的时间，等待的时间设置的足够大呢，那又会导致我们延迟时间过大，耗费更多的系统资源，它是可以处理这个大部分的迟到数据了啊，正确性得到保证了，但是。
03:03
会占据更多的系统资源，等待的时间更长，所以我们就需要在这两者之间找到一个平衡点啊，就比方说我们选取当前这一个正态分布里边的某一个节点，在它之下。呃，或许百分之九十九点几的数据，乱序数据，迟到数据都可以得到正确的处理，那剩下的概率很小的那些迟到时间很长的数据。那我们就干脆就把它就丢掉了啊，我们就可以不予考虑了啊，所以最终我们其实就是要在正确性和延迟时间上做一个权衡。那接下来呢，我们就可以在代码当中具体的看一看，到底怎么样去设置水位线的延迟。那现在我们是第六章了，所以可以新建一个package。CHAPTER06。然后接下来我们要去进行测试的。主要是。
04:02
水线，所以我们新建一个sky object，那就叫做water mark test。方法先写出来，呃，然后前面呢，我们还是可以从之前的代码当中copy创建执行环境和读取数据源的这个过程。上面同样还是把下划线引入。然后接下来基于当前的这个data stream stream，它就可以调用一个方法叫做。我们看到a sign time stamp and water marks，这就是设置水位线，生成水位线的一个标准方法，标准接口，然后我们看到啊，里边它要传入的东西是什么呢？这里它要传入的是一个water mark strategy，这是一个water mark的生成策略，那这个策略我们可以看到它本身是一个接口，一个interface，在watermark strategy里边最核心的抽象方法其实就是这个create water mark generator。
05:06
它就是要创建一个水位线的生成器，它返回的就是一个water mark generator，啊，那对于这个water generator呢，点进去之后我们会发现，啊，这又是一个接口，它里边有两个核心的抽象方法，一个叫做on event，另外一个叫做on periodicit。哎，那这两个方法从名字上我们就可以看出来，一个是基于事件去生成water mark。另外一个是基于周期性的发射去生成water mark，哎，那所以整体来讲的话，这就对应着我们之前所介绍的生成watermark的两种方式，一种是周期性的隔一段时间去生成一个，另外一个是什么呢？诶，那可能就是每来一个数据，我们知道数据的生成，这就是一个事件嘛，所以那就是基于事件去触发来一个数据，就判断一次可以去生成一个watermark。
06:02
这就是water mark生成的两种策略啊，可以在这里做一个自定义的选取啊，那除了这个water mark generator之外呢，另外在这个watermark策略里边还有一个time step a sign，我们看到这里有一个方法叫做create time stepmp a sign，顾名思义这个东西呢，就是一个时间戳的分配器。好，那我们可能会觉得有点奇怪啊，为什么这里边时间戳不是从数据里边提取的吗？怎么还得做一个时间戳的分配呢？啊，其实这个也容易想到，那就是对于数据而言，里边是带了一个时间戳的字段。但是对于flink而言，它其实对于数据是一视同仁的，这里面的每一个字段并没有做特别的区分，他也不知道你这个当前这个字段叫TS还是叫time stamp呀，或者叫别的名字啊啊，所以这里边必须有我们的代码，由这个RA strategy显示的，指定从数据里边每一个字段去提取当前的时间戳，然后把它分配到当前的数据上。
07:09
这就相当于是什么呢？就相当于在我们当前的数据上又追加了一个字段，这个字段是真正意义上的time STEM，它有可能跟我们前面的某一个字段是完全一样，也有可能呢，是基于之前的这个字段做了一个转换，做了一个改变啊呃，因为我们知道在有一些日志数据里边啊，它本身的那个时间戳并不是长整形的，我们在代码里边要求的是一个长整型的整数。而如果说我们这里面日志它本身是一个年月日十分秒这样的一个形式的话，那我们还需要把它做一个长整型的转换。啊，那所以这个time Sam和signner，它主要就是用来从数据的某个字段里边去提取时间戳，然后分配给当前的数据元素，啊，这是生成水位线的一个基础，有了这个时间戳之后，后边我们看到这个create water mark generator里边，它要返回这个water mark generator啊，这里边就会有对应的数据元素，另外呢，还有一个长整型的二，这个二我们知道就是当前的时间戳了。
08:14
那当然了，如果说我们是基于当前的事件去生成对应的水位线的话，这里边我们需要去获取到数据和目前的提取出来的时间戳，那如果说我们是周期性的去生成水位线的话，那那很显然就不需要其他的东西了。这里周期性的生成水位线呢，默认周期我们说了系统里边设置的是默认200毫秒，那如果说我们想配这个怎么配呢？啊，这个也很简单，我们可以在env这里去get当前的config，获取当前的运行配置，然后接下来呢，可以去set all to water mark in t，自动生成水位线的周期时间间隔，那这里边是一个长整型的时间戳啊，表示一个时间间隔，比方说如果说我们把这个调大一点啊，设置成500毫秒生成一次，哎，那我可以直接给一个500L，诶这个是完全没有问题的啊，那对于这个默认的配置呢，其实我们也可以看到get con返回的，这里调调用底层的Java代码里面的get con返回的是一个execution con，在这一个类里边，它其实是有一些默认的定义的，我们看它的构造方法，这里边我们可以看到。
09:28
Auto to water mark interval，默认就是200毫秒啊，那所以呢，整体来讲，我们在这里就是要去自己实现一个。Water mark strategy其实就是要实现这个东西里边最核心的一个抽象方法，当然就是create water mark generator。这就是关于在代码当中生成wma的通用接口。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink1.13（Scala版）

（60/176）

6分52秒

001_Flink课程（Scala版）简介

460

9分29秒

002_第一章_Flink的起源和发展

470

6分5秒

003_第一章_Flink框架处理流程

310

6分20秒

004_第一章_Flink应用场景

380

8分41秒

005_第一章_为什么要用Flink

320

18分2秒

006_第一章_数据处理框架的演变

390

6分57秒

007_第一章_Flink的分层API

370

10分5秒

008_第一章_Flink和Spark的区别

510

12分57秒

009_第二章_Flink环境准备和创建项目

380

18分41秒

010_第二章_批处理WordCount

440

13分48秒

011_第二章_有界流处理WordCount

370

13分35秒

012_第二章_无界流处理WordCount

370

7分53秒

013_第三章_Flink基本运行架构

430

21分6秒

014_第三章_本地启动Flink集群

510

6分50秒

015_第三章_远程集群启动

370

11分56秒

016_第三章_Web UI 提交作业

440

8分49秒

017_第三章_命令行提交作业

400

10分42秒

018_第三章_Flink部署模式

310

3分45秒

019_第三章_独立模式的部署

370

18分23秒

020_第三章_YARN模式的部署

280

13分39秒

021_第四章_Flink系统架构

440

10分59秒

022_第四章_Flink运行时架构（二）_作业提交流程

450

7分37秒

023_第四章_数据流图

430

11分54秒

024_第四章_并行度

410

14分50秒

025_第四章_算子链

430

6分13秒

026_第四章_执行图

420

17分27秒

027_第四章_Task Slots

380

5分40秒

028_第四章_Flink的任务调度

370

6分20秒

029_第五章_DataStream API整体介绍

330

9分34秒

030_第五章_执行环境

400

17分18秒

031_第五章_Source（一）_读取有界数据

410

14分28秒

032_第五章_Source（二）_读取Kafka

420

15分47秒

033_第五章_Source（三）_读取自定义数据源

330

10分15秒

034_第五章_Flink支持的类型系统

440

9分35秒

035_第五章_Transform（一）_Map

370

5分49秒

036_第五章_Transform（二）_Filter

390

11分24秒

037_第五章_Transform（三）_FlatMap

380

11分6秒

038_第五章_Transform（四）_KeyBy

430

14分3秒

039_第五章_Transform（五）_简单聚合

380

18分52秒

040_第五章_Transform（六）_归约聚合

420

12分25秒

041_第五章_函数类

330

14分7秒

042_第五章_富函数类

430

8分37秒

043_第五章_物理分区（一）_整体介绍

410

3分48秒

044_第五章_物理分区（二）_Shuffle

370

4分43秒

045_第五章_物理分区（三）_Rebalance

400

13分17秒

046_第五章_物理分区（四）_Rescale

410

3分44秒

047_第五章_物理分区（五）_广播和全局分区

360

6分26秒

048_第五章_物理分区（六）_自定义分区

390

10分30秒

049_第五章_Sink（一）_Flink连接到外部系统

480

13分58秒

050_第五章_Sink（二）_写入文件

440

13分38秒

051_第五章_Sink（三）_写入Kafka

420

14分19秒

052_第五章_Sink（四）_写入Redis

410

15分25秒

053_第五章_Sink（五）_写入Es

300

15分2秒

054_第五章_Sink（六）_写入MySQL

360

4分38秒

055_第五章_Sink（七）_自定义Sink

340

16分54秒

056_第六章_时间语义

390

6分49秒

057_第六章_事件时间和窗口

420

6分55秒

058_第六章_水位线的概念

380

18分39秒

059_第六章_水位线的原理和特性

450

9分57秒

060_第六章_水位线生成策略

360

20分41秒

061_第六章_Flink内置水位线生成策略

460

7分2秒

062_第六章_自定义水位线生成

310

4分25秒

063_第六章_在自定义数据源中生成水位线

400

10分3秒

064_第六章_水位线的传递

430

11分58秒

065_第六章_窗口的概念

380

16分23秒

066_第六章_窗口的分类

260

7分55秒

067_第六章_窗口API概览

360

17分12秒

068_第六章_窗口分配器

370

4分49秒

069_第六章_窗口函数整体介绍

360

7分26秒

070_第六章_增量聚合函数（一）_ReduceFunction

370

21分6秒

071_第六章_增量聚合函数（二）_AggregateFunction

440

21分14秒

072_第六章_全窗口函数

460

17分44秒

073_第六章_增量聚合和全窗口函数结合使用

380

16分23秒

074_第六章_测试水位线和窗口

330

15分36秒

075_第六章_其它可选窗口API

370

7分27秒

076_第六章_处理迟到数据（一）_整体介绍

390

6分13秒

077_第六章_处理迟到数据（二）_代码实现

390

10分5秒

078_第六章_处理迟到数据（三）_运行测试

380

17分55秒

079_第七章_基本处理函数（ProcessFunction）

380

7分32秒

080_第七章_处理函数的分类

320

13分18秒

081_第七章_KeyedProcessFunction（一）_处理时间定时器

360

15分45秒

082_第七章_KeyedProcessFunction（二）_事件时间定时器

430

6分17秒

083_第七章_窗口处理函数

390

19分3秒

084_第七章_TopN（一）_使用ProcessAllWindowFunction

480

12分20秒

085_第七章_TopN（二）_使用KeyedProcessFunction（一）

370

14分43秒

086_第七章_TopN（三）_使用KeyedProcessFunction（二）

340

5分26秒

087_第八章_使用Filter实现分流

340

9分54秒

088_第八章_使用侧输出流实现分流

380

14分40秒

089_第八章_联合（Union）

380

10分27秒

090_第八章_连接（Connect）

380

19分41秒

091_第八章_实时对账（一）_基本框架

340

11分55秒

092_第八章_实时对账（二）_具体实现

370

5分40秒

093_第八章_广播连接流

350

15分56秒

094_第八章_窗口联结

380

17分12秒

095_第八章_间隔联结

370

9分6秒

096_第八章_窗口同组联结

310

7分34秒

097_第九章_状态的概念

400

5分51秒

098_第九章_状态的管理

420

9分37秒

099_第九章_状态的分类

360

100

8分40秒

100_第九章_Keyed State概念和特点

340

101

13分19秒

101_第九章_KeyedState类型（一）_值状态

390

102

11分20秒

102_第九章_KeyedState类型（二）_列表状态和映射状态

430

103

13分2秒

103_第九章_KeyedState类型（三）_归约状态和聚合状态

270

104

19分46秒

104_第九章_KeyedState应用（一）_值状态

330

105

12分49秒

105_第九章_KeyedState应用（二）_列表状态

340

106

16分33秒

106_第九章_KeyedState应用（三）_映射状态

330

107

16分47秒

107_第九章_KeyedState应用（四）_聚合状态

320

108

10分10秒

108_第九章_状态生存时间（TTL）

320

109

11分10秒

109_第九章_算子状态的概念和类型

370

110

20分40秒

110_第九章_算子状态应用实例

350

111

8分36秒

111_第九章_广播状态的概念和用法

420

112

23分24秒

112_第九章_广播状态应用实例

410

113

3分54秒

113_第九章_状态持久化（一）_检查点

400

114

12分31秒

114_第九章_状态持久化（二）_状态后端

310

115

16分7秒

115_第十章_检查点的保存

390

116

6分20秒

116_第十章_从检查点恢复状态

340

117

8分34秒

117_第十章_检查点分界线

360

118

16分48秒

118_第十章_检查点算法

360

119

15分5秒

119_第十章_检查点的配置

350

120

10分49秒

120_第十章_保存点

410

121

10分2秒

121_第十章_状态一致性

310

122

11分30秒

122_第十章_端到端状态一致性（一）

360

123

15分17秒

123_第十章_端到端状态一致性（二）

440

124

14分12秒

124_第十章_Flink和Kafka连接的精确一次

390

125

13分22秒

125_第十一章_Table API和SQL整体介绍

360

126

18分16秒

126_第十一章_快速上手

320

127

8分55秒

127_第十一章_整体程序架构

400

128

10分18秒

128_第十一章_表环境

340

129

12分41秒

129_第十一章_创建表

410

130

12分17秒

130_第十一章_表的查询

380

131

6分58秒

131_第十一章_输出表

390

132

13分20秒

132_第十一章_表转换成流

400

133

7分56秒

133_第十一章_流转换成表

340

134

9分10秒

134_第十一章_支持的数据类型

330

135

11分1秒

135_第十一章_动态表和持续查询

390

136

17分1秒

136_第十一章_持续查询的过程

420

137

12分45秒

137_第十一章_动态表编码为流

380

138

19分23秒

138_第十一章_时间属性（一）_在DDL中定义

450

139

10分22秒

139_第十一章_时间属性（二）_流转换为表时定义

430

140

3分30秒

140_第十一章_时间属性（三）_处理时间的定义

370

141

14分43秒

141_第十一章_窗口

320

142

8分14秒

142_第十一章_分组聚合

410

143

14分17秒

143_第十一章_窗口聚合

360

144

16分10秒

144_第十一章_开窗（Over）聚合

310

145

21分27秒

145_第十一章_普通TopN

410

146

11分57秒

146_第十一章_窗口TopN

450

147

7分51秒

147_第十一章_常规Join

330

148

7分46秒

148_第十一章_间隔Join

410

149

14分50秒

149_第十一章_系统函数

350

150

8分1秒

150_第十一章_UDF（一）_整体介绍

340

151

8分19秒

151_第十一章_UDF（二）_标量函数

400

152

17分54秒

152_第十一章_UDF（三）_表函数

440

153

20分45秒

153_第十一章_UDF（四）_聚合函数

340

154

5分32秒

154_第十一章_UDF（五）_表聚合函数（一）_整体介绍

430

155

18分6秒

155_第十一章_UDF（五）_表聚合函数（二）_代码实现

440

156

11分46秒

156_第十一章_UDF（五）_表聚合函数（三）_调用和测试

390

157

10分15秒

157_第十一章_SQL客户端

320

158

15分4秒

158_第十一章_连接到常见的外部系统

340

159

10分27秒

159_第十一章_连接到Hive

410

160

17分17秒

160_第十二章_CEP的基本概念和应用场景

380

161

13分52秒

161_第十二章_快速上手（一）_程序架构和定义模式

390

162

10分55秒

162_第十二章_快速上手（二）_检测处理和测试

400

163

7分11秒

163_第十二章_个体模式（一）_整体介绍

420

164

10分39秒

164_第十二章_个体模式（二）_量词(1)

440

165

10分39秒

164_第十二章_个体模式（二）_量词

360

166

11分10秒

165_第十二章_个体模式（三）_条件

320

167

11分21秒

166_第十二章_组合模式

430

168

4分32秒

167_第十二章_模式组

350

169

9分0秒

168_第十二章_匹配后跳过策略

370

170

13分49秒

169_第十二章_处理匹配事件

480

171

9分36秒

170_第十二章_处理超时事件（一）_基本流程

410

172

19分7秒

171_第十二章_处理超时事件（二）_应用实例

320

173

7分0秒

172_第十二章_处理迟到数据

370

174

8分11秒

173_第十二章_状态机实现（一）_基本原理

400

175

13分45秒

174_第十二章_状态机实现（二）_代码实现

480

176

10分9秒

175_课程总结

350

060_第六章_水位线生成策略

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐