文章/答案/技术大牛

发布

首页视频046.尚硅谷_Flink-自定义Watermark生成机制

046.尚硅谷_Flink-自定义Watermark生成机制

2022-12-022022-12-02 16:02:28播放29

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷Flink从入门到实战（scala版）/视频/046.尚硅谷_Flink-自定义Watermark生成机制.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
于watermark这个设定，大家会发现一般情况我们用它来主要是事件时间语一下处理乱序数据啊，在这里边你基本上就是给一个就代码里边我们就引入这个类对吧，给一个当前的这个时间戳提取器啊，就指定时间戳是什么，然后呢，给它一个我们说的这个延迟时间啊，这里边它底层叫做最大乱序程度对吧？啊，你把这个给我们知道他底层希望要的是最大乱序程度，但是呢，我们给的时候，你也可以不给最大乱序程度，对吧，就是我能接受你当前没那么没那么准，也有可能丢数，但是呢，我要快呀啊对吧，我能hold住百分之六七十，七八十情况就可以了啊，所以这个情况你是按自己的需求去去指定去设定的，那就有同学可能会说，那我这里边我就想要，就不想用这个当前的最大时间戳去减一个延迟，对吧，就用这种延迟的方式去去处理，我想自定义行不行呢？当然可以啊，我们说这个类底层实现的是a sign with periodic watermarks。
01:00
那你如果自己实现的话，你实现这个接口不就完了吗？对吧？然后这个接口里边你看一眼，它里边主要有两个方，呃，主要有一个方法啊，就是这里边有一个方法就是get current water mark对吧，就是生成water mark的那个机制，另外还有一个必须重写的方法是什么呢？是它继承自time stamp a sign里边的一个方法，叫做except extract time step，就是提取时间戳啊之前大家还记得我们在这个重写的时候，是不是也得重写这个方法呀，对吧？Extra time step啊，因为你看这个类里边，它是给我们已经把这个就是这里边，呃，Get current water mark这个已经重写了，对吧，这个已经重写完成了，然后我们这里边的这个提取时间戳的这个操作呢，诶，你相当于在这个里边是还得给我再传进来一个参数，我根据我们自己。指定的那一个啊，就是当前你要提取的那个规则，到这里边来才能去提取，对吧？啊大家看你这里边是要把这个extract time stamp，就是当前我给定的这个这个方法，它要调用这个方法的，对吧？呃，然后去去复写我们这个，呃，重写这个接口里边的这个方法，所以你如果要是自己实现的话，那你就重写，重写这个接口，然后就是实现这个接口，把这两个方法重写一下不就完了吗？啊大家可以参考一下文档里边给大家也做了一个简单实现，我们可以看到。
02:29
呃，这个这里啊，大家看到这两种类型，一种是周期性生成water的默认200毫秒周期，对吧？你这里面如果说我们想要去自己自定义的话，你看怎么写呢？哎，我随便定义一个自己的periodic designer，然后呢，哎，实现这个接口对吧，With periodic automark，然后里边怎么办？我也模拟那种情况啊，模拟这个flink底层实现的情况，我定义一个延迟的这个界限，定义一个棒的，然后呢，我保存一个，大家看这是个Y，对吧，我要观察当前已经来的所有数据里边它的最大时间戳是什么？我把它保存下来啊，一开始我给了一个长整形的最小值，然后后边重写这两个方法，这两个方法怎么重写呢？一个方法提取时间戳，诶，那我就是最后返回的，当然是数据里边的那个时间戳了，对吧？提取时间戳嘛，另外我还得每来一个数据来一个时间戳，我就要判断一下，更新一下当前的那个最大值，这就相当于我保存了一个状态一样，对不对？我把这个状态要不停的去更新。
03:29
然后怎么样周期性，大家注意啊，这两个方法什么时候调用呢？下面这个方法当然是每来一条数据的时候，这个底层就给我们调用一下这个提取时间戳的这个方法，而上面这个方法呢，周期性生成，所以它就是200毫秒生成一次，呃，调用一次对吧？然后来生成一个water，大家看看它要返回一个water mark数据练习，然后插入到当前的数据流里面，所以我们这里边生成规则，你看就直接用当前的最大时间戳减去你指定的这个延迟时间就完事了啊，所以很简单的一个自定义实现的话，你就用这种方式啊，当然这种方式大家如果直接就是你用在代码里面直接去跑的话，肯定有bug，为什么呢？有很多边界情况对吧，边边角角那种情况我们都没考虑，你看那个类给我们实现里边看起来逻辑还很复杂呢，对吧？呃，核心逻辑提取出来其实就这么多，所以如果我们想要去自定义实现这个automa的生成机制啊，提取机制的话。
04:30
大家可以去参考一下这部分代码啊，那另外与之对应的还有一个就是不是周期性生成的，非周期性，我们是相当于断点式的，间断式的生成的那种方式，对吧？就是那种叫做puu eighty waters，大家还记得吧？啊，Sign with puu eighty watermarks，那这种情况实现的时候它是什么呢？哎，大家注意这里边要重写的还是实现这个接口嘛，要重写的方法略有不同，首先底层我们说还是就是那个asign time s那个底层接口，对吧？它必须得有一个提取时间戳的这个方法，这个要重写啊，那这里面还是一样，我们从数据里边把时间戳提出来，这里大家看没有乘1000，没有乘1000，意思是我本默认里边那个就是毫秒了，对吧，那这这就不用乘1000了啊，然后呢，前边我还有一个方法，这个不叫做get auto water mark啦，因为它不是周期性调用，它叫什么呢？它叫check and get next water mark，所以这个check它它check谁呢？
05:29
它的调用就是在来了一个数据，然后做了时间戳提取之后，接下来就调用上面这个方法，所以大家看现在我就不是周期性调用了，对吧？间断式的去调用，调用的时候是靠什么去触发呢？靠数据去触发，就是每来一个数据之后，我判断一下要不要去生成一个water，诶，那这个时候里边的逻辑我就可以比方说怎么样呢？哎，我就直接判断一下if当前的这一个啊，这个如果说是341的话，这个数据来了我才去生成，如果不是341的数据我就不生成啊，那生成的基这个就相当于也比较少，比较稀疏了，对吧，不会出现那种大量堆积的那种情况啊，当然这个实际应用好像很少这么干，对吧，你就直接指定某一个传感器的数据来了，我才生成沃玛的推推进时间，正常来讲肯定是所有数据都应该能推进时间啊，那这里边我给的还是你定义，哎，我就用当前提出来的当前这个当前的这个时间戳，然后去。
06:30
一个减一个延迟时间对吧，这就相当于我根本没有算它那个最大值了，有可能就会出现注意啊，大家看这个，这就有可能会出现这个时间倒流的情况，对吧？如果乱序数据来的话，你提取出来这个时间戳比之前小了，这就出现时间倒流了啊，所以这个显然是考虑的不够周全的啊。呃，如果实际应用，一般我们用的还是这个周期性生成它这种方式，我们说在处理这种数据非常密集的大数据处理场景会比较常见，比较高效一点，这就是关于不同的watermark生成的机制。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷Flink从入门到实战（scala版）

（46/137）

10分49秒

001.尚硅谷_Flink-Flink简介

510

19分45秒

002.尚硅谷_Flink-Flink应用场景

480

11分3秒

003.尚硅谷_Flink-流式处理的提出

380

15分16秒

004.尚硅谷_Flink-流式处理的演变

350

16分33秒

005.尚硅谷_Flink-Flink的特点

340

23分57秒

006.尚硅谷_Flink-批处理wordcount

520

20分13秒

007.尚硅谷_Flink-流处理wordcount

380

19分14秒

008.尚硅谷_Flink-流处理wordcount扩展测试和说明

410

26分46秒

009.尚硅谷_Flink-Flink集群部署

470

22分34秒

010.尚硅谷_Flink-提交Job

400

7分30秒

011.尚硅谷_Flink-命令行提交Job

350

12分50秒

012.尚硅谷_Flink-其它方式集群部署

360

8分35秒

013.尚硅谷_Flink-运行时架构_运行时组件

390

13分22秒

014.尚硅谷_Flink-运行时架构_作业提交流程

430

16分27秒

015.尚硅谷_Flink-运行时架构_任务调度原理（一）_并行度和slot

360

17分22秒

016.尚硅谷_Flink-运行时架构_任务调度原理（二）_slot共享

470

6分15秒

017.尚硅谷_Flink-运行时架构_任务调度原理（三）_slot共享示例

300

25分35秒

018.尚硅谷_Flink-运行时架构_任务调度原理（四）_执行图和任务链

310

12分20秒

019.尚硅谷_Flink-运行时架构_任务调度原理（五）_自定义任务调度规则

350

16分18秒

020.尚硅谷_Flink-流处理API_Source（一）_从集合和文件读取数据

380

21分32秒

021.尚硅谷_Flink-流处理API_Source（二）_从Kafka读取数据

430

24分49秒

022.尚硅谷_Flink-流处理API_Source（三）_自定义Source

410

6分49秒

023.尚硅谷_Flink-流处理API_Transform（一）_简单转换算子

320

19分15秒

024.尚硅谷_Flink-流处理API_Transform（二）_简单分组聚合

380

11分20秒

025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合

320

12分23秒

026.尚硅谷_Flink-流处理API_Transform（四）_分流操作

350

19分54秒

027.尚硅谷_Flink-流处理API_Transform（五）_合流操作

290

9分39秒

028.尚硅谷_Flink-流处理API_Flink支持的数据类型

420

19分40秒

029.尚硅谷_Flink-流处理API_函数类和富函数类

280

18分54秒

030.尚硅谷_Flink-流处理API_Sink（一）_文件

410

10分44秒

031.尚硅谷_Flink-流处理API_Sink（二）_Kafka

430

18分29秒

032.尚硅谷_Flink-流处理API_Sink（三）_Redis

360

16分42秒

033.尚硅谷_Flink-流处理API_Sink（四）_ElasticSearch

350

17分47秒

034.尚硅谷_Flink-流处理API_Sink（五）_MySQL

480

7分21秒

035.尚硅谷_Flink-流处理API_Window API_窗口概念

360

10分12秒

036.尚硅谷_Flink-流处理API_Window API_窗口类型

330

27分16秒

037.尚硅谷_Flink-流处理API_Window API_窗口分配器

450

20分59秒

038.尚硅谷_Flink-流处理API_Window API_窗口函数及其它可选API

410

15分5秒

039.尚硅谷_Flink-流处理API_Window API_窗口计算测试

270

17分56秒

040.尚硅谷_Flink-时间语义

300

4分32秒

041.尚硅谷_Flink-时间语义的设置

350

19分5秒

042.尚硅谷_Flink-Watermark概念

370

15分56秒

043.尚硅谷_Flink-Watermark原理和特点

320

8分7秒

044.尚硅谷_Flink-Watermark传递

260

16分32秒

045.尚硅谷_Flink-Watermark代码中引入

290

7分8秒

046.尚硅谷_Flink-自定义Watermark生成机制

290

16分10秒

047.尚硅谷_Flink-事件时间语义下的窗口测试

360

9分20秒

048.尚硅谷_Flink-窗口起始点的确定

360

8分7秒

049.尚硅谷_Flink-状态管理（一）_状态的概念

400

15分13秒

050.尚硅谷_Flink-状态管理（二）_算子状态和键控状态

290

27分24秒

051.尚硅谷_Flink-状态管理（三）_状态在代码中的定义和使用

340

17分14秒

052.尚硅谷_Flink-状态编程示例（一）

380

17分29秒

053.尚硅谷_Flink-状态编程示例（二）

410

23分23秒

054.尚硅谷_Flink-ProcessFuntion_基本概念和使用

360

32分49秒

055.尚硅谷_Flink-ProcessFuntion_定时器应用示例

320

9分44秒

056.尚硅谷_Flink-ProcessFuntion_侧输出流应用示例

360

15分35秒

057.尚硅谷_Flink-状态后端

390

13分30秒

058.尚硅谷_Flink-容错机制_检查点概念和原理

280

25分45秒

059.尚硅谷_Flink-容错机制_检查点算法

380

26分28秒

060.尚硅谷_Flink-容错机制_checkpoint配置

350

8分20秒

061.尚硅谷_Flink-容错机制_重启策略配置

440

7分31秒

062.尚硅谷_Flink-保存点

460

10分45秒

063.尚硅谷_Flink-状态一致性_基本概念

400

8分42秒

064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证

390

23分34秒

065.尚硅谷_Flink-状态一致性_幂等写入和事务写入

410

18分19秒

066.尚硅谷_Flink-状态一致性_Flink与Kafka连接的状态一致性

400

22分2秒

067.尚硅谷_Flink-Table API和Flink SQL_基本概念和示例程序

400

9分21秒

068.尚硅谷_Flink-Table API和Flink SQL_基本程序结构

340

15分42秒

069.尚硅谷_Flink-Table API和Flink SQL_表执行环境

360

19分13秒

070.尚硅谷_Flink-Table API和Flink SQL_表的概念和从文件读取数据

410

9分28秒

071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据

340

11分3秒

072.尚硅谷_Flink-Table API和Flink SQL_表的查询转换

390

8分24秒

073.尚硅谷_Flink-Table API和Flink SQL_DataStream和表的转换

400

25分13秒

074.尚硅谷_Flink-Table API和Flink SQL_输出到文件

320

10分50秒

075.尚硅谷_Flink-Table API和Flink SQL_更新模式

310

17分40秒

076.尚硅谷_Flink-Table API和Flink SQL_Kafka管道测试

380

18分17秒

077.尚硅谷_Flink-Table API和Flink SQL_输出到ES

340

8分8秒

078.尚硅谷_Flink-Table API和Flink SQL_输出到MySQL

390

11分33秒

079.尚硅谷_Flink-Table API和Flink SQL_表转换成流

290

7分6秒

080.尚硅谷_Flink-Table API和Flink SQL_流处理和SQL查询的不同

340

12分23秒

081.尚硅谷_Flink-Table API和Flink SQL_动态表和持续查询

430

12分49秒

082.尚硅谷_Flink-Table API和Flink SQL_持续查询示例具体过程

410

20分15秒

083.尚硅谷_Flink-Table API和Flink SQL_时间特性（一）_处理时间

340

14分15秒

084.尚硅谷_Flink-Table API和Flink SQL_时间特性（二）_事件时间

330

13分10秒

085.尚硅谷_Flink-Table API和Flink SQL_窗口（一）_分组窗口

440

18分42秒

086.尚硅谷_Flink-Table API和Flink SQL_窗口（二）_分组窗口测试

400

11分57秒

087.尚硅谷_Flink-Table API和Flink SQL_窗口（三）_Over窗口

380

13分1秒

088.尚硅谷_Flink-Table API和Flink SQL_窗口（四）_Over窗口测试

340

11分3秒

089.尚硅谷_Flink-Table API和Flink SQL_函数（一）_系统内置函数

310

14分38秒

090.尚硅谷_Flink-Table API和Flink SQL_函数（二）_UDF函数_标量函数

430

17分18秒

091.尚硅谷_Flink-Table API和Flink SQL_函数（三）_UDF函数_表函数

350

26分57秒

092.尚硅谷_Flink-Table API和Flink SQL_函数（四）_UDF函数_聚合函数

410

27分55秒

093.尚硅谷_Flink-Table API和Flink SQL_函数（五）_UDF函数_表聚合函数

370

8分11秒

094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型

350

15分26秒

095.尚硅谷_Flink项目-电商用户行为分析_用户行为分析应用场景

370

9分11秒

096.尚硅谷_Flink项目-电商用户行为分析_模块设计和数据分析

440

21分2秒

097.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（一）

350

9分6秒

098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）

400

10分2秒

099.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_其它需求

400

100

10分20秒

100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建

380

101

27分53秒

101.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（一）_窗口聚合

360

102

27分13秒

102.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（二）_排序统计输出

390

103

20分50秒

103.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（三）_从Kafka消费数据测试

450

104

10分2秒

104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试

480

105

28分42秒

105.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（五）_Table API和SQL实现

350

106

26分5秒

106.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（一）_开窗聚合统计

250

107

9分46秒

107.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（二）_统计结果排序输出

350

108

21分3秒

108.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（三）_乱序数据的处理

420

109

21分40秒

109.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（四）_保证状态更新结果正确

390

110

20分38秒

110.尚硅谷_Flink项目-电商用户行为分析_PV统计（一）_基本实现

430

111

19分21秒

111.尚硅谷_Flink项目-电商用户行为分析_PV统计（二）_数据并行的优化

320

112

15分27秒

112.尚硅谷_Flink项目-电商用户行为分析_UV统计（一）_基本实现

430

113

30分47秒

113.尚硅谷_Flink项目-电商用户行为分析_UV统计（二）_布隆过滤器去重思路和程序架构

350

114

9分11秒

114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现

340

115

23分31秒

115.尚硅谷_Flink项目-电商用户行为分析_UV统计（四）_UV去重的布隆过滤器实现

300

116

17分2秒

116.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（一）_自定义数据源

480

117

20分43秒

117.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（二）_开窗聚合统计输出

320

118

19分18秒

118.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（一）_基本需求实现

310

119

14分27秒

119.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（二）_刷单行为过滤思路和整体框架

380

120

23分19秒

120.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（三）_刷单行为过滤代码实现

360

121

18分16秒

121.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（一）_实现思路和代码框架

400

122

18分20秒

122.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（二）_具体代码实现

350

123

18分18秒

123.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（三）_代码改进

350

124

30分32秒

124.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（四）_CEP代码实现

330

125

12分22秒

125.尚硅谷_Flink项目-电商用户行为分析_CEP简介（一）_CEP介绍及Pattern API整体概念

390

126

12分40秒

126.尚硅谷_Flink项目-电商用户行为分析_CEP简介（二）_个体模式

300

127

10分22秒

127.尚硅谷_Flink项目-电商用户行为分析_CEP简介（三）_模式序列

390

128

9分49秒

128.尚硅谷_Flink项目-电商用户行为分析_CEP简介（四）_模式的检测和事件处理

380

129

19分49秒

129.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（一）_实现思路和程序架构

340

130

17分28秒

130.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（二）_CEP具体代码实现

440

131

6分41秒

131.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（三）_流式输入数据测试

390

132

32分19秒

132.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（四）_ProcessFunction代码实现

380

133

13分48秒

133.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（一）_需求分析和整体架构

350

134

22分23秒

134.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（二）_合流代码实现

380

135

12分55秒

135.尚硅谷_Flink项目-电商用户行为分析_Join API（一）_Window Join

380

136

9分46秒

136.尚硅谷_Flink项目-电商用户行为分析_Join API（二）_Interval Join

240

137

9分21秒

137.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（三）_Join代码实现

330

046.尚硅谷_Flink-自定义Watermark生成机制

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐