文章/答案/技术大牛

发布

首页视频055_尚硅谷大数据技术_Flink理论_Watermark（八）_Watermark的设定原则

055_尚硅谷大数据技术_Flink理论_Watermark（八）_Watermark的设定原则

2022-12-022022-12-02 16:02:18播放40

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分/055_尚硅谷大数据技术_Flink理论_Watermark（八）_Watermark的设定原则.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
后我们再来讲一讲在代码里边实际生产项目当中，Watermark到底应该怎么去设定呢？啊，那一般情况大家知道在实际生产项目当中一般处理的是升序数据还是乱序数据啊。首先我们可以考虑一下啊，一般都是乱取数据对吧？啊，所以首先那个ending time STEM那种分配方式那就不要考虑了啊，那当然也有可能是出现就是我们提前做过ETL对吧？呃，一开始就做过排序，然后呃，灌到这个卡夫卡里边啊，我们这个再再去做消费这种场景下的话，那直接用升序也是可以的，具体还是要看数据了，那如果说是这个乱序数据的话，那就涉及到一个我们是不是要设置一个watermark延迟啊。那那这个延迟时间我到底给多少呢？啊，大家要注意，这个其实就相当于我得我就得做一个考量了，那延迟的时间如果要是设的太长太久的话，那是不是导致大家注意啊，Watermark的延迟，这是我们当前整个流处理里边时间的延迟，对吧？这表就拨慢了，那是不是后面只要所有涉及到时间的操作都会滞后啊，哎，所以这里边就会涉及到，如果你设的太久的话，那我们是不是就相当于后边这个时效性就变得很差了，延迟就太高了，对吧？啊，那如果说watermark你设的太小的话。
01:25
又会有另外一个问题，你快是快了对吧，但是有可能会啊，就是有一些乱序的数据没有搞定，那就会导致输出了，得到了错误的结果，对吧？啊，所以这里面一般情况我们是首先用这个watermark的延迟时间要做一个权衡。就是我要找到一个平衡点，就是你也不要太大，导致我们最后的那个实时性特别的差，也不要太小，导致最后大量的数据都hold不住，对吧，都是乱乱序都是错误的，那所以一般情况我们在呃项目里边会怎么做呢？诶这就是我们说的啊，你可能需要首先对这个相对应的这个业务领域有一些了解，你得大概知道我们当前这个项目收集到的那个数据啊，它的乱序程度大概是一个什么样的水准，对吧？啊就是首先有这样的一个了解，或者说你如果要是对这个不了解的话，你也可以把那个数据先拉出来，大大概的做一个测试看一看，对吧？啊就是看一看大概是一个什么样的情况，甚至还可以怎么样呢，你去，诶对于这个数据去做一些分析。
02:31
用一些比方说机器学习算法啊，高级的用法对吧，用一些机器学习算法建一个模型，去判断出当前我们数据里边，它的这个延迟时间的一个分布状态，那大家想一般的分布状态应该是什么？又来了，是不是又是类似于一个正态分布啊，啊，当然这里面这个不，呃，我这儿是写成这个数轴，这是零轴了啊，应该这个延迟时间的话，应该是一个正数对吧，比方说哎，我我这里边大部分都是以这个50毫秒作为一个作为一个平均的延迟时间，乱呃，这个乱序程度啊，乱序程度大概是这个50毫秒，然后大家可能就会想到，如果要是比50毫秒大的数据和这个比50毫秒小的数据。
03:17
那么它都会集中在一定的范围内，对不对，哎，所以在这种情况下，那我们自然就可以还是按照之前的那个规则嘛，341个码对吧？啊，比方说呃，在这个呃有有可能啊，比方说在这个80毫秒。大部分的这个乱序程度以50毫秒为为中心啊，大部分都在20~80毫秒之间，那大家想我是不是这个water mark直接设一个80毫秒应该就可以hold住绝大多数的情况啊，对吧？诶它这个以下的这个所有的情况就都可以搞定了，那假如说这是一个3C格玛的话，那之前那那剩下的这个尾巴啊，就是前面的这一部分数据漏网之鱼，那应该就是很小一部分，对不对，可能百分之零点几的数据hold不住，假如我们的场景你对它的要求非常高，就是要绝对正确，最后的数据一定不能丢，那怎么办呢？
04:11
啊，那没关系啊，大部分数据我已经hold住了，现在我是不是就可以以几十毫秒的延迟快速的输出了一个近似正确的结果啊，那接下来我是不是就可以再设置一个窗口的。处理迟到机制，Allow the lateness啊，比方说大部分的数据，比方说啊，这个这个尾巴，这就看你要要到大概处理到什么程度了，比方说大部分的这个延迟数据呢，在一秒钟之内也就都到齐了，那我是不是接下来那个窗口就allow lateness1秒就可以了，再等一秒对吧？来了这个漏网之鱼，我去做一个更新就完事了。那如果说你对这个要求还特别特别严格，就即使那个非常极端的啊，可能这个呃，几万分之一，几百万分之一的这个概率才会出现的那种情况，有极端的漏网之鱼，一秒之后乱序才会到，那怎么办？哎，测殊入流嘛，对吧？哎，我就直接扔到测殊流里面去，然后你最后再做一个批处理合并不就完了吗。
05:10
啊，所以大家看在实际的这个生产环境里边，还是要根据我们具体的需求去确定最后的这个原则的，一般情况完美的这个匹配，那就是三重保证，我们都用起来对吧？啊，如果要是最简单的这个，比方说几十毫秒的一个乱序的话，那直接全局设一个water mark，把这个表调慢就完事了。当然前面我们讲到还沃设定的时候，还有两种方式，就是一种是周期性生成，另外一种是这个这个间断性生成，对吧，非周期性生成，那这两种情况它又有什么区别呢？哎，大家会想到间断性生成有一个什么好处啊，大家会想到这个间断性生成的话，是不是数据每来一条之后，是不是就可以后边就就插入这个watermark呀，对吧，那这样的话我们更新watermark就会特别的快，对吧，就会特别的实时，但是它有一个问题。
06:06
就是我们当前数据量特别大的时候，是不是相当于这个，我们说这个watermark，它相当于也是一个特殊的数据啊，那你这个是不是相当于数据就翻倍了呀，而且数据量特别大的时候，有可能会出现什么情况呢？是不是这个同一时间戳的那个数据有好多啊，那所以你会发现我来一个就后面加一个，来一个就发加一个，结果发现这个这个时间说是不是都一样，这就有点浪费对不对啊，那与之对应的周期性生成waterbook，大家想一下它的这个特点是什么呢？对，它的特点是每隔一段时间才去更新一次，每一段时间去更新一次，哎，那它的好处是，那就不用生成的那么频繁对吧？然后如果数据量特别大的时候，也不会出现说是这个呃，就是呃，每一个后面生成一个结果还都一样，但是它也有一个问题，就一个是时效性没那么强，对吧？然后另外还有一个就是如果说我这里边一段时间都没有数据来的话，它是不是还会去生成啊，那就是数据如果比较稀疏的情况下啊，这种这种状况状况，它就相当于有点浪费了，那所以大家会想一下，呃，那这两种应用场景是不是就是如果要数据稠密的时候。
07:24
那大家想数据稠密的时候，是不是我就不担心这个watermark推进不了，那是不是我担心的是这个处理不过来啊，对吧，那是不是就应该用周期性生成啊，然后如果要是数据稀疏的时候，那这个时候你就不要浪费了，对吧？来一个处理一个不就完了吗？啊，那就用这个非周期性就完事了。所以大家发现我们更关心的更长处理的应该是什么场景呢？当然是数据稠密了，对吧？我们大数据处理嘛，当然要数据稠密的这种环境下，我去考虑到底该怎么做，而且数据假如说你出现一段时间数据稀疏了，那数据稀疏是不是就代表我当前这个任务都闲着没事干啊，那你来一个watermark也无所谓对不对，那比起之前你这个数据稠密的时候，你还给我加一倍的这个watermark，这比起这个就代价小多了，所以大家会发现。
08:13
在代码里边默认的这个邦地的out，乱序数据处理以及升序处理，它都是什么？都是一个基于周期性的处理，对吧？啊，都是做了这样的一个操作啊，那另外还有一个问题，就是大家可能想到周期性去生成mark，那这个周期到底是多少呢。啊，这个周期啊，是在这里边看到的啊，大家看，因为set这个时间语义的时候，这里其实就有大家点进去看一眼。这个源码啊。大家看设置时间语义的时候，这里是不是直接就有一个判断啊，判断当前的。时间语义时间特性，如果是processing time的话，大家看它设置了一个set all to water mark in t。
09:00
这是在干什么？这是不是就是在设置自动生成watermark的时间间隔，也就是周期啊，如果是处理时间，它直接设这个周期是零，其实大家知道零的话，是不是就表示当前根本就不生成watermark呀，因为你处理时间嘛，跟watermark就没关系，而如果要是别的，那别的是不是就相当于是事件时间和摄入时间interesting time也也也生效，对吧？那设置的这个周期是多少？默认200毫秒对吧，就在这儿啊，当然通过这一个调用大家也看到了啊，我是不是在代码里边，你想改的话，也可以去做一个配置啊，对吧？所以这里边env env点啊，我是不是可以直接get config，然后去set获取到当前的这个这配置项之后去set当前的这个watermark的自动生成的那个时间间隔，对吧？那这里边我给一个比方说，我如果觉得200毫秒生成一次啊，这个太慢了，对吧？啊，我我我这个当前的这个处理能力足够啊，因为你如果大家想如果射的太快的话，是不是也不太好啊。
10:07
设太快是不是相当于对于我们这个数据处理来讲，这个就代价太高了，对吧？但是你如果设太慢的话，是不是相当于你这个延迟就就会高啊，因为你摩ma隔这么多几百毫秒才更新一次嘛，啊那所以比方说我设一个100毫秒对吧？诶那大家想接下来我就变成了一个100毫秒更新一次water mark，选取当前的最大的时间戳，减掉那个呃，设置的延迟时间，然后生成一个这样的对应的这个water mark，对吧？代表当前的事件时间，这就是代码里边的一些配置啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分

（55/99）

5分36秒

001_尚硅谷大数据技术_Flink理论_Flink简介（一）Flink是什么

410

13分11秒

002_尚硅谷大数据技术_Flink理论_Flink简介（二）为什么要用Flink

370

12分49秒

003_尚硅谷大数据技术_Flink理论_Flink简介（三）流数据处理的行业

400

16分17秒

004_尚硅谷大数据技术_Flink理论_Flink简介（四）流处理的发展演变

320

9分14秒

005_尚硅谷大数据技术_Flink理论_Flink简介（五）Flink的特点

350

7分44秒

006_尚硅谷大数据技术_Flink理论_Flink简介（六）Flink vs Spark Streaming

350

26分36秒

007_尚硅谷大数据技术_Flink理论_简单上手（一）批处理WordCount

380

13分51秒

008_尚硅谷大数据技术_Flink理论_简单上手（二）流处理WordCount

300

10分59秒

009_尚硅谷大数据技术_Flink理论_简单上手（三）流式数据源测试

410

27分53秒

010_尚硅谷大数据技术_Flink理论_Flink部署（一）Flink安装和配置

420

24分18秒

011_尚硅谷大数据技术_Flink理论_Flink部署（二）Job的提交运行

400

7分5秒

012_尚硅谷大数据技术_Flink理论_Flink部署（三）资源的分配和并行度测试

420

6分54秒

013_尚硅谷大数据技术_Flink理论_Flink部署（四）命令行提交Job

450

14分7秒

014_尚硅谷大数据技术_Flink理论_Flink部署（五）Yarn和K8s平台的Flink部署

450

11分29秒

015_尚硅谷大数据技术_Flink理论_运行时架构（一）Flink四大组件

340

4分48秒

016_尚硅谷大数据技术_Flink理论_运行时架构（二）作业提交流程_抽象架构

370

4分48秒

017_尚硅谷大数据技术_Flink理论_运行时架构（三）Yarn上作业提交流程

370

7分26秒

018_尚硅谷大数据技术_Flink理论_运行时架构（四）作业调度原理及思考问题

360

27分16秒

019_尚硅谷大数据技术_Flink理论_运行时架构（五）Slot和任务调度

380

14分24秒

020_尚硅谷大数据技术_Flink理论_运行时架构（六）Slot和并行度的关系

440

11分0秒

021_尚硅谷大数据技术_Flink理论_运行时架构（七）程序结构和数据流图

340

19分37秒

022_尚硅谷大数据技术_Flink理论_运行时架构（八）数据传输和任务链

430

5分43秒

023_尚硅谷大数据技术_Flink理论_流处理API_创建执行环境

360

16分38秒

024_尚硅谷大数据技术_Flink理论_流处理API_Source（一）从集合读取数据

430

4分22秒

025_尚硅谷大数据技术_Flink理论_流处理API_Source（二）从文件读取数据

420

10分45秒

026_尚硅谷大数据技术_Flink理论_流处理API_Source（三）从kafka读取数据

370

22分21秒

027_尚硅谷大数据技术_Flink理论_流处理API_Source（四）自定义测试数据源

400

14分42秒

028_尚硅谷大数据技术_Flink理论_流处理API_Transform（一）基本转换操作

270

29分53秒

029_尚硅谷大数据技术_Flink理论_流处理API_Transform（二）滚动聚合

400

12分4秒

030_尚硅谷大数据技术_Flink理论_流处理API_Transform（三）reduce聚合

480

12分57秒

031_尚硅谷大数据技术_Flink理论_流处理API_Transform（四）分流

390

14分1秒

032_尚硅谷大数据技术_Flink理论_流处理API_Transform（五）connect合流

330

6分28秒

033_尚硅谷大数据技术_Flink理论_流处理API_Transform（六）union合流

330

6分21秒

034_尚硅谷大数据技术_Flink理论_流处理API_Flink支持的数据类型

370

25分10秒

035_尚硅谷大数据技术_Flink理论_流处理API_Flink中的UDF函数类

350

14分27秒

036_尚硅谷大数据技术_Flink理论_流处理API_Flink中的数据重分区操作

370

17分39秒

037_尚硅谷大数据技术_Flink理论_流处理API_Sink（一）_Kafka

470

17分5秒

038_尚硅谷大数据技术_Flink理论_流处理API_Sink（二）_Redis

410

19分18秒

039_尚硅谷大数据技术_Flink理论_流处理API_Sink（三）_Es

300

18分25秒

040_尚硅谷大数据技术_Flink理论_流处理API_Sink（四）_JDBC

390

7分18秒

041_尚硅谷大数据技术_Flink理论_Window API（一）_基本概念

350

16分33秒

042_尚硅谷大数据技术_Flink理论_Window API（二）_窗口类型

360

17分18秒

043_尚硅谷大数据技术_Flink理论_Window API（三）_窗口分配器

330

19分24秒

044_尚硅谷大数据技术_Flink理论_Window API（四）_窗口函数（一）时间窗口u增量聚合

340

14分45秒

045_尚硅谷大数据技术_Flink理论_Window API（五）_窗口函数（二）时间窗口全窗口聚合

370

12分59秒

046_尚硅谷大数据技术_Flink理论_Window API（六）_窗口函数（三）计数窗口测试

310

20分8秒

047_尚硅谷大数据技术_Flink理论_Window API（七）_其它可选API

340

6分55秒

048_尚硅谷大数据技术_Flink理论_时间语义（一）_时间语义概念

440

11分18秒

049_尚硅谷大数据技术_Flink理论_时间语义（二）_时间语义的应用

380

4分51秒

050_尚硅谷大数据技术_Flink理论_时间语义（三）_事件时间语义的设置

460

21分13秒

051_尚硅谷大数据技术_Flink理论_Watermark（四）_Watermark概念和原理

390

17分48秒

052_尚硅谷大数据技术_Flink理论_Watermark（五）_Watermark特点和行为

480

9分0秒

053_尚硅谷大数据技术_Flink理论_Watermark（六）_Watermark在任务间的传递

340

21分44秒

054_尚硅谷大数据技术_Flink理论_Watermark（七）_Watermark在代码中的设置

380

10分41秒

055_尚硅谷大数据技术_Flink理论_Watermark（八）_Watermark的设定原则

400

11分59秒

056_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（一）

380

15分48秒

057_尚硅谷大数据技术_Flink理论_窗口起始点和偏移量

360

9分20秒

058_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（二）迟到数据处理

370

9分7秒

059_尚硅谷大数据技术_Flink理论_状态管理（一）状态定义

330

21分11秒

060_尚硅谷大数据技术_Flink理论_状态管理（二）算子状态

440

26分41秒

061_尚硅谷大数据技术_Flink理论_状态管理（三）键控状态

380

16分29秒

062_尚硅谷大数据技术_Flink理论_状态编程_温度跳变报警

420

15分56秒

063_尚硅谷大数据技术_Flink理论_并行任务Watermark传递测试

380

21分58秒

064_尚硅谷大数据技术_Flink理论_状态管理（四）状态后端

420

13分31秒

065_尚硅谷大数据技术_Flink理论_ProcessFunction（一）整体介绍和分类

330

24分55秒

066_尚硅谷大数据技术_Flink理论_ProcessFunction（二）KeyedProcessFunction测试

360

25分30秒

067_尚硅谷大数据技术_Flink理论_ProcessFunction（三）应用案例_一段时间内温度连续上升

380

10分2秒

068_尚硅谷大数据技术_Flink理论_ProcessFunction（四）应用案例_高低温分流

360

11分21秒

069_尚硅谷大数据技术_Flink理论_容错机制（一）检查点概念

370

6分39秒

070_尚硅谷大数据技术_Flink理论_容错机制（二）从检查点做故障恢复

330

14分54秒

071_尚硅谷大数据技术_Flink理论_容错机制（三）检查点算法思路和Barrier

350

22分14秒

072_尚硅谷大数据技术_Flink理论_容错机制（四）检查点具体算法

370

7分23秒

073_尚硅谷大数据技术_Flink理论_容错机制（五）保存点

390

23分6秒

074_尚硅谷大数据技术_Flink理论_容错机制（六）检查点和重启策略配置

410

9分38秒

075_尚硅谷大数据技术_Flink理论_状态一致性（一）一致性概念和分类

430

8分6秒

076_尚硅谷大数据技术_Flink理论_状态一致性（二）端到端状态一致性

390

5分12秒

077_尚硅谷大数据技术_Flink理论_状态一致性（三）幂等写入

340

18分58秒

078_尚硅谷大数据技术_Flink理论_状态一致性（四）事物写入_预写日志和两阶段提交

370

18分29秒

079_尚硅谷大数据技术_Flink理论_状态一致性（五）事物写入_Flink和Kafka连接保证状态一致性

350

24分1秒

080_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（一）_基本介绍和简单示例

380

6分59秒

081_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二）_基本程序结构

380

12分36秒

082_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（三）_表环境配置

310

21分50秒

083_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（四）_创建表_从文件读取数据

450

15分55秒

084_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（五）_表的查询

390

8分10秒

085_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（六）_表的输出_输出到文件

320

16分32秒

086_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（七）_Kafka数据管道测试

330

8分1秒

087_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（八）_更新模式

410

10分8秒

088_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（九）_输出到其它外部系统

310

9分33秒

089_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十）_表和流的转换

350

19分35秒

090_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十一）_动态表和持续查询

340

12分22秒

091_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十二）_处理时间特性

330

10分9秒

092_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十三）_事件时间特性

330

25分49秒

093_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十四）_分组窗口

300

19分14秒

094_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十五）_开窗函数

390

14分44秒

095_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十六）_系统内置函数

310

21分22秒

096_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十七）_标量函数

340

18分50秒

097_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十八）_表函数

370

20分0秒

098_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十九）_聚合函数

380

7分31秒

099_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二十）_表聚合函数

420

055_尚硅谷大数据技术_Flink理论_Watermark（八）_Watermark的设定原则

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐