文章/答案/技术大牛

发布

首页视频041_尚硅谷大数据技术_Flink理论_Window API（一）_基本概念

041_尚硅谷大数据技术_Flink理论_Window API（一）_基本概念

2022-12-022022-12-02 16:02:18播放35

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分/041_尚硅谷大数据技术_Flink理论_Window API（一）_基本概念.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那我们来讲一下flink里边另外非常重要的一部分API，就是所谓的window API窗口操作，那这一部分呢，主要内容是啊，首先我们介绍一下window的概念，然后呢，说一下在flink里边window有哪些哪些主要类型，最后呢，我们来讲一下window API到底怎么调啊，每一步操作到底是什么样的。首先我们来看window的概念，这个概念其实大家应该会很好理解，对吧？Window不就是窗口吗？啊，那大家想一下啊，在我们数据处理里边，窗口到底是什么概念呢？大家之前的印象啊，像在Spark里边，或者在其他的一些框架，或者说语言里边，对于这个窗口的理解，大家可能想就是诶数据来了对吧？数据都就是我们我们这里边数据一个一个啊都放在这儿了，然后我接下来是不是有这么一个框，然后去把这个数据做一个做做一个框起来就可以了，对吧？然后这个窗口是不是还可以移动了，对吧，我再我再往后移动一下，诶这个窗口窗口就往后移了啊，所以这是这可能是大家这个之前想到的啊，所谓这个窗口的概念，那这个flink里边的窗口又是什么概念呢？
01:15
大家要注意一下啊，跟我们之前理解的窗口是略有差别的，这里边在flink处理处理的过程当中，它对于窗口概念的提出，主要是因为要处理。就是要处理所谓的有界流，基于这样的一个概念提出的窗口，这样的，呃，一个思路和概念啊，啊大家想到，首先我们在弗林课里边要处理的是实时数据，是一个有头没尾，无休无止一直在来的数据流，那大家想一下，这样一个无限的数据流，我们怎么样去做操操作呢？最后我们的结果是不是就只有像之前大家看到的那样来一个处理一次就得到一个结果啊，永远都是这样的，对吧？那这里面就涉及到一个问题，假如说我们是一个实际的生产场景，我可能要想要统计一个一段时间内的一个一个统计报表，对吧？比方说我生成一个月度统计啊，一个一周的统计啊，或者季度统计，那你说这个它是不是对于时间是有一个限制的呀。
02:15
啊，对吧，因为你这种统计的话，你永远无休止的不停的更新，那相当于我这个就永远没做完嘛，那我什么时候才能把它拿出来，得到一张报表去，去说明一些事情，去调整我的营销策略呢？诶，所以这里边就必须把这个限的数据流进行一个切分，那大家想这是不是就相当于把无限无界流转换成了一个有界流啊，对吧，你在这个无界流上截取一段去处理，这不就是我们一段时间所有数据的一个统计结果吗？所以进行这个基本数据分析的时候，我们往往都要把它转换成有界流，那转换有界流应该用什么样的方式呢？这里面给大家提供一个基本的想法，就是我可以直接啊，大家想有限流，那不就是在数据流上去截取一段吗。
03:06
截取的这一段我们就叫做开了一个窗口，对大家看，这就是这个窗口的概念，对吧？所以在flink里边，它的这个窗口概念就是把无限流切割切分成有界流的一种方式，那它底层的实现呢，大家要区分，它其实不是像我们之前大家所理解的那样，数据都来了，诶，然后我开一个窗口把它框一下，大家想我能这么直接去框吗？你这样的话，这这是批处理的思路，是不是数据都到齐了，然后我拿个框去框他呀，那我们现在是数据连续不断的来，那我能直接就是数据已经有了，默认数据有了去框吗？那显然不行，所以现在的这个窗口，大家不能把它想象成一个，就是所谓的那个111个一个这个照片框一样，对吧，一个相框一样，而是要把它想象成一个。
04:00
一个桶，这就是我们所说这个bucket的概念。这个桶我们这里边啊，数据一个一个来，接下来的这个窗口是什么概念呢？就是比如说八点到九点有一个窗口的话。我把它相当于是有一个桶，这里边所有属于这个时间段范围内的数据全放到这个桶里来。八点到九点开一个窗口，那就是有这样一个桶，那一个数据来了之后，我判断哦，它属于这个时间窗口，就把它丢到这个桶里边。后边又来一个数据，哎，属于这个窗口，就丢到这个桶里面对吧？哎，那假如说大家想那个九点到十点，可能又有一个又有一个窗口，那是不是相当于就有另外的一个桶啊，所以接下来假如下一个数据属于这个时间窗口的话，就把它丢到后面这个桶里来。这样有一个好处，大家看这个好处是什么呢？当前这个窗口，它是不是就不依赖于，就不需要等到所有的数据都到齐，我才能去判断这个窗口啊，是不是相当于数据来了之后，我直接就能判断它属于哪个窗口，直接就是来一个直接去处理一个就可以了啊，所以首先这是它还拥有我们当前这个流式处理的特特点，流式处理啊，来一个处理一个，那另外还有一个特点就是。
05:24
大家想现在的话是不是相当于八点到九点的桶和九点到十点的桶，理论上来讲是不是可以同时存在啊？大家想想是不是这样，你要是之前我们的那个概念的话，八点到九点，九点到十点。这个窗口是不是应该只能有一个啊对吧，那你那之前我们那个数据不就是一个一个不停的来，来了之后它属于八点到九点，那我就是属于就框在框在这个框里，对吧？那那你如果要是刚才我们这个啊，就是把这个框一下，如果要是说已经到了下一个九点多的话，那是不是就应该属于下一个框了，应该是直接这么框对吧。
06:04
但现在就不一样了，现在是允许，是不是这两个同时存在啊，所以有可能出现什么情况，就是我当前本来我当前的时间是八点到九点，但是是不是有可能这个数据还都没没到齐啊，假如说有迟到的数据，或者说因为乱序啊，就是我们那个分布式处理啊，有些数数据姗姗来迟，它本来应该属于八点到九点，但是他从后面才来了。那大家想是不是我还可以？让它放到这个桶里来啊，只要这个桶当时我还没关，只要把它放在这儿了，是不是接下来继续可以处理，把这个数据丢进来就可以处理了，哎，所以大家发现本身的这个原理，这也是flink进行乱序处理进行就是把这个迟到数据啊进行处理的一个一个基本的就是数据数据结构上的一种支持啊，所以大家现在首先要树立这样一个概念啊，Flink里边的窗口就是用来把无限的数据流切分成有界有界流进行计算。
07:10
来来设计出来的，那么它底层结构呢，可以认为就是有限大小的一个桶，对吧啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分

（41/99）

5分36秒

001_尚硅谷大数据技术_Flink理论_Flink简介（一）Flink是什么

410

13分11秒

002_尚硅谷大数据技术_Flink理论_Flink简介（二）为什么要用Flink

370

12分49秒

003_尚硅谷大数据技术_Flink理论_Flink简介（三）流数据处理的行业

400

16分17秒

004_尚硅谷大数据技术_Flink理论_Flink简介（四）流处理的发展演变

320

9分14秒

005_尚硅谷大数据技术_Flink理论_Flink简介（五）Flink的特点

350

7分44秒

006_尚硅谷大数据技术_Flink理论_Flink简介（六）Flink vs Spark Streaming

350

26分36秒

007_尚硅谷大数据技术_Flink理论_简单上手（一）批处理WordCount

380

13分51秒

008_尚硅谷大数据技术_Flink理论_简单上手（二）流处理WordCount

300

10分59秒

009_尚硅谷大数据技术_Flink理论_简单上手（三）流式数据源测试

410

27分53秒

010_尚硅谷大数据技术_Flink理论_Flink部署（一）Flink安装和配置

420

24分18秒

011_尚硅谷大数据技术_Flink理论_Flink部署（二）Job的提交运行

400

7分5秒

012_尚硅谷大数据技术_Flink理论_Flink部署（三）资源的分配和并行度测试

420

6分54秒

013_尚硅谷大数据技术_Flink理论_Flink部署（四）命令行提交Job

450

14分7秒

014_尚硅谷大数据技术_Flink理论_Flink部署（五）Yarn和K8s平台的Flink部署

450

11分29秒

015_尚硅谷大数据技术_Flink理论_运行时架构（一）Flink四大组件

340

4分48秒

016_尚硅谷大数据技术_Flink理论_运行时架构（二）作业提交流程_抽象架构

370

4分48秒

017_尚硅谷大数据技术_Flink理论_运行时架构（三）Yarn上作业提交流程

370

7分26秒

018_尚硅谷大数据技术_Flink理论_运行时架构（四）作业调度原理及思考问题

360

27分16秒

019_尚硅谷大数据技术_Flink理论_运行时架构（五）Slot和任务调度

380

14分24秒

020_尚硅谷大数据技术_Flink理论_运行时架构（六）Slot和并行度的关系

440

11分0秒

021_尚硅谷大数据技术_Flink理论_运行时架构（七）程序结构和数据流图

340

19分37秒

022_尚硅谷大数据技术_Flink理论_运行时架构（八）数据传输和任务链

430

5分43秒

023_尚硅谷大数据技术_Flink理论_流处理API_创建执行环境

360

16分38秒

024_尚硅谷大数据技术_Flink理论_流处理API_Source（一）从集合读取数据

430

4分22秒

025_尚硅谷大数据技术_Flink理论_流处理API_Source（二）从文件读取数据

420

10分45秒

026_尚硅谷大数据技术_Flink理论_流处理API_Source（三）从kafka读取数据

370

22分21秒

027_尚硅谷大数据技术_Flink理论_流处理API_Source（四）自定义测试数据源

400

14分42秒

028_尚硅谷大数据技术_Flink理论_流处理API_Transform（一）基本转换操作

270

29分53秒

029_尚硅谷大数据技术_Flink理论_流处理API_Transform（二）滚动聚合

400

12分4秒

030_尚硅谷大数据技术_Flink理论_流处理API_Transform（三）reduce聚合

480

12分57秒

031_尚硅谷大数据技术_Flink理论_流处理API_Transform（四）分流

390

14分1秒

032_尚硅谷大数据技术_Flink理论_流处理API_Transform（五）connect合流

330

6分28秒

033_尚硅谷大数据技术_Flink理论_流处理API_Transform（六）union合流

330

6分21秒

034_尚硅谷大数据技术_Flink理论_流处理API_Flink支持的数据类型

370

25分10秒

035_尚硅谷大数据技术_Flink理论_流处理API_Flink中的UDF函数类

350

14分27秒

036_尚硅谷大数据技术_Flink理论_流处理API_Flink中的数据重分区操作

370

17分39秒

037_尚硅谷大数据技术_Flink理论_流处理API_Sink（一）_Kafka

470

17分5秒

038_尚硅谷大数据技术_Flink理论_流处理API_Sink（二）_Redis

410

19分18秒

039_尚硅谷大数据技术_Flink理论_流处理API_Sink（三）_Es

300

18分25秒

040_尚硅谷大数据技术_Flink理论_流处理API_Sink（四）_JDBC

390

7分18秒

041_尚硅谷大数据技术_Flink理论_Window API（一）_基本概念

350

16分33秒

042_尚硅谷大数据技术_Flink理论_Window API（二）_窗口类型

360

17分18秒

043_尚硅谷大数据技术_Flink理论_Window API（三）_窗口分配器

330

19分24秒

044_尚硅谷大数据技术_Flink理论_Window API（四）_窗口函数（一）时间窗口u增量聚合

340

14分45秒

045_尚硅谷大数据技术_Flink理论_Window API（五）_窗口函数（二）时间窗口全窗口聚合

370

12分59秒

046_尚硅谷大数据技术_Flink理论_Window API（六）_窗口函数（三）计数窗口测试

310

20分8秒

047_尚硅谷大数据技术_Flink理论_Window API（七）_其它可选API

340

6分55秒

048_尚硅谷大数据技术_Flink理论_时间语义（一）_时间语义概念

440

11分18秒

049_尚硅谷大数据技术_Flink理论_时间语义（二）_时间语义的应用

380

4分51秒

050_尚硅谷大数据技术_Flink理论_时间语义（三）_事件时间语义的设置

460

21分13秒

051_尚硅谷大数据技术_Flink理论_Watermark（四）_Watermark概念和原理

390

17分48秒

052_尚硅谷大数据技术_Flink理论_Watermark（五）_Watermark特点和行为

480

9分0秒

053_尚硅谷大数据技术_Flink理论_Watermark（六）_Watermark在任务间的传递

340

21分44秒

054_尚硅谷大数据技术_Flink理论_Watermark（七）_Watermark在代码中的设置

380

10分41秒

055_尚硅谷大数据技术_Flink理论_Watermark（八）_Watermark的设定原则

400

11分59秒

056_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（一）

380

15分48秒

057_尚硅谷大数据技术_Flink理论_窗口起始点和偏移量

360

9分20秒

058_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（二）迟到数据处理

370

9分7秒

059_尚硅谷大数据技术_Flink理论_状态管理（一）状态定义

330

21分11秒

060_尚硅谷大数据技术_Flink理论_状态管理（二）算子状态

440

26分41秒

061_尚硅谷大数据技术_Flink理论_状态管理（三）键控状态

380

16分29秒

062_尚硅谷大数据技术_Flink理论_状态编程_温度跳变报警

420

15分56秒

063_尚硅谷大数据技术_Flink理论_并行任务Watermark传递测试

380

21分58秒

064_尚硅谷大数据技术_Flink理论_状态管理（四）状态后端

420

13分31秒

065_尚硅谷大数据技术_Flink理论_ProcessFunction（一）整体介绍和分类

330

24分55秒

066_尚硅谷大数据技术_Flink理论_ProcessFunction（二）KeyedProcessFunction测试

360

25分30秒

067_尚硅谷大数据技术_Flink理论_ProcessFunction（三）应用案例_一段时间内温度连续上升

380

10分2秒

068_尚硅谷大数据技术_Flink理论_ProcessFunction（四）应用案例_高低温分流

370

11分21秒

069_尚硅谷大数据技术_Flink理论_容错机制（一）检查点概念

370

6分39秒

070_尚硅谷大数据技术_Flink理论_容错机制（二）从检查点做故障恢复

330

14分54秒

071_尚硅谷大数据技术_Flink理论_容错机制（三）检查点算法思路和Barrier

350

22分14秒

072_尚硅谷大数据技术_Flink理论_容错机制（四）检查点具体算法

370

7分23秒

073_尚硅谷大数据技术_Flink理论_容错机制（五）保存点

390

23分6秒

074_尚硅谷大数据技术_Flink理论_容错机制（六）检查点和重启策略配置

410

9分38秒

075_尚硅谷大数据技术_Flink理论_状态一致性（一）一致性概念和分类

430

8分6秒

076_尚硅谷大数据技术_Flink理论_状态一致性（二）端到端状态一致性

390

5分12秒

077_尚硅谷大数据技术_Flink理论_状态一致性（三）幂等写入

340

18分58秒

078_尚硅谷大数据技术_Flink理论_状态一致性（四）事物写入_预写日志和两阶段提交

370

18分29秒

079_尚硅谷大数据技术_Flink理论_状态一致性（五）事物写入_Flink和Kafka连接保证状态一致性

350

24分1秒

080_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（一）_基本介绍和简单示例

390

6分59秒

081_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二）_基本程序结构

380

12分36秒

082_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（三）_表环境配置

310

21分50秒

083_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（四）_创建表_从文件读取数据

470

15分55秒

084_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（五）_表的查询

390

8分10秒

085_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（六）_表的输出_输出到文件

320

16分32秒

086_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（七）_Kafka数据管道测试

330

8分1秒

087_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（八）_更新模式

410

10分8秒

088_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（九）_输出到其它外部系统

310

9分33秒

089_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十）_表和流的转换

350

19分35秒

090_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十一）_动态表和持续查询

340

12分22秒

091_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十二）_处理时间特性

330

10分9秒

092_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十三）_事件时间特性

330

25分49秒

093_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十四）_分组窗口

300

19分14秒

094_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十五）_开窗函数

390

14分44秒

095_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十六）_系统内置函数

310

21分22秒

096_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十七）_标量函数

340

18分50秒

097_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十八）_表函数

370

20分0秒

098_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十九）_聚合函数

380

7分31秒

099_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二十）_表聚合函数

420

041_尚硅谷大数据技术_Flink理论_Window API（一）_基本概念

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐