文章/答案/技术大牛

发布

首页视频025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合

025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合

2022-12-022022-12-02 16:02:28播放32

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷Flink从入门到实战（scala版）/视频/025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
可能会发现一个问题，就是我们这里边提供的这些滚动聚和算子呢，相对来讲都比较简单啊，Sum max命对吧，也就是求和或者是求最大最小值，那假如说我现在的需求比较特殊，诶，我我不能，呃，比方说我们我们想输出一个什么样的场景呢？就是我当前呢，想要获取当前的最小值的温度值，然后呢，我输出的这个时间戳呢，不要输出第一个时间的，也不要输出最小温度值的那个时间的，我输出什么呢？我要知道到目前为止对吧？最近时间为止最小的温度值是什么？那我要输出什么，最新的最大的那个时间处。这种情况下，我们到底应该呃用什么方法来做这个处理呢？这就是有有这样的一个呃，复杂需求的一个聚合的场景了啊，那所以对于这种场景而言，我们就不能用简单的这些滚动性和算子搞定了，那就得用更一般的聚合方式，那就是所谓的reduce了啊，这reduce其实整体来讲也非常的简单，大家可能知道，呃，就是之前我们做这个map操作的时候，其实它就是一个呃，相当于把这个数数据做规约，做做这个，呃，就相当于归集，其实就是一个聚合的过程嘛，就把很多个数据归集成一个结果，比方说求和啊，比方说这个最大最小，这不就是一个规约的过程吗？所以接下来更一般化的reduce，我们看一看怎么样去实现，好，那这里边我去定义一个呃。
01:38
Result stream啊，大家看我可以直接就在基于之前这个data stream基础上直接去做转换，跟这个h stream就没关系了啊，这里面的转换同样还是先做一个KBY对吧？啊，那我当前还是你既然是要做这个，按照不同的这个传感器温度去做分组嘛，那还是根据ID去做一个KBY分组，这里边把这个需求给大家写出来啊，我们当前需要输出，呃。
02:09
就是。当前最小的温度值，以及最大的时间戳，也就是最近对吧，最近的时间戳要用一般的这个聚合方式要用reduce啊，所以接下来KBY之后，诶，大家看到可以调用reduce方法。所以接下来我们调一个reduce，那这个reduce这就比较麻烦一点了啊，不像前面的那个some或者说next me那么简单，里边大家看要传一个什么，要传一个reduce function，大家还记得前面我们自定义source吗？自定义source的时候是ADD source里边要传一个source function，而现在如果是reduce的话，那里边要传一个reduce function。啊，那当然了，这个reduce它有这个重载的方法，还有另外一种实现是什么呢？啊，那就是拉姆达表达式了，这个大家更熟悉一点，对吧，反正是要传一个函数，那这里边呢，我写一个拉姆达表达式，大家注意啊，是两个参数的一个拉姆达表达式，它表示什么含义呢？这跟我们之前用用到的那个reduce是一样的啊，就是前边这里边就相当于是我们规约起来的那个状态，所以大家看我们说这个聚合肯定是有状态的，那它状态其实就在这儿吧，前面这个参数，第一个参数表示已经规约起来的那个结果，上次的那个结果放在下一次的第一个参数。
03:36
然后第二个参数表示当前处理的最新的这个数据，新的这个数据元素，然后呢，经过转换之后得到一个相同数据类型的啊，新的这个聚合结果，对吧？啊，这就是这样的一个表达啊，那我们就先给大家实现一个这个拉姆达表达式的写法吧，这个大家可能比较熟悉一点啊，呃，那我们前面两个元素嘛，呃，前面我们这个就叫做current state对吧，就是当前的这个result啊，一个state管它叫做状态，然后接下来呢，还有一个new data对吧？这两个参数传进来之后，最后我要得到一个什么东西呢？这个稍微的会有点儿麻烦，但是其实我们知道它的数据类型不变嘛。
04:22
当前的这个数据类型，你的数据我们当前都是那个sensor reading吧，大家知道啊，那接下来是不是这里边你聚合的这个结果，规约的结果也得是一个sensor reading啊啊，那前面的ID当然不变，那中间的这个。时间戳我们要用最新的那个时间戳，而后边的这个，呃，温度值呢，我们用最小的那个温度值，所以接下来要做的这个操作，其实就是包装成还是包装成一个s reading，然后就把对应的字段，每一个想要的东西填进去就完事了啊，那这里边我们可以用当前的这个状态里边的那个ID肯定还是一样的，对吧？因为是s reading嘛，分组之后ID都一样，然后呢，我就用new data的time stamp，最新的这个时间戳放在这里。
05:10
啊，但是前提假定我是认为所有按照时间戳从前到后排序输入输入进来的，对吧，这时间不能乱啊，然后后边呢，诶，它俩的那个温度值取一个最小值，我就用current state的temperature，然后调一个main方法，里边传进来的是new data的temperature，哎，这样的话就可以实现我们这样的一个功能了。啊，那后边这里边我可以把这个result STEM去做一个打印输出，大家可以看到就是最后得到的结果啊，呃，就是符合我们预期的这样的一个效果，来我们看一看运行的结果，哎，大家看还是啊，最小值一开始第一个数35.8，因为现在我们是全局并行度是一啊，按照顺序一个一个来啊，那后边呢，来了一个32的时候，你看这个后边啊，来了一个32这个数据的时候，它是206，所以是最小值32，然后当前时间206对吧，这个没问题，然后来了一个36.2的时候，我们说现在的最小值还是32.0，但是当前时间变成了208对吧？当前最新的这个时间戳放在这儿了。
06:21
那同样后边29.7来了之后，哎，更新时间说210，那最后呢，三十三十点九来了，最小值还是29.7，那这里边时间戳更新成213。这就是这个我们做了一个自定义的这个reduce这样的操作，那呃，当然了，这里边还有另外一种方式，就是你自己去实现一个reduce function对吧？在这里边比方说我给大家把这个做一个实现吧，比方说我管这个叫做my reduce function，就假如说我这里边不写这么一个拉姆达表达式的话，那这里面得传什么东西呢？哈，那大家想是不是就是可以啊，当然这个就是我得先把这个注掉，对吧？因为你这个reduce之后，数据结构已经不一样了，我去调这个，我要new一个my reduce function。
07:07
然后这里还报错，为什么你得去实现一个reduce function，这个才算数，对吧，Reduce function。好，我把这个类型大家注意引入，然后里边要有泛型，你这个reduce function处理的是什么数据呢？当然是sensor reading啊，里边大家看一下必须要实现的方法，就是一个reduce方法，对吧？然后这个reduce方法呢，两个参数同样都是三次reading的类型，VALUE1 value2，最后得到一个聚合之后的结果sensor reading，那再看这个跟我们实现的这个拉姆达表达式不是一模一样嘛，对吧，几乎就是一模一样，所以你这里边如果要去实现的话，怎么实现？哎，那不就是返回一个sensor reading，然后按照我们的标准，value1.id放在这儿不变对吧？然后VALUE2，最新的这个time，这个时间戳temperature sta放在这儿，那后边呢，是两者的temperature，取一个最小值放在这儿就完事了，对吧，所以诶写错了啊temperature。
08:12
所以说这个其实大家看到这用这个函数类啊，你去实现一个类的这种实现方式，其实它里边呢，你还是要重写这样的一个方法，跟我们直接写这个核心的这个reduce方法，写一个蓝格表达式放在这里本质是一模一样的啊，所以大家可以下来之后把这两种不同的方式再做一个测试啊，自己再好好的去练一练，呃，这就是这个弗林克里边给大家。就是比较常见的一种编程风格，后面我们还会频繁用到啊，就要不是你传一个拉姆表达式，要不这里边就直接去实现一个对应的这个啊，当然这里边这是一个接口了啊，就是我们自定义一个类，去实现一个要求的这个接口类型就可以了，这里边的本质都是一样的。然后我们再给大家简单的说一说，这里边数据转换的一个过程啊，前面大家说过啊，做了这个KBY之后呢，这里边得到的是一个K的stream，然后大家会发现，诶，你在这个大家看这个data stream里边啊，如果我去看他当前这个方法，我想要去找some找不到对吧，想要去找mean max啊，这里边是mean resources，这个显然不是我们做聚合的那个，对吧？啊，或者说这里边max，你看到这是什么set最大的那个并行度，这显然也不是做聚合的那个max，所以大家看到在data streamam本身的它下下面的这个API里边没有做聚合的方法。
09:37
但是呢，转换成KBY之后，转换成了K的stream，在这个里边大家看到有萨对吧，有max有mean，有mean by，有max by这些转换算子就都有了，然后我们还可以大概的看一看，还有哪些呢？好，大家看有reduce对吧？然后另外之前大家可能也也讲过，就是有这个for的方法对吧？像这个skyla的集合类型里边本身就有这个fo的折叠嘛，啊，它底层就有这个for的方法，那这里边这个fo的方法呢？啊，大家看到它。
10:07
这个被弃用了对吧？Depreated，所以以后的版本可能会直接把它移除掉，那推荐大家用什么呢？啊，当然就是推荐大家直接用这个reduce，一些普通的这些方法不就完事了吗？对吧？它它所能实现的这个方式啊，我们用一些更一般化的方法其实都能实现，那这是关于这个food，然后另外还有哎，这里边大家看到还有一个。更一般化的叫做aggregate，那当然了，在这个k stream里边的这个aggregate，它是一个私有的方法，就我们前面讲的，大家看这个max by对吧，讲的这个呃，Mean by，呃，各种各样的这些聚合的操作，它其实底层最后调用的都是一个私有的aggregate方法，这是真正的一个，就是我们真正做聚合的这个过程，调用的是这里啊，那那在这个调用的过程当中，大家就会想到它里边肯定就是需要有一个聚合状态的，对吧？啊，这个聚合状态我们保持在这里，这就实现了来一个数不停的叠加，不停的叠加这样一个过程。
11:13
这就是结合这个源码里边的一些内容，给大家再做一个讲解啊，下来之后大家要好好的把它做一个测试。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷Flink从入门到实战（scala版）

（25/137）

10分49秒

001.尚硅谷_Flink-Flink简介

500

19分45秒

002.尚硅谷_Flink-Flink应用场景

480

11分3秒

003.尚硅谷_Flink-流式处理的提出

370

15分16秒

004.尚硅谷_Flink-流式处理的演变

340

16分33秒

005.尚硅谷_Flink-Flink的特点

340

23分57秒

006.尚硅谷_Flink-批处理wordcount

520

20分13秒

007.尚硅谷_Flink-流处理wordcount

370

19分14秒

008.尚硅谷_Flink-流处理wordcount扩展测试和说明

410

26分46秒

009.尚硅谷_Flink-Flink集群部署

470

22分34秒

010.尚硅谷_Flink-提交Job

400

7分30秒

011.尚硅谷_Flink-命令行提交Job

350

12分50秒

012.尚硅谷_Flink-其它方式集群部署

360

8分35秒

013.尚硅谷_Flink-运行时架构_运行时组件

380

13分22秒

014.尚硅谷_Flink-运行时架构_作业提交流程

420

16分27秒

015.尚硅谷_Flink-运行时架构_任务调度原理（一）_并行度和slot

350

17分22秒

016.尚硅谷_Flink-运行时架构_任务调度原理（二）_slot共享

460

6分15秒

017.尚硅谷_Flink-运行时架构_任务调度原理（三）_slot共享示例

290

25分35秒

018.尚硅谷_Flink-运行时架构_任务调度原理（四）_执行图和任务链

290

12分20秒

019.尚硅谷_Flink-运行时架构_任务调度原理（五）_自定义任务调度规则

340

16分18秒

020.尚硅谷_Flink-流处理API_Source（一）_从集合和文件读取数据

380

21分32秒

021.尚硅谷_Flink-流处理API_Source（二）_从Kafka读取数据

430

24分49秒

022.尚硅谷_Flink-流处理API_Source（三）_自定义Source

410

6分49秒

023.尚硅谷_Flink-流处理API_Transform（一）_简单转换算子

320

19分15秒

024.尚硅谷_Flink-流处理API_Transform（二）_简单分组聚合

380

11分20秒

025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合

320

12分23秒

026.尚硅谷_Flink-流处理API_Transform（四）_分流操作

350

19分54秒

027.尚硅谷_Flink-流处理API_Transform（五）_合流操作

290

9分39秒

028.尚硅谷_Flink-流处理API_Flink支持的数据类型

420

19分40秒

029.尚硅谷_Flink-流处理API_函数类和富函数类

280

18分54秒

030.尚硅谷_Flink-流处理API_Sink（一）_文件

410

10分44秒

031.尚硅谷_Flink-流处理API_Sink（二）_Kafka

430

18分29秒

032.尚硅谷_Flink-流处理API_Sink（三）_Redis

360

16分42秒

033.尚硅谷_Flink-流处理API_Sink（四）_ElasticSearch

350

17分47秒

034.尚硅谷_Flink-流处理API_Sink（五）_MySQL

480

7分21秒

035.尚硅谷_Flink-流处理API_Window API_窗口概念

360

10分12秒

036.尚硅谷_Flink-流处理API_Window API_窗口类型

330

27分16秒

037.尚硅谷_Flink-流处理API_Window API_窗口分配器

450

20分59秒

038.尚硅谷_Flink-流处理API_Window API_窗口函数及其它可选API

410

15分5秒

039.尚硅谷_Flink-流处理API_Window API_窗口计算测试

270

17分56秒

040.尚硅谷_Flink-时间语义

300

4分32秒

041.尚硅谷_Flink-时间语义的设置

350

19分5秒

042.尚硅谷_Flink-Watermark概念

370

15分56秒

043.尚硅谷_Flink-Watermark原理和特点

320

8分7秒

044.尚硅谷_Flink-Watermark传递

260

16分32秒

045.尚硅谷_Flink-Watermark代码中引入

290

7分8秒

046.尚硅谷_Flink-自定义Watermark生成机制

290

16分10秒

047.尚硅谷_Flink-事件时间语义下的窗口测试

360

9分20秒

048.尚硅谷_Flink-窗口起始点的确定

360

8分7秒

049.尚硅谷_Flink-状态管理（一）_状态的概念

400

15分13秒

050.尚硅谷_Flink-状态管理（二）_算子状态和键控状态

290

27分24秒

051.尚硅谷_Flink-状态管理（三）_状态在代码中的定义和使用

330

17分14秒

052.尚硅谷_Flink-状态编程示例（一）

380

17分29秒

053.尚硅谷_Flink-状态编程示例（二）

410

23分23秒

054.尚硅谷_Flink-ProcessFuntion_基本概念和使用

360

32分49秒

055.尚硅谷_Flink-ProcessFuntion_定时器应用示例

320

9分44秒

056.尚硅谷_Flink-ProcessFuntion_侧输出流应用示例

360

15分35秒

057.尚硅谷_Flink-状态后端

390

13分30秒

058.尚硅谷_Flink-容错机制_检查点概念和原理

280

25分45秒

059.尚硅谷_Flink-容错机制_检查点算法

380

26分28秒

060.尚硅谷_Flink-容错机制_checkpoint配置

350

8分20秒

061.尚硅谷_Flink-容错机制_重启策略配置

440

7分31秒

062.尚硅谷_Flink-保存点

460

10分45秒

063.尚硅谷_Flink-状态一致性_基本概念

400

8分42秒

064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证

390

23分34秒

065.尚硅谷_Flink-状态一致性_幂等写入和事务写入

410

18分19秒

066.尚硅谷_Flink-状态一致性_Flink与Kafka连接的状态一致性

400

22分2秒

067.尚硅谷_Flink-Table API和Flink SQL_基本概念和示例程序

400

9分21秒

068.尚硅谷_Flink-Table API和Flink SQL_基本程序结构

340

15分42秒

069.尚硅谷_Flink-Table API和Flink SQL_表执行环境

360

19分13秒

070.尚硅谷_Flink-Table API和Flink SQL_表的概念和从文件读取数据

410

9分28秒

071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据

340

11分3秒

072.尚硅谷_Flink-Table API和Flink SQL_表的查询转换

390

8分24秒

073.尚硅谷_Flink-Table API和Flink SQL_DataStream和表的转换

400

25分13秒

074.尚硅谷_Flink-Table API和Flink SQL_输出到文件

320

10分50秒

075.尚硅谷_Flink-Table API和Flink SQL_更新模式

310

17分40秒

076.尚硅谷_Flink-Table API和Flink SQL_Kafka管道测试

380

18分17秒

077.尚硅谷_Flink-Table API和Flink SQL_输出到ES

340

8分8秒

078.尚硅谷_Flink-Table API和Flink SQL_输出到MySQL

390

11分33秒

079.尚硅谷_Flink-Table API和Flink SQL_表转换成流

290

7分6秒

080.尚硅谷_Flink-Table API和Flink SQL_流处理和SQL查询的不同

340

12分23秒

081.尚硅谷_Flink-Table API和Flink SQL_动态表和持续查询

430

12分49秒

082.尚硅谷_Flink-Table API和Flink SQL_持续查询示例具体过程

410

20分15秒

083.尚硅谷_Flink-Table API和Flink SQL_时间特性（一）_处理时间

340

14分15秒

084.尚硅谷_Flink-Table API和Flink SQL_时间特性（二）_事件时间

330

13分10秒

085.尚硅谷_Flink-Table API和Flink SQL_窗口（一）_分组窗口

440

18分42秒

086.尚硅谷_Flink-Table API和Flink SQL_窗口（二）_分组窗口测试

400

11分57秒

087.尚硅谷_Flink-Table API和Flink SQL_窗口（三）_Over窗口

380

13分1秒

088.尚硅谷_Flink-Table API和Flink SQL_窗口（四）_Over窗口测试

340

11分3秒

089.尚硅谷_Flink-Table API和Flink SQL_函数（一）_系统内置函数

310

14分38秒

090.尚硅谷_Flink-Table API和Flink SQL_函数（二）_UDF函数_标量函数

430

17分18秒

091.尚硅谷_Flink-Table API和Flink SQL_函数（三）_UDF函数_表函数

350

26分57秒

092.尚硅谷_Flink-Table API和Flink SQL_函数（四）_UDF函数_聚合函数

410

27分55秒

093.尚硅谷_Flink-Table API和Flink SQL_函数（五）_UDF函数_表聚合函数

370

8分11秒

094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型

350

15分26秒

095.尚硅谷_Flink项目-电商用户行为分析_用户行为分析应用场景

370

9分11秒

096.尚硅谷_Flink项目-电商用户行为分析_模块设计和数据分析

440

21分2秒

097.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（一）

350

9分6秒

098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）

400

10分2秒

099.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_其它需求

400

100

10分20秒

100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建

380

101

27分53秒

101.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（一）_窗口聚合

360

102

27分13秒

102.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（二）_排序统计输出

390

103

20分50秒

103.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（三）_从Kafka消费数据测试

450

104

10分2秒

104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试

480

105

28分42秒

105.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（五）_Table API和SQL实现

350

106

26分5秒

106.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（一）_开窗聚合统计

250

107

9分46秒

107.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（二）_统计结果排序输出

350

108

21分3秒

108.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（三）_乱序数据的处理

420

109

21分40秒

109.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（四）_保证状态更新结果正确

390

110

20分38秒

110.尚硅谷_Flink项目-电商用户行为分析_PV统计（一）_基本实现

420

111

19分21秒

111.尚硅谷_Flink项目-电商用户行为分析_PV统计（二）_数据并行的优化

320

112

15分27秒

112.尚硅谷_Flink项目-电商用户行为分析_UV统计（一）_基本实现

430

113

30分47秒

113.尚硅谷_Flink项目-电商用户行为分析_UV统计（二）_布隆过滤器去重思路和程序架构

350

114

9分11秒

114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现

340

115

23分31秒

115.尚硅谷_Flink项目-电商用户行为分析_UV统计（四）_UV去重的布隆过滤器实现

300

116

17分2秒

116.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（一）_自定义数据源

480

117

20分43秒

117.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（二）_开窗聚合统计输出

320

118

19分18秒

118.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（一）_基本需求实现

310

119

14分27秒

119.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（二）_刷单行为过滤思路和整体框架

380

120

23分19秒

120.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（三）_刷单行为过滤代码实现

360

121

18分16秒

121.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（一）_实现思路和代码框架

400

122

18分20秒

122.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（二）_具体代码实现

350

123

18分18秒

123.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（三）_代码改进

350

124

30分32秒

124.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（四）_CEP代码实现

330

125

12分22秒

125.尚硅谷_Flink项目-电商用户行为分析_CEP简介（一）_CEP介绍及Pattern API整体概念

390

126

12分40秒

126.尚硅谷_Flink项目-电商用户行为分析_CEP简介（二）_个体模式

300

127

10分22秒

127.尚硅谷_Flink项目-电商用户行为分析_CEP简介（三）_模式序列

390

128

9分49秒

128.尚硅谷_Flink项目-电商用户行为分析_CEP简介（四）_模式的检测和事件处理

380

129

19分49秒

129.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（一）_实现思路和程序架构

340

130

17分28秒

130.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（二）_CEP具体代码实现

440

131

6分41秒

131.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（三）_流式输入数据测试

390

132

32分19秒

132.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（四）_ProcessFunction代码实现

380

133

13分48秒

133.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（一）_需求分析和整体架构

350

134

22分23秒

134.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（二）_合流代码实现

380

135

12分55秒

135.尚硅谷_Flink项目-电商用户行为分析_Join API（一）_Window Join

380

136

9分46秒

136.尚硅谷_Flink项目-电商用户行为分析_Join API（二）_Interval Join

240

137

9分21秒

137.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（三）_Join代码实现

330

025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐