文章/答案/技术大牛

发布

首页视频098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）

098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）

2022-12-022022-12-02 16:02:28播放40

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷Flink从入门到实战（scala版）/视频/098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们现在拿到这个窗口聚合的结果，接下来大家来看一看里边到底是什么东西啊，我们知道里边拿到的就是item view count对吧？所以其实是针对之前我们分组的数据要做这样的一个聚合结果输出，那大家看前面这两条数据，这就是到11点的时候输出的两条数据，对吧？诶，前面这是item ID是一，哎，我统计出来有四个item ID，二有三个他们，诶对应的这个窗口呢，都是十点到11点，当然本来我们那个里边包装好的是一个window and，这里为了让大家看的更加清晰，我们把这个窗口本身表示的这个呃，时间范围都写出来了啊，这个本身含义是一样的，那然后呢，诶，大家会想到这是到11点的时候，同时几乎同时EE输出了这样两条数据，对吧，然后是11.05分到11:05的时候，他会突然EE输出这样两条数据对吧，这都是10.05~11.05的数据，那后边我们如果要排。
01:00
去的话你怎么排呢？难道说你会把之前所有的数据都放在一起去排队吗？诶，你到这个11:05的时候，你说排名第一的是这个十点到11点窗口内的这四个吗？这这是排名第一的吗？当然不能这么干对吧？哎，我们当然要的是当前时间窗口内这个排序才是有效的，所以接下来我应该得做一个什么操作呢？诶大家大家注意啊，这里边最简单的一个操作就是再按照window and去做一个分组不就完了吗？对吧？啊，这样一分组的话，那就是每一个窗口输出的结果分到一个组里边去做排序，你跟自己排序对吧？你不要跟之前那个历史上，呃，其他别的窗口输出的那个数据去排序，这样不就好了吗？哎，所以这样的话，我们就可以直观的把它们都区分开了，另外还有一个就是大家可能会想到我，我这里边要做排序的时候，是不是，其实这就涉及到一个什么，我。
02:00
还得去把每当前窗口里边输出的每一个商品对应的那个统计值都先保存下来，最后才能排队呀，对吧？哎，你不能说是之前的那个数据，这个到了之后我就呃，就是直接就排嘛，因为你现在来了一个数据，你就说他是排名第一嘛，那肯定不知道啊，那肯定是不停的来，对吧，到后边我们才会收集起来，才会做一个排排序，当然这就又涉及到呃另外的两种思路，一种就是我们前面说的，你可以来一个，就相当于我们要保持一个状态，保持一个列表，对吧？啊，这个列表里边呢，来一个就插入一个，来一个就插入一个，然后每次就做一个插入排序啊，这是我们可以自己去做的一个操作。那另外还有一个非常简单易行的方法是什么呢？因为大家想到他们几乎就是同时，后边我们就会收到对不对，因为它本身就是同时这个，呃，输出的一个统计结果嘛，十一十一点零五分这两个数据就应该几乎同时。
03:00
同时输出同时收集到啊，那所以接下来我其实怎么样呢？我只要稍微比方说我稍微等他一点点，就是比方说我等它一秒钟，那是不是很快这些数据就都都到齐了啊，然后我就把当前的这个数据都统一输出不就完了吗？啊对吧，而且前面我做过分组了，我也不用，我也不用再去摘，按照他的那个时间，呃，到底是不是我当前要要统计的这个组，对吧，我也不用再去宅了，因为已经做过K了嘛啊所以接下来这个操作就非常非常的容易，那当然了，我们这里边说的是我等一秒钟，其实大家知道根本不用等一秒钟啊，因为理论上来讲，我们这里就是同时输出嘛，你等个100毫秒对吧？啊或甚至你等个一毫秒是不是都可以啊啊，这完全是没有问题的啊，所以接下来大家就看一看后续的操作到底应该怎么做，那首先就是KBY，对吧？根据window end进行一个分组，我只统计自己当前这个组。
04:00
里边所有的数据去排序就可以了啊，那然后接下来怎么办呢？接下来当然得定义一个状态了，呃，定义一个状态，然后还要去，呃，就是把所有的状态保存起来，还要去干什么呢？等到他们全收集齐了之后，我们说就是一秒或者100毫秒对吧？或者一毫秒之后收集齐了，然后输出它最终的排序结果啊，所以这个过程大家想想是不是还要注册一个定时器呀，对吧？哎，就是还要做这样一个等待和定时触发的操作，那既要做状态编程，又要定义定时器，我们该用什么了？大招，Process方式对吧？大家回忆一下之前我们讲过的那个最底层的API，所有事情都能做的，那那那个API啊，Process方式，所以接下来我们其实要中用这个process function来做这个最终的排序啊，那大家看一下我们这状态编程的思路，那当然就是。
05:00
分组之后的这个数据啊，根据window分组了，每一个组里边每一个window对应的数据，我们呢，都定义一个list state，那大家想这个list set当然是一个kid state对吧？根据根据K来保存的state嘛，哎，这还有这样一个好处，就是我这里边就直接可以用kid state了，它的这个类型比较丰富，哎，那这里边当然里边存着的就是当前所有的那个item view count，对吧，你来一个count，我存进去一个，来一个存进去一个，最后呢，就是收集齐了排序不就完了吗？这这里边不就是个列表吗？哎，我直接把它做个排序就完事了，后边要做的这个排序操作，哎，那大家想到这个既然是要用到了定时器，那就得用一个process function，而且我们还是做过分组之后的，对吧，还定义了k state这样的一个一个process function，那当然就是一个kid的process function啊，啊，所以当前的这个kid process function里边，我们就是针对当前。
06:00
每一个K，也就是每一个窗口里边的所有数据，每来一个就添加到当前的list state里边去，对吧？然后呢，我就注册一个，呃，比方说窗口结束时间再过一毫秒或者再过100毫秒，我触发一个计计算，触发一个排序输出操作，这样的话就是最简单的实现啊啊，那后边我们可以当然了，这里面还涉及到这个key process方式里边的一些，呃，一些方法和一些就是生命周期对吧？大还记得比方说open生命周期，大家还记得吧，可以做初始化对吧？呃，我们可以去定义状态，在这里边定义状态，然后那个process element呢，这是每来一个元素都会调用到的那个方法，另外还有一个on timer，那就是定时器了，哎，我们要做的那个排序操作得得在这个里边做，对吧？排序输出最后的核心其实都在这里边的，好，然后整体的这个流程，如果大家再看一眼的话，那就是open生命周期的。
07:00
时候，哎，我们创建一个listen state，对吧？定义一个状态用来存储数据，然后接下来呢，哎，是每来一个数据都会调用process element，那我们就把它直接添加到这里边来哦，大家如果想做那个增量式的插入排序的话，你也可以每来一个就直接把这里边就排个序，对吧？这个也是可以的，那最后on timer出发的时候就相当于不用做排序了，直接输出就完了啊，这也是也是OK的啊，就相当于一个增量的处理的方式，呃，但我们这里边因为本身list的底层就有排序方法嘛，我省得自己再去做这个调整了，那我怎么样呢？这里边就只负责添加，添加完了之后注册一个定时器，哎，你比方说我加100毫秒对吧，就window and窗口的结束时间过100毫秒，那大家想肯定你之前该来的都到齐了对不对，哎，就是这主要是用来区别什么呢？就是我这里边在输出这个统计结果的时候，尽管他们都应该是11:05输出的。
08:00
但是大家想，既然我是流式输出，就比方说你直接打印在我们控制台里边，是不是他俩肯定还会有先后啊，对吧？啊，至于谁先谁后这个这个说不准，但是他俩肯定是有一个先后顺序的，所以说里边我到底是接收到谁的时候，我就开始开始这个做排序呢？那这就不知道了呀，我也不知道这里边这个窗口里面到底有几个数据输出啊，没有这个结束的标志，对吧，那怎么样呢？那我就只有等时间过了11:05这个时间点的时候，你到11:05:01零一百毫秒，是不是肯定这个时间点过了，过了是不是前面的这个数据肯定输出了啊，所以主要是这样一个思路啊，啊，特别是我们现在很可能用的是事件时间对吧，那就是water mark只要过去了，那就所有的这个就都到齐了啊，那这里边主要就是做了这样一个操作定义，这个到它触发的时候，我们就把这个list state里边所有数据拿出来做一个排序，去前几名输出。
09:00
这就完成了，这就是一个实时热门商品统计啊，完整的处理流程。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷Flink从入门到实战（scala版）

（98/137）

10分49秒

001.尚硅谷_Flink-Flink简介

510

19分45秒

002.尚硅谷_Flink-Flink应用场景

480

11分3秒

003.尚硅谷_Flink-流式处理的提出

380

15分16秒

004.尚硅谷_Flink-流式处理的演变

350

16分33秒

005.尚硅谷_Flink-Flink的特点

340

23分57秒

006.尚硅谷_Flink-批处理wordcount

520

20分13秒

007.尚硅谷_Flink-流处理wordcount

380

19分14秒

008.尚硅谷_Flink-流处理wordcount扩展测试和说明

410

26分46秒

009.尚硅谷_Flink-Flink集群部署

470

22分34秒

010.尚硅谷_Flink-提交Job

400

7分30秒

011.尚硅谷_Flink-命令行提交Job

350

12分50秒

012.尚硅谷_Flink-其它方式集群部署

360

8分35秒

013.尚硅谷_Flink-运行时架构_运行时组件

390

13分22秒

014.尚硅谷_Flink-运行时架构_作业提交流程

430

16分27秒

015.尚硅谷_Flink-运行时架构_任务调度原理（一）_并行度和slot

360

17分22秒

016.尚硅谷_Flink-运行时架构_任务调度原理（二）_slot共享

470

6分15秒

017.尚硅谷_Flink-运行时架构_任务调度原理（三）_slot共享示例

300

25分35秒

018.尚硅谷_Flink-运行时架构_任务调度原理（四）_执行图和任务链

310

12分20秒

019.尚硅谷_Flink-运行时架构_任务调度原理（五）_自定义任务调度规则

350

16分18秒

020.尚硅谷_Flink-流处理API_Source（一）_从集合和文件读取数据

380

21分32秒

021.尚硅谷_Flink-流处理API_Source（二）_从Kafka读取数据

430

24分49秒

022.尚硅谷_Flink-流处理API_Source（三）_自定义Source

410

6分49秒

023.尚硅谷_Flink-流处理API_Transform（一）_简单转换算子

320

19分15秒

024.尚硅谷_Flink-流处理API_Transform（二）_简单分组聚合

380

11分20秒

025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合

320

12分23秒

026.尚硅谷_Flink-流处理API_Transform（四）_分流操作

350

19分54秒

027.尚硅谷_Flink-流处理API_Transform（五）_合流操作

290

9分39秒

028.尚硅谷_Flink-流处理API_Flink支持的数据类型

420

19分40秒

029.尚硅谷_Flink-流处理API_函数类和富函数类

280

18分54秒

030.尚硅谷_Flink-流处理API_Sink（一）_文件

410

10分44秒

031.尚硅谷_Flink-流处理API_Sink（二）_Kafka

430

18分29秒

032.尚硅谷_Flink-流处理API_Sink（三）_Redis

360

16分42秒

033.尚硅谷_Flink-流处理API_Sink（四）_ElasticSearch

350

17分47秒

034.尚硅谷_Flink-流处理API_Sink（五）_MySQL

480

7分21秒

035.尚硅谷_Flink-流处理API_Window API_窗口概念

360

10分12秒

036.尚硅谷_Flink-流处理API_Window API_窗口类型

330

27分16秒

037.尚硅谷_Flink-流处理API_Window API_窗口分配器

450

20分59秒

038.尚硅谷_Flink-流处理API_Window API_窗口函数及其它可选API

410

15分5秒

039.尚硅谷_Flink-流处理API_Window API_窗口计算测试

270

17分56秒

040.尚硅谷_Flink-时间语义

300

4分32秒

041.尚硅谷_Flink-时间语义的设置

350

19分5秒

042.尚硅谷_Flink-Watermark概念

370

15分56秒

043.尚硅谷_Flink-Watermark原理和特点

320

8分7秒

044.尚硅谷_Flink-Watermark传递

260

16分32秒

045.尚硅谷_Flink-Watermark代码中引入

290

7分8秒

046.尚硅谷_Flink-自定义Watermark生成机制

290

16分10秒

047.尚硅谷_Flink-事件时间语义下的窗口测试

360

9分20秒

048.尚硅谷_Flink-窗口起始点的确定

360

8分7秒

049.尚硅谷_Flink-状态管理（一）_状态的概念

400

15分13秒

050.尚硅谷_Flink-状态管理（二）_算子状态和键控状态

290

27分24秒

051.尚硅谷_Flink-状态管理（三）_状态在代码中的定义和使用

340

17分14秒

052.尚硅谷_Flink-状态编程示例（一）

380

17分29秒

053.尚硅谷_Flink-状态编程示例（二）

410

23分23秒

054.尚硅谷_Flink-ProcessFuntion_基本概念和使用

360

32分49秒

055.尚硅谷_Flink-ProcessFuntion_定时器应用示例

320

9分44秒

056.尚硅谷_Flink-ProcessFuntion_侧输出流应用示例

360

15分35秒

057.尚硅谷_Flink-状态后端

390

13分30秒

058.尚硅谷_Flink-容错机制_检查点概念和原理

280

25分45秒

059.尚硅谷_Flink-容错机制_检查点算法

380

26分28秒

060.尚硅谷_Flink-容错机制_checkpoint配置

350

8分20秒

061.尚硅谷_Flink-容错机制_重启策略配置

440

7分31秒

062.尚硅谷_Flink-保存点

460

10分45秒

063.尚硅谷_Flink-状态一致性_基本概念

400

8分42秒

064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证

390

23分34秒

065.尚硅谷_Flink-状态一致性_幂等写入和事务写入

410

18分19秒

066.尚硅谷_Flink-状态一致性_Flink与Kafka连接的状态一致性

400

22分2秒

067.尚硅谷_Flink-Table API和Flink SQL_基本概念和示例程序

400

9分21秒

068.尚硅谷_Flink-Table API和Flink SQL_基本程序结构

340

15分42秒

069.尚硅谷_Flink-Table API和Flink SQL_表执行环境

360

19分13秒

070.尚硅谷_Flink-Table API和Flink SQL_表的概念和从文件读取数据

410

9分28秒

071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据

340

11分3秒

072.尚硅谷_Flink-Table API和Flink SQL_表的查询转换

390

8分24秒

073.尚硅谷_Flink-Table API和Flink SQL_DataStream和表的转换

400

25分13秒

074.尚硅谷_Flink-Table API和Flink SQL_输出到文件

320

10分50秒

075.尚硅谷_Flink-Table API和Flink SQL_更新模式

310

17分40秒

076.尚硅谷_Flink-Table API和Flink SQL_Kafka管道测试

380

18分17秒

077.尚硅谷_Flink-Table API和Flink SQL_输出到ES

340

8分8秒

078.尚硅谷_Flink-Table API和Flink SQL_输出到MySQL

390

11分33秒

079.尚硅谷_Flink-Table API和Flink SQL_表转换成流

290

7分6秒

080.尚硅谷_Flink-Table API和Flink SQL_流处理和SQL查询的不同

340

12分23秒

081.尚硅谷_Flink-Table API和Flink SQL_动态表和持续查询

430

12分49秒

082.尚硅谷_Flink-Table API和Flink SQL_持续查询示例具体过程

410

20分15秒

083.尚硅谷_Flink-Table API和Flink SQL_时间特性（一）_处理时间

340

14分15秒

084.尚硅谷_Flink-Table API和Flink SQL_时间特性（二）_事件时间

330

13分10秒

085.尚硅谷_Flink-Table API和Flink SQL_窗口（一）_分组窗口

440

18分42秒

086.尚硅谷_Flink-Table API和Flink SQL_窗口（二）_分组窗口测试

400

11分57秒

087.尚硅谷_Flink-Table API和Flink SQL_窗口（三）_Over窗口

380

13分1秒

088.尚硅谷_Flink-Table API和Flink SQL_窗口（四）_Over窗口测试

340

11分3秒

089.尚硅谷_Flink-Table API和Flink SQL_函数（一）_系统内置函数

310

14分38秒

090.尚硅谷_Flink-Table API和Flink SQL_函数（二）_UDF函数_标量函数

430

17分18秒

091.尚硅谷_Flink-Table API和Flink SQL_函数（三）_UDF函数_表函数

350

26分57秒

092.尚硅谷_Flink-Table API和Flink SQL_函数（四）_UDF函数_聚合函数

410

27分55秒

093.尚硅谷_Flink-Table API和Flink SQL_函数（五）_UDF函数_表聚合函数

370

8分11秒

094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型

350

15分26秒

095.尚硅谷_Flink项目-电商用户行为分析_用户行为分析应用场景

370

9分11秒

096.尚硅谷_Flink项目-电商用户行为分析_模块设计和数据分析

440

21分2秒

097.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（一）

350

9分6秒

098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）

400

10分2秒

099.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_其它需求

400

100

10分20秒

100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建

380

101

27分53秒

101.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（一）_窗口聚合

360

102

27分13秒

102.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（二）_排序统计输出

390

103

20分50秒

103.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（三）_从Kafka消费数据测试

450

104

10分2秒

104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试

480

105

28分42秒

105.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（五）_Table API和SQL实现

350

106

26分5秒

106.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（一）_开窗聚合统计

250

107

9分46秒

107.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（二）_统计结果排序输出

350

108

21分3秒

108.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（三）_乱序数据的处理

420

109

21分40秒

109.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（四）_保证状态更新结果正确

390

110

20分38秒

110.尚硅谷_Flink项目-电商用户行为分析_PV统计（一）_基本实现

430

111

19分21秒

111.尚硅谷_Flink项目-电商用户行为分析_PV统计（二）_数据并行的优化

320

112

15分27秒

112.尚硅谷_Flink项目-电商用户行为分析_UV统计（一）_基本实现

430

113

30分47秒

113.尚硅谷_Flink项目-电商用户行为分析_UV统计（二）_布隆过滤器去重思路和程序架构

350

114

9分11秒

114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现

340

115

23分31秒

115.尚硅谷_Flink项目-电商用户行为分析_UV统计（四）_UV去重的布隆过滤器实现

300

116

17分2秒

116.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（一）_自定义数据源

480

117

20分43秒

117.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（二）_开窗聚合统计输出

320

118

19分18秒

118.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（一）_基本需求实现

310

119

14分27秒

119.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（二）_刷单行为过滤思路和整体框架

380

120

23分19秒

120.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（三）_刷单行为过滤代码实现

360

121

18分16秒

121.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（一）_实现思路和代码框架

400

122

18分20秒

122.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（二）_具体代码实现

350

123

18分18秒

123.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（三）_代码改进

350

124

30分32秒

124.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（四）_CEP代码实现

330

125

12分22秒

125.尚硅谷_Flink项目-电商用户行为分析_CEP简介（一）_CEP介绍及Pattern API整体概念

390

126

12分40秒

126.尚硅谷_Flink项目-电商用户行为分析_CEP简介（二）_个体模式

300

127

10分22秒

127.尚硅谷_Flink项目-电商用户行为分析_CEP简介（三）_模式序列

390

128

9分49秒

128.尚硅谷_Flink项目-电商用户行为分析_CEP简介（四）_模式的检测和事件处理

380

129

19分49秒

129.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（一）_实现思路和程序架构

340

130

17分28秒

130.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（二）_CEP具体代码实现

440

131

6分41秒

131.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（三）_流式输入数据测试

390

132

32分19秒

132.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（四）_ProcessFunction代码实现

380

133

13分48秒

133.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（一）_需求分析和整体架构

350

134

22分23秒

134.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（二）_合流代码实现

380

135

12分55秒

135.尚硅谷_Flink项目-电商用户行为分析_Join API（一）_Window Join

380

136

9分46秒

136.尚硅谷_Flink项目-电商用户行为分析_Join API（二）_Interval Join

240

137

9分21秒

137.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（三）_Join代码实现

330

098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐