文章/答案/技术大牛

发布

首页视频094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型

094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型

2022-12-022022-12-02 16:02:28播放35

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷Flink从入门到实战（scala版）/视频/094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
接下来我们就要开始理论联系实际，把刚刚学过的flink的理论方面的知识应用在项目应用当中啊，那这里边大家看到我们想要做的这个项目呢，基于flink的刚刚学过的啊，然后做一个电商用户行为数据分析，那这个首先我们知道了背景就是电商电商平台，然后我们想要做的呢，数据来源是它的用户行为，用户行为的数据，然后我们要对它进行分析，那分析到底要分析哪些指标，到底有哪些需求呢？接下来我们给大家把这个项目就整体做一个梳理和讲解啊，那首先我们看一下这节课的主要内容，首先我们先简短的回顾一下啊，批处理和流处理到底有哪些区别对吧？啊，先大概的想一想，我们现在为什么要用flink做这样的一个项目，然后呢，呃，就给大家说一说这个电商用户行为分析里边主要要分析哪些。
01:00
东西啊，我们接下来说一下当前我们这个项目到底又要做哪些具体的内容对吧？提取哪些指标，然后后面呢，给大家解析一下数据源，最后就是具体的项目拈划分啊，然后大概的一个业务逻辑也可以带着大家来梳理一下，首先就是批处理和流处理的一个回顾了啊，那这一部分内容呢，其实之前我们也都已经非常的熟悉啊啊就是对于这一部分内容大家想一下，呃，左边这样一划分啊，这几个logo大家都很熟悉，左边这就是哈杜Spark，可以认为就是我们当前这个批处理的代表作，对吧？啊那Spark呢，就相当于是现在这个可以认为是批处理的一个巅峰了啊，就是大家基本上一说起来大数据应用啊，你要做数仓对吧，要做这个呃，离线的一些分析处理，基本上我们认为都是要用到这个Spark的啊，那右边的这个SPA和。
02:00
Pink呢，那就是流处理的代表storm，我们说基本上它是一个流处理的先锋，先锋之作啊，就一开始第一代流处理就是以storm为代表，而后面呢，我们会发现在变化啊，就是我们在这个处理进行这个大规模数据实时处理的过程当中发现啊，第一代流处理以为代表的它的这个实时性是够够好，但是呢，呃，这个吞吐量不够大，处理的数据量不行，然后另外呢，就是对于这种乱序数据啊，要求这个时间正确又达达不到保证，那所以说后面基本上这个storm呢，没有得到特别广泛的应用，而后面更加广泛应用的是所谓的这个拉姆达架构，对吧？呃，就是可能storm门作为拉姆达架构的一部分，然后参与到里面计算的就是一分成两个系统，然后同时实现我们的需求，一部分呢是快速的流处理，另外一部分是批处理，保证结果正确。而我们说现。
03:00
在这个flink就实现了统一对吧？啊，就可以实现一个低延迟高吞吐的实时流处理系统，而且呢，还有不同的时间语义，能够处理乱序数据，保证结果的正确性，另外还有这个非常完善的这一套状态管理机制和容错机制，对吧，就是用这个checkpoint，最后可以实现非常的状态一致性的保证啊，这是关于我们之前讲到的批处理和流处理的一个区别啊，那具体来再来回顾一下的话，批处理简单来讲，它主要应用场景应该是操作大容量的静态数据集，对吧？啊，所以大家可以认为就是说批处理它的特点就是说数据都已经放在这儿了，都已经到位了，然后我们要做的计算呢，呃，就是数据都放在这儿，然后我把数据都读进来开始算，算完了之后，最终返回一个结果就退出，对吧，就是完整的这个计算流程得到一个结果。
04:00
这就是批处理的概念，大家最熟悉的就是这种方式，它也比较符合我们这个流程控制啊，就是写一段这个流程控制代码，也符合大家的这个直觉，对吧，就一步一步做操作嘛，做完了之后返回退出啊，那它的特点就是处理的数据，数据集是有界的，对吧，而是提前已经放在那儿的嘛，大小已经是固定的，不会在后面再会继续来数据了。另外还有一个呢，就是持久化，就数据一般情况我们都是把它持久化存储，放在这个持久存储空间里面的，另外还有一个是大量啊，就是大家发现批处理啊，对于那种极为海量的数据，就是像有一些应用场景里面，大家可能知道那数据量可能达到这个几十T几百T对吧？啊，就是非常大量的的这个数据，你如果要是说直接要对它进行处理的话，那批处理就是唯一的方法，因为你要做流处理，而且这个数据是都已经在这了嘛，对吧，你如果要做流处理的话。
05:00
一个一个去去处理这个读取的这个操作本身耗费的时间就会比较多，而且这个数据就是现成的呀，就已经在这儿了，那可能我们只能用这个批处理的方式去处理这样的海量数据，所以大家发现就是海Spark还是有它经典的这种应用场景的啊啊那另外我们讲这个流处理，流处理一般情况它的特点就是说随时来的数据来一个处理一个对吧？啊，它的特点就是说随时进行计算，然后呢，你要处理的这个数据可以是完全就是我们说无，无休无止，无边无尽的对吧？啊，就是一个无界无界的流，无界的数据，那但是呢，它的特点是同一时间我们其实只能处理一条数据，对吧？啊，就是当前的这个任务，你只能是一条一条来，一条一条处理，那么不同的这个数据记录之间呢，只维持少量的状态，也就是说我们flink就是一个典型的有状态的流失。
06:00
预算，而且我们会发现它的特点是处理工作基于事件对吧，就是任务已经分配好了，启动起来之后放在那儿了，现在呢，数据是没准备好的，所以你看那个之前我们那个，呃，但这个做批处理的时候啊，Spark哈杜普，它是数据都已经放在那儿了，然后接下来我们任务按照这个就划分stage，对吧，一步一步去做操作，而我们现在这个流处理呢，是任务都已经固定放在那儿了，就等数据来，就是铁打的营盘流水的兵，对吧，类似于这样的一个状态，所以说它是基于视线触发的，除非我们明确的把它看走掉，停止掉，否则没有尽头，无休无止。那另外一个就是实时性会比较好，对吧，来了数据之后，它处理的结果历史立刻就会输出，立刻就可可用，而且呢，新的数据来了之后，之前的处理的结果还会更新，这是这个流处理的特点啊，那所以现在我们选用了flink去做这样的。
07:00
的一个项目选型，我们项目想选型用了flink，也就代表我们主要考察的需要想要用到的这个特性偏重于哪一方面呢？哎，那当然我们就是想要更好的实时性对吧？啊大家想你如果要是说这个数据它直接就已经，呃，就是固定的这个大小就已经放在那儿的话，然后我要求这个实时性还不高，对吧？我我慢慢算就可以，那当然这个我们用离线的这个批处理就可以了啊那如果说现在我的这个数据是不停的来对吧，无休无止，无止的不停的来的数据，而且我又要非踌的得到一个处理结果的话，这种场景就非常适合做流处理对吧？啊那大家想想我们现在这个项目项目场景啊，是做用户的行为分析，那是不是用户的行为数据应该就是连续不断的产生，无休无止对吧，而且很可能我们想要的这些统计。
08:00
计算的这个结果都应该要实时的得到反馈，所以我们现在选取的是flink啊，这是关于我们这个项目选型的一个规则。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷Flink从入门到实战（scala版）

（94/137）

10分49秒

001.尚硅谷_Flink-Flink简介

510

19分45秒

002.尚硅谷_Flink-Flink应用场景

480

11分3秒

003.尚硅谷_Flink-流式处理的提出

380

15分16秒

004.尚硅谷_Flink-流式处理的演变

350

16分33秒

005.尚硅谷_Flink-Flink的特点

340

23分57秒

006.尚硅谷_Flink-批处理wordcount

520

20分13秒

007.尚硅谷_Flink-流处理wordcount

380

19分14秒

008.尚硅谷_Flink-流处理wordcount扩展测试和说明

410

26分46秒

009.尚硅谷_Flink-Flink集群部署

470

22分34秒

010.尚硅谷_Flink-提交Job

400

7分30秒

011.尚硅谷_Flink-命令行提交Job

350

12分50秒

012.尚硅谷_Flink-其它方式集群部署

360

8分35秒

013.尚硅谷_Flink-运行时架构_运行时组件

390

13分22秒

014.尚硅谷_Flink-运行时架构_作业提交流程

430

16分27秒

015.尚硅谷_Flink-运行时架构_任务调度原理（一）_并行度和slot

360

17分22秒

016.尚硅谷_Flink-运行时架构_任务调度原理（二）_slot共享

470

6分15秒

017.尚硅谷_Flink-运行时架构_任务调度原理（三）_slot共享示例

300

25分35秒

018.尚硅谷_Flink-运行时架构_任务调度原理（四）_执行图和任务链

310

12分20秒

019.尚硅谷_Flink-运行时架构_任务调度原理（五）_自定义任务调度规则

350

16分18秒

020.尚硅谷_Flink-流处理API_Source（一）_从集合和文件读取数据

380

21分32秒

021.尚硅谷_Flink-流处理API_Source（二）_从Kafka读取数据

430

24分49秒

022.尚硅谷_Flink-流处理API_Source（三）_自定义Source

410

6分49秒

023.尚硅谷_Flink-流处理API_Transform（一）_简单转换算子

320

19分15秒

024.尚硅谷_Flink-流处理API_Transform（二）_简单分组聚合

380

11分20秒

025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合

320

12分23秒

026.尚硅谷_Flink-流处理API_Transform（四）_分流操作

350

19分54秒

027.尚硅谷_Flink-流处理API_Transform（五）_合流操作

290

9分39秒

028.尚硅谷_Flink-流处理API_Flink支持的数据类型

420

19分40秒

029.尚硅谷_Flink-流处理API_函数类和富函数类

280

18分54秒

030.尚硅谷_Flink-流处理API_Sink（一）_文件

410

10分44秒

031.尚硅谷_Flink-流处理API_Sink（二）_Kafka

430

18分29秒

032.尚硅谷_Flink-流处理API_Sink（三）_Redis

360

16分42秒

033.尚硅谷_Flink-流处理API_Sink（四）_ElasticSearch

350

17分47秒

034.尚硅谷_Flink-流处理API_Sink（五）_MySQL

480

7分21秒

035.尚硅谷_Flink-流处理API_Window API_窗口概念

360

10分12秒

036.尚硅谷_Flink-流处理API_Window API_窗口类型

330

27分16秒

037.尚硅谷_Flink-流处理API_Window API_窗口分配器

450

20分59秒

038.尚硅谷_Flink-流处理API_Window API_窗口函数及其它可选API

410

15分5秒

039.尚硅谷_Flink-流处理API_Window API_窗口计算测试

270

17分56秒

040.尚硅谷_Flink-时间语义

300

4分32秒

041.尚硅谷_Flink-时间语义的设置

350

19分5秒

042.尚硅谷_Flink-Watermark概念

370

15分56秒

043.尚硅谷_Flink-Watermark原理和特点

320

8分7秒

044.尚硅谷_Flink-Watermark传递

260

16分32秒

045.尚硅谷_Flink-Watermark代码中引入

290

7分8秒

046.尚硅谷_Flink-自定义Watermark生成机制

290

16分10秒

047.尚硅谷_Flink-事件时间语义下的窗口测试

360

9分20秒

048.尚硅谷_Flink-窗口起始点的确定

360

8分7秒

049.尚硅谷_Flink-状态管理（一）_状态的概念

400

15分13秒

050.尚硅谷_Flink-状态管理（二）_算子状态和键控状态

290

27分24秒

051.尚硅谷_Flink-状态管理（三）_状态在代码中的定义和使用

340

17分14秒

052.尚硅谷_Flink-状态编程示例（一）

380

17分29秒

053.尚硅谷_Flink-状态编程示例（二）

410

23分23秒

054.尚硅谷_Flink-ProcessFuntion_基本概念和使用

360

32分49秒

055.尚硅谷_Flink-ProcessFuntion_定时器应用示例

320

9分44秒

056.尚硅谷_Flink-ProcessFuntion_侧输出流应用示例

360

15分35秒

057.尚硅谷_Flink-状态后端

390

13分30秒

058.尚硅谷_Flink-容错机制_检查点概念和原理

280

25分45秒

059.尚硅谷_Flink-容错机制_检查点算法

380

26分28秒

060.尚硅谷_Flink-容错机制_checkpoint配置

350

8分20秒

061.尚硅谷_Flink-容错机制_重启策略配置

440

7分31秒

062.尚硅谷_Flink-保存点

460

10分45秒

063.尚硅谷_Flink-状态一致性_基本概念

400

8分42秒

064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证

390

23分34秒

065.尚硅谷_Flink-状态一致性_幂等写入和事务写入

410

18分19秒

066.尚硅谷_Flink-状态一致性_Flink与Kafka连接的状态一致性

400

22分2秒

067.尚硅谷_Flink-Table API和Flink SQL_基本概念和示例程序

400

9分21秒

068.尚硅谷_Flink-Table API和Flink SQL_基本程序结构

340

15分42秒

069.尚硅谷_Flink-Table API和Flink SQL_表执行环境

360

19分13秒

070.尚硅谷_Flink-Table API和Flink SQL_表的概念和从文件读取数据

410

9分28秒

071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据

340

11分3秒

072.尚硅谷_Flink-Table API和Flink SQL_表的查询转换

390

8分24秒

073.尚硅谷_Flink-Table API和Flink SQL_DataStream和表的转换

400

25分13秒

074.尚硅谷_Flink-Table API和Flink SQL_输出到文件

320

10分50秒

075.尚硅谷_Flink-Table API和Flink SQL_更新模式

310

17分40秒

076.尚硅谷_Flink-Table API和Flink SQL_Kafka管道测试

380

18分17秒

077.尚硅谷_Flink-Table API和Flink SQL_输出到ES

340

8分8秒

078.尚硅谷_Flink-Table API和Flink SQL_输出到MySQL

390

11分33秒

079.尚硅谷_Flink-Table API和Flink SQL_表转换成流

290

7分6秒

080.尚硅谷_Flink-Table API和Flink SQL_流处理和SQL查询的不同

340

12分23秒

081.尚硅谷_Flink-Table API和Flink SQL_动态表和持续查询

430

12分49秒

082.尚硅谷_Flink-Table API和Flink SQL_持续查询示例具体过程

410

20分15秒

083.尚硅谷_Flink-Table API和Flink SQL_时间特性（一）_处理时间

340

14分15秒

084.尚硅谷_Flink-Table API和Flink SQL_时间特性（二）_事件时间

330

13分10秒

085.尚硅谷_Flink-Table API和Flink SQL_窗口（一）_分组窗口

440

18分42秒

086.尚硅谷_Flink-Table API和Flink SQL_窗口（二）_分组窗口测试

400

11分57秒

087.尚硅谷_Flink-Table API和Flink SQL_窗口（三）_Over窗口

380

13分1秒

088.尚硅谷_Flink-Table API和Flink SQL_窗口（四）_Over窗口测试

340

11分3秒

089.尚硅谷_Flink-Table API和Flink SQL_函数（一）_系统内置函数

310

14分38秒

090.尚硅谷_Flink-Table API和Flink SQL_函数（二）_UDF函数_标量函数

430

17分18秒

091.尚硅谷_Flink-Table API和Flink SQL_函数（三）_UDF函数_表函数

350

26分57秒

092.尚硅谷_Flink-Table API和Flink SQL_函数（四）_UDF函数_聚合函数

410

27分55秒

093.尚硅谷_Flink-Table API和Flink SQL_函数（五）_UDF函数_表聚合函数

370

8分11秒

094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型

350

15分26秒

095.尚硅谷_Flink项目-电商用户行为分析_用户行为分析应用场景

370

9分11秒

096.尚硅谷_Flink项目-电商用户行为分析_模块设计和数据分析

440

21分2秒

097.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（一）

350

9分6秒

098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）

400

10分2秒

099.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_其它需求

400

100

10分20秒

100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建

380

101

27分53秒

101.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（一）_窗口聚合

360

102

27分13秒

102.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（二）_排序统计输出

390

103

20分50秒

103.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（三）_从Kafka消费数据测试

450

104

10分2秒

104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试

480

105

28分42秒

105.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（五）_Table API和SQL实现

350

106

26分5秒

106.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（一）_开窗聚合统计

250

107

9分46秒

107.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（二）_统计结果排序输出

350

108

21分3秒

108.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（三）_乱序数据的处理

420

109

21分40秒

109.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（四）_保证状态更新结果正确

390

110

20分38秒

110.尚硅谷_Flink项目-电商用户行为分析_PV统计（一）_基本实现

430

111

19分21秒

111.尚硅谷_Flink项目-电商用户行为分析_PV统计（二）_数据并行的优化

320

112

15分27秒

112.尚硅谷_Flink项目-电商用户行为分析_UV统计（一）_基本实现

430

113

30分47秒

113.尚硅谷_Flink项目-电商用户行为分析_UV统计（二）_布隆过滤器去重思路和程序架构

350

114

9分11秒

114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现

340

115

23分31秒

115.尚硅谷_Flink项目-电商用户行为分析_UV统计（四）_UV去重的布隆过滤器实现

300

116

17分2秒

116.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（一）_自定义数据源

480

117

20分43秒

117.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（二）_开窗聚合统计输出

320

118

19分18秒

118.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（一）_基本需求实现

310

119

14分27秒

119.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（二）_刷单行为过滤思路和整体框架

380

120

23分19秒

120.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（三）_刷单行为过滤代码实现

360

121

18分16秒

121.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（一）_实现思路和代码框架

400

122

18分20秒

122.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（二）_具体代码实现

350

123

18分18秒

123.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（三）_代码改进

350

124

30分32秒

124.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（四）_CEP代码实现

330

125

12分22秒

125.尚硅谷_Flink项目-电商用户行为分析_CEP简介（一）_CEP介绍及Pattern API整体概念

390

126

12分40秒

126.尚硅谷_Flink项目-电商用户行为分析_CEP简介（二）_个体模式

300

127

10分22秒

127.尚硅谷_Flink项目-电商用户行为分析_CEP简介（三）_模式序列

390

128

9分49秒

128.尚硅谷_Flink项目-电商用户行为分析_CEP简介（四）_模式的检测和事件处理

380

129

19分49秒

129.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（一）_实现思路和程序架构

340

130

17分28秒

130.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（二）_CEP具体代码实现

440

131

6分41秒

131.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（三）_流式输入数据测试

390

132

32分19秒

132.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（四）_ProcessFunction代码实现

380

133

13分48秒

133.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（一）_需求分析和整体架构

350

134

22分23秒

134.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（二）_合流代码实现

380

135

12分55秒

135.尚硅谷_Flink项目-电商用户行为分析_Join API（一）_Window Join

380

136

9分46秒

136.尚硅谷_Flink项目-电商用户行为分析_Join API（二）_Interval Join

240

137

9分21秒

137.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（三）_Join代码实现

330

094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐