文章/答案/技术大牛

发布

首页视频003.尚硅谷_Flink-流式处理的提出

003.尚硅谷_Flink-流式处理的提出

2022-12-022022-12-02 16:02:28播放38

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷Flink从入门到实战（scala版）/视频/003.尚硅谷_Flink-流式处理的提出.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们现在已经知道了，关于流式处理在实际生活当中的一个重要，各行各业其实都需要用这样的处理方式啊，那我们知道其实在呃，现在啊，传统的处理架构里边，好像并没怎么听说有这样的流式处理这样的概念。那传统的数据处理架构是什么样的呢？啊，我们知道在这个数十年来啊，最近几十年来，数据和数据处理在每个行业的企业当中都无处不在，呃，那我们行业里边的这个数据一直在增长，那公司呢，就会设计相应的这些数据结构基础架构来管理数据。最早期的时候，我们知道这个数据比较少嘛，那我当然就是直接放数据库就完了啊，而且之前的话，我们会有自己的一套这个业务响应系统，需要跟用户或者说呃，就是跟这个操作人员啊，内部的管理人员去做一些交互，所以大家看最经典的数据处理架构，就是所谓的事物型处理的这样的一个架构。
01:08
啊，那我们看到这个整个的处理结构呢，可以分成两层，上面这一部分叫compute，叫计算层，那下面这一部分叫storage storage叫存储层，那所以这两部分它的功能分的非常的开，就是首先计算层这里是干什么呢？就是接收用户的请求，或者接收外部的某个事件，大家看这里面都是event events嘛，都是事件，事件来了之后，我这里边有一整套系统，比方说CRM，这是客户关关系管理系统啊，或者说像ERP啊，像这个企业资源管理系统，对吧？啊，那另外还有这个订单系统，哎，我这里边用户下了一个订单，或者说我们就是一个网站的APP，用户有一个点击操作，不管是什么样，它其实都是会发送一条数据，作为一个事件进入到当前我们的处理系统来。
02:02
然后处理系统呢，这里边就会啊，就最后我们的想要的这个处理结果是得到一个响应反馈给用户，那在这个计算的过程当中呢，可能需要用到一些外部数据，可能还需要改动外部数据里边存储的一些东西，那这个过程我们就要去跟。传统的关系型数据库去做交互了DBMF对吧？啊，那这一部分数据我们都是存在关系型数据库里，所以我们接到请求之后，业务系统会去查询数据库里边的信息，拿到想要用到的那些信息，然后结合当前的请求去做计算处理，得到的结果呢，可能有一部分要改动数据再写入回到关系型数据库里边来，然后另外包装成一个响应返回给用户，这就是我们最传统的这种事物处理的过程啊，我们所所有的这个应用程序啊，所有的现在这个互联网前后台的这种架构都是基于这样的。
03:05
处理架构去搭建的啊，这是大家比较熟悉的过程。那在呃，处理应用的过程当中，可能我们就会发现了这个数据库，传统的关系型数据库，它所能存储的数据毕竟有限，而且这里边我们所想要的是什么呢？想要的就是那些对于用户行为啊，我们想要去获取一个实时的反馈，对吧，实时的响应，我们其实想要存的就是那些强业务关联的那些数据。那对于有一些数据，你比方说就说这个点击对吧，用户这里边点了一下页面，那当前的这个点击的数据，我需要每次都存到这个数据库里边吗？其实是没有必要的啊，那我们就想到其实可以怎么样，当这个数据越来越大对吧，就是数据库有可能已经存不下，而且我们发现它这个使用的时候呢，也未必一定要把它都存到关系型数据库里的时候。
04:04
那就衍衍生出了另外的一种数数据处理架构，就是大家更加熟悉的所谓的这种分析处理的架构，它的主要思路是什么呢？就是数据已经非常多了，哎，我们先把它就是该存在哪里存在哪里，对吧？有可能就是传统的关系数据库，也有可能我们就是直接从一些日志log里边去做提取，不管是从哪里来吧，我们整个要有一个这样的所谓的提取转换的进程，也就是ETL的一个进程，把它做统一的转换处理，得到的结果呢？格式化之后，我们放在所谓的data warehouse里边，也就是数仓里面去，那这样的一个过程就是放到数字仓里边去之后呢，接下来我就可以，哎，直接跑一个，呃，分析的这个统计统计分析对吧？呃输出生成一张这个报表，或者说呢，还可以基于当前的数仓，或者说其他的一些数据库去做一些及时查询，这些都是可以做到的。
05:07
啊，那这个过程主要主要的一个问题就在于我需要先把数据从业务数据库或者从业务日志里边先复制出来，做ETL转换，把它塞到存储到数仓，然后再去做分析和查询。啊，那所以这个过程大家比较熟悉，这就是一个离线处理对吧，大数据的离线处理转换的过程啊，那我们呃，它的跟前面这个事物处理相比，它的特点在于我们能够处理的数据更多更丰富了。呃，那那它这算是一个优点吧，它的缺点在哪里呢？啊，缺点就在于你必须要把所有的数据都提取出来，放在数仓里，才能去跑那个C口，对吧，才能去去运行，呃，统计它的这个查询结果，所以这个过程实时性就差了很多。
06:00
我们之前在这个传统的事物处理的过程当中，用户那边的响应是实时拿到的，现在做不到了啊，所以这里边大家就会想到我如果说啊，如果我现在想要的这个报表，或者说这个机器查询。我要求实时性很高呢，我必须要这边就是业务数据那边一一改变，我这边就要做一个统计，做一个输出，能不能做到呢？啊，有一种思路我们可能想到就是像之前学习过的这个实施项目里边啊，我们用Spark streaming对吧？啊，那么Spark streaming它的一个处理思路其实是什么啊，其实还是基于整个我们离线处理这个思路，它是把我们来的所有数据呢，你不要等到所有数据都到期，因为你现在是连续不断来的嘛，流失数据嘛，我想要做实时处理，那怎么办呢？我就。分成一个一个小的批次对吧？来一小批我处理一次，来一小批处理一次，那最后的本质相当于还是把它攒齐了啊，尽管我不一定非要扔到数仓里对吧？呃，我也可以在其他地方去做这个处理啊，最后得到这样的一个统计结果。
07:16
那这个过程大家会发现你还是有一个就相当于架构上，我还是要先把它做一个转换，把它做一个提取啊，对吧，有一个攒一批的过程啊，那这个过程能不能省掉呢。哎，从这个角度出发，那其实就有了所谓的流处理架构的出现，我们自然就会想到你，你何必那么麻烦呢，对吧？你何必非要把这个数据都攒齐了就去做处理呢？我就直接借鉴之前的事物处理的这个过程，来一个数据，我当前的这个业务数据库，呃，不不不是业务数据库啊，就是当前的这个业务系统直接就做反应，然后给他一个返回，不就完了吗？哎，那我们就想到我之前的这个架构主要的问题在哪儿，主要是因为我还有数据得从数据库里拿呀，好，那我现在既然是想要做这个扩充，那我就不要依赖之前的数据库了，我干脆怎么样，我直接就把所有的数据都放在当前机器的内存里边，那大家想你如果都放在内存的话，是不是一方面这个存取速度更快了，比之前的这个事物处理我们这个响应的过程还快，对吧？啊，那另外一方面呢，你如果放在内存里边，我们扩展起来怎么扩展？
08:33
那就是整个分布式架构，你扩展这个集群，机器数量增加就可以了嘛，就跟这个数据库完全没关系了。啊，所以这里边的一个基本的想法就是说。诶，构建这样的一一个这样一套架构，就是数据来了之后，大家看这里边的圆圈一个一个来，我们这里边的机器处理呢，有一整套应用逻辑，然后通过这个逻辑，我想要每一个数据来了之后呢，对应的都有一个输出，然后在做这个输出计算的时候，我可能需要应用到其他的一些数据，这些数据叫做什么呢？
09:10
诶，我之前是把它存在数据库里边，业务叫做业务数据对吧，把它这个存储在数据库里，现在我跟数据库没关系了，我直接把它叫做本地状态，放在本地内存里边就完事了。啊，所以大家看这个交互的过程，这不就相当于我们前面做事物处理时候跟数据库的交互过程吗？而且它还更快。啊，那你这样去做这个架构调整，它有没有什么问题呢？当然有问题，你既然放在这个内存里边，我们知道内存最大的一个问题就在于它快是快，但是不稳定啊，你一旦要是掉电，一旦要是出现故障，所有的东西都没了，都丢掉了。啊，所以这里面我们为了保证它的容错性，出现故障的时候能够恢复，还需要定期的去对当前的状态做一个存盘。
10:04
啊，所以大家看，就是关于这个本地状态呢，我还应该有一个周期性的，哎，叫做检查点的操作啊checkpoint，关于检查点我们之前在Spark里边也接触过，大家也已经接触过，那弗link里边这个检查点的概念呢类似，但是它底层的机制又会不同啊，这个我们到后边涉及到的时候，再给大家详细做展开，这里我们只要需要就是周只只要需要知道就是周期性的要去做一个检查点操作，把当前的状态保存在远程的存储空间，哎，把它持久化，这样的话，到时候如果出现故障要恢复的时候，我还有一个持久化的空间，可以把状态恢复出来。这样就解决了我们这样一个问题啊，所以这就是呃，从这个传统的处处理架构啊，数据处理架构，我们发现它的这个不足，然后提出的这样一个流式处理的数据处理架构。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷Flink从入门到实战（scala版）

（3/137）

10分49秒

001.尚硅谷_Flink-Flink简介

510

19分45秒

002.尚硅谷_Flink-Flink应用场景

480

11分3秒

003.尚硅谷_Flink-流式处理的提出

380

15分16秒

004.尚硅谷_Flink-流式处理的演变

350

16分33秒

005.尚硅谷_Flink-Flink的特点

340

23分57秒

006.尚硅谷_Flink-批处理wordcount

520

20分13秒

007.尚硅谷_Flink-流处理wordcount

380

19分14秒

008.尚硅谷_Flink-流处理wordcount扩展测试和说明

410

26分46秒

009.尚硅谷_Flink-Flink集群部署

470

22分34秒

010.尚硅谷_Flink-提交Job

400

7分30秒

011.尚硅谷_Flink-命令行提交Job

350

12分50秒

012.尚硅谷_Flink-其它方式集群部署

360

8分35秒

013.尚硅谷_Flink-运行时架构_运行时组件

390

13分22秒

014.尚硅谷_Flink-运行时架构_作业提交流程

430

16分27秒

015.尚硅谷_Flink-运行时架构_任务调度原理（一）_并行度和slot

360

17分22秒

016.尚硅谷_Flink-运行时架构_任务调度原理（二）_slot共享

470

6分15秒

017.尚硅谷_Flink-运行时架构_任务调度原理（三）_slot共享示例

300

25分35秒

018.尚硅谷_Flink-运行时架构_任务调度原理（四）_执行图和任务链

310

12分20秒

019.尚硅谷_Flink-运行时架构_任务调度原理（五）_自定义任务调度规则

350

16分18秒

020.尚硅谷_Flink-流处理API_Source（一）_从集合和文件读取数据

380

21分32秒

021.尚硅谷_Flink-流处理API_Source（二）_从Kafka读取数据

430

24分49秒

022.尚硅谷_Flink-流处理API_Source（三）_自定义Source

410

6分49秒

023.尚硅谷_Flink-流处理API_Transform（一）_简单转换算子

320

19分15秒

024.尚硅谷_Flink-流处理API_Transform（二）_简单分组聚合

380

11分20秒

025.尚硅谷_Flink-流处理API_Transform（三）_reduce聚合

320

12分23秒

026.尚硅谷_Flink-流处理API_Transform（四）_分流操作

350

19分54秒

027.尚硅谷_Flink-流处理API_Transform（五）_合流操作

290

9分39秒

028.尚硅谷_Flink-流处理API_Flink支持的数据类型

420

19分40秒

029.尚硅谷_Flink-流处理API_函数类和富函数类

280

18分54秒

030.尚硅谷_Flink-流处理API_Sink（一）_文件

410

10分44秒

031.尚硅谷_Flink-流处理API_Sink（二）_Kafka

430

18分29秒

032.尚硅谷_Flink-流处理API_Sink（三）_Redis

360

16分42秒

033.尚硅谷_Flink-流处理API_Sink（四）_ElasticSearch

350

17分47秒

034.尚硅谷_Flink-流处理API_Sink（五）_MySQL

480

7分21秒

035.尚硅谷_Flink-流处理API_Window API_窗口概念

360

10分12秒

036.尚硅谷_Flink-流处理API_Window API_窗口类型

330

27分16秒

037.尚硅谷_Flink-流处理API_Window API_窗口分配器

450

20分59秒

038.尚硅谷_Flink-流处理API_Window API_窗口函数及其它可选API

410

15分5秒

039.尚硅谷_Flink-流处理API_Window API_窗口计算测试

270

17分56秒

040.尚硅谷_Flink-时间语义

300

4分32秒

041.尚硅谷_Flink-时间语义的设置

350

19分5秒

042.尚硅谷_Flink-Watermark概念

370

15分56秒

043.尚硅谷_Flink-Watermark原理和特点

320

8分7秒

044.尚硅谷_Flink-Watermark传递

260

16分32秒

045.尚硅谷_Flink-Watermark代码中引入

290

7分8秒

046.尚硅谷_Flink-自定义Watermark生成机制

290

16分10秒

047.尚硅谷_Flink-事件时间语义下的窗口测试

360

9分20秒

048.尚硅谷_Flink-窗口起始点的确定

360

8分7秒

049.尚硅谷_Flink-状态管理（一）_状态的概念

400

15分13秒

050.尚硅谷_Flink-状态管理（二）_算子状态和键控状态

290

27分24秒

051.尚硅谷_Flink-状态管理（三）_状态在代码中的定义和使用

340

17分14秒

052.尚硅谷_Flink-状态编程示例（一）

380

17分29秒

053.尚硅谷_Flink-状态编程示例（二）

410

23分23秒

054.尚硅谷_Flink-ProcessFuntion_基本概念和使用

360

32分49秒

055.尚硅谷_Flink-ProcessFuntion_定时器应用示例

320

9分44秒

056.尚硅谷_Flink-ProcessFuntion_侧输出流应用示例

360

15分35秒

057.尚硅谷_Flink-状态后端

390

13分30秒

058.尚硅谷_Flink-容错机制_检查点概念和原理

280

25分45秒

059.尚硅谷_Flink-容错机制_检查点算法

380

26分28秒

060.尚硅谷_Flink-容错机制_checkpoint配置

350

8分20秒

061.尚硅谷_Flink-容错机制_重启策略配置

440

7分31秒

062.尚硅谷_Flink-保存点

460

10分45秒

063.尚硅谷_Flink-状态一致性_基本概念

400

8分42秒

064.尚硅谷_Flink-状态一致性_Flink端到端状态一致性的保证

390

23分34秒

065.尚硅谷_Flink-状态一致性_幂等写入和事务写入

410

18分19秒

066.尚硅谷_Flink-状态一致性_Flink与Kafka连接的状态一致性

400

22分2秒

067.尚硅谷_Flink-Table API和Flink SQL_基本概念和示例程序

400

9分21秒

068.尚硅谷_Flink-Table API和Flink SQL_基本程序结构

340

15分42秒

069.尚硅谷_Flink-Table API和Flink SQL_表执行环境

360

19分13秒

070.尚硅谷_Flink-Table API和Flink SQL_表的概念和从文件读取数据

410

9分28秒

071.尚硅谷_Flink-Table API和Flink SQL_从Kafka读取数据

340

11分3秒

072.尚硅谷_Flink-Table API和Flink SQL_表的查询转换

390

8分24秒

073.尚硅谷_Flink-Table API和Flink SQL_DataStream和表的转换

400

25分13秒

074.尚硅谷_Flink-Table API和Flink SQL_输出到文件

320

10分50秒

075.尚硅谷_Flink-Table API和Flink SQL_更新模式

310

17分40秒

076.尚硅谷_Flink-Table API和Flink SQL_Kafka管道测试

380

18分17秒

077.尚硅谷_Flink-Table API和Flink SQL_输出到ES

340

8分8秒

078.尚硅谷_Flink-Table API和Flink SQL_输出到MySQL

390

11分33秒

079.尚硅谷_Flink-Table API和Flink SQL_表转换成流

290

7分6秒

080.尚硅谷_Flink-Table API和Flink SQL_流处理和SQL查询的不同

340

12分23秒

081.尚硅谷_Flink-Table API和Flink SQL_动态表和持续查询

430

12分49秒

082.尚硅谷_Flink-Table API和Flink SQL_持续查询示例具体过程

410

20分15秒

083.尚硅谷_Flink-Table API和Flink SQL_时间特性（一）_处理时间

340

14分15秒

084.尚硅谷_Flink-Table API和Flink SQL_时间特性（二）_事件时间

330

13分10秒

085.尚硅谷_Flink-Table API和Flink SQL_窗口（一）_分组窗口

440

18分42秒

086.尚硅谷_Flink-Table API和Flink SQL_窗口（二）_分组窗口测试

400

11分57秒

087.尚硅谷_Flink-Table API和Flink SQL_窗口（三）_Over窗口

380

13分1秒

088.尚硅谷_Flink-Table API和Flink SQL_窗口（四）_Over窗口测试

340

11分3秒

089.尚硅谷_Flink-Table API和Flink SQL_函数（一）_系统内置函数

310

14分38秒

090.尚硅谷_Flink-Table API和Flink SQL_函数（二）_UDF函数_标量函数

430

17分18秒

091.尚硅谷_Flink-Table API和Flink SQL_函数（三）_UDF函数_表函数

350

26分57秒

092.尚硅谷_Flink-Table API和Flink SQL_函数（四）_UDF函数_聚合函数

410

27分55秒

093.尚硅谷_Flink-Table API和Flink SQL_函数（五）_UDF函数_表聚合函数

370

8分11秒

094.尚硅谷_Flink项目-电商用户行为分析_批处理和流处理以及项目选型

350

15分26秒

095.尚硅谷_Flink项目-电商用户行为分析_用户行为分析应用场景

370

9分11秒

096.尚硅谷_Flink项目-电商用户行为分析_模块设计和数据分析

440

21分2秒

097.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（一）

350

9分6秒

098.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_实时热门商品统计（二）

400

10分2秒

099.尚硅谷_Flink项目-电商用户行为分析_模块需求分析_其它需求

400

100

10分20秒

100.尚硅谷_Flink项目-电商用户行为分析_项目框架搭建

380

101

27分53秒

101.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（一）_窗口聚合

360

102

27分13秒

102.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（二）_排序统计输出

390

103

20分50秒

103.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（三）_从Kafka消费数据测试

450

104

10分2秒

104.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（四）_批量消费Kafka数据测试

480

105

28分42秒

105.尚硅谷_Flink项目-电商用户行为分析_实时热门商品统计（五）_Table API和SQL实现

350

106

26分5秒

106.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（一）_开窗聚合统计

250

107

9分46秒

107.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（二）_统计结果排序输出

350

108

21分3秒

108.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（三）_乱序数据的处理

420

109

21分40秒

109.尚硅谷_Flink项目-电商用户行为分析_实时热门页面流量统计（四）_保证状态更新结果正确

390

110

20分38秒

110.尚硅谷_Flink项目-电商用户行为分析_PV统计（一）_基本实现

430

111

19分21秒

111.尚硅谷_Flink项目-电商用户行为分析_PV统计（二）_数据并行的优化

320

112

15分27秒

112.尚硅谷_Flink项目-电商用户行为分析_UV统计（一）_基本实现

430

113

30分47秒

113.尚硅谷_Flink项目-电商用户行为分析_UV统计（二）_布隆过滤器去重思路和程序架构

350

114

9分11秒

114.尚硅谷_Flink项目-电商用户行为分析_UV统计（三）_布隆过滤器简单实现

340

115

23分31秒

115.尚硅谷_Flink项目-电商用户行为分析_UV统计（四）_UV去重的布隆过滤器实现

300

116

17分2秒

116.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（一）_自定义数据源

480

117

20分43秒

117.尚硅谷_Flink项目-电商用户行为分析_APP市场推广统计（二）_开窗聚合统计输出

320

118

19分18秒

118.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（一）_基本需求实现

310

119

14分27秒

119.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（二）_刷单行为过滤思路和整体框架

380

120

23分19秒

120.尚硅谷_Flink项目-电商用户行为分析_广告点击量统计分析（三）_刷单行为过滤代码实现

360

121

18分16秒

121.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（一）_实现思路和代码框架

400

122

18分20秒

122.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（二）_具体代码实现

350

123

18分18秒

123.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（三）_代码改进

350

124

30分32秒

124.尚硅谷_Flink项目-电商用户行为分析_恶意登录检测（四）_CEP代码实现

330

125

12分22秒

125.尚硅谷_Flink项目-电商用户行为分析_CEP简介（一）_CEP介绍及Pattern API整体概念

390

126

12分40秒

126.尚硅谷_Flink项目-电商用户行为分析_CEP简介（二）_个体模式

300

127

10分22秒

127.尚硅谷_Flink项目-电商用户行为分析_CEP简介（三）_模式序列

390

128

9分49秒

128.尚硅谷_Flink项目-电商用户行为分析_CEP简介（四）_模式的检测和事件处理

380

129

19分49秒

129.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（一）_实现思路和程序架构

340

130

17分28秒

130.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（二）_CEP具体代码实现

440

131

6分41秒

131.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（三）_流式输入数据测试

390

132

32分19秒

132.尚硅谷_Flink项目-电商用户行为分析_订单超时检测（四）_ProcessFunction代码实现

380

133

13分48秒

133.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（一）_需求分析和整体架构

350

134

22分23秒

134.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（二）_合流代码实现

380

135

12分55秒

135.尚硅谷_Flink项目-电商用户行为分析_Join API（一）_Window Join

380

136

9分46秒

136.尚硅谷_Flink项目-电商用户行为分析_Join API（二）_Interval Join

240

137

9分21秒

137.尚硅谷_Flink项目-电商用户行为分析_双流实时对账（三）_Join代码实现

330

003.尚硅谷_Flink-流式处理的提出

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐