文章/答案/技术大牛

发布

首页视频005_尚硅谷大数据技术_Flink理论_Flink简介（五）Flink的特点

005_尚硅谷大数据技术_Flink理论_Flink简介（五）Flink的特点

2022-12-022022-12-02 16:02:17播放35

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分/005_尚硅谷大数据技术_Flink理论_Flink简介（五）Flink的特点.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那接下来我们在最后给大家总结一下flink的主要特点，首先呃，我们发现这个flink其实啊，要跟传统的数据处理架构做对比的话，它可以认为是跟哪一类更相似呢？诶，它其实跟我们一开始这个事事物处理啊，事件驱动的这种方式啊更加的相似，大家看到它的这个处理过程是什么呢？我们传统的那种方式不是跟那个关系数据库去做交互吗？对吧？用户那边呃，有数据啊，有事件来了，然后这里边我有一个后台处理流程，然后去读取或者去写入这个关系数据库，最终得到一个结果返回给用户那边触发一个操作，这是传统的这个关系型事故处理的啊呃，这种方式，那现在flink他做这个事件驱动又是什么样的呢？整个架构非常的类似，同样还是用户那边有数据对吧？呃，当然这里边可能一般就不是直接发那个数据请求了，而是啊，就是我们这边是一些事件的日志先收集起来，在前边把它读取进来，读到flink内部来之后呢，我现在不去查关系数据库了，因为查数据库连表查询这个就慢了，那我现在直接就是。
01:19
本地状态对吧，直接就存在本地状态里面，然后这个本地状态呢，因为要去保证这个容错，还可以去把它做一个定期的存盘，放在远程的19块存储空间里边。那通过这个本地状状态和当前我读入数据的一个结合，一个计算，最终是不是就可以得到一个结果啊，得到的结果哎，那就直接输出到我对应的这个输出的事件日志里面去，或者触发一个操作，大家看整个流程是不是跟这边非常像。啊，这就是事件触发的机制，所以大家后后面就会发现啊，你如果想要去处理流式数据，或者说想要去做这个数据流的计算，那最基本的一个。
02:06
架构的一个设计就必须要是不是事件出发呀，因为我当前数据流嘛，整个这个数据这个像水流一样的源源不断的来，那我是不是就不能指定这个程序什么时候开始，什么时候结束，我就必须是相当于启动一个任务之后就等在那里，然后来一个数据就触发一计算，来一个数据出发一次计算啊。必须是这样对吧，哎，所以它是一个事件驱动的过程。然后后边我们看啊，接下来这个特点，这就上升到了一个世界观的高度啊，我们当前这个是一个基于流的世界观，在flink的世界观里边，一切都是流，哎，那什么叫一切都是流呢？就是假如说我现在要处理这个离线数据。假如说我现在这个数据就是离线的一批数据来了，那我怎么处理呢？弗林也可以处理它，把它看成什么呢？
03:01
哎，它就把它看成一个所谓的有界的流来做一个处理就可以了，那实时的数据不停连续不停不停的数据来，它就是一个无界的流，对吧？啊，连续不断没有截止，大家看从这个图上看的很明显啊，那我这里边的数据一条一条就是不停的来，不停的来，对吧？啊，那正常情况下他应该是有头没尾，永远没有没无休无止，那所以这就是一个所谓的无界流。那对于离线数据，或者说我要截取一部分数据去做计算的时候，那怎么办呢？诶大家想，那那是不是就是你到这个位置的时候，我直接把它截出来就完事了，对吧？啊到这儿就直接做计算，而不是说来一个呃，处理一个啊我是在这中间我可以一直等着，等到这一段数据都到齐了之后，我直接做一个计算，这就是一个所谓的有界流的概念，所以现在我们是不是就解答了最初官网上看到的那一句话，我们做的是什么呢？啊，针对这个无界或者有界数据流做有状态的计算啊，那什么叫有界无界，什么叫有状态，现在大家都搞明白了对吧？好，那最后还有一个特点就是呃，这个flink它拥有非常容易使用的分层API，有不同层级的API，这就给大家提供了更多的可能性啊，就是我可以调用非常底层的API，也可以调用高层级的API。
04:30
哎，从上到下大家看，分成了这样的三层。最上层是。Flink CQ和table API，这是最高级的一层API啊，就是使用起来的话，它其实就是非常的简单，里边的这个方法也非常的容易理解啊，大家直观看的话，这就是都是表，对不对，把里边的数据就当成表来做操作，而且就是甚至可以直接去写CQ。你直接直接写一条CQ，就像大家最熟悉的这种方式啊，写一条CQ，一个字符串啊，CQ写完了之后一执行就完事了，就把我们当前这个任务就就搞定了啊，所以在实际应用的时候，一些简单的需求，用这种方式是最容易实现的，那中间这一层呢，这是flink可以说是他提供的API里面的一个核心层级，它提供的这一层API叫data stream API啊，当然这里面大家要注意一下，就是这一层级的API，它是数据流API对吧？啊，那主要就是用它来做这个。
05:31
就是无界流，我们做这个实时计算的时候，主要用的是这个data data stream API，那如果要做这个离线计算，处理这个有界的数据呢，它有另外一套叫做data set API啊，所以flink其实本身它是一个可以认为是一个批流统一的这样的一个框架啊，它可以做离线，也可以做实时。啊，那它的这个API略有不同，离线的那个叫data set，我们这个实时的这一部分叫data stream啊，所以我们一般用它做实时嘛，所以stream API也是用的最多的，那么这一层级的API呢，诶，大家就会看到它这里边能够拿到的这个信息就会多一些，而且我们这里边可以直接获取到当前数据流里边每一条数据的各种信息，另外还可以啊，就开窗口，做窗口相关的一些操作，做一些精细控制，在这个层级都是可以做的。
06:28
啊，因为你在上层的话，就相当于都是表嘛，直接写CQ对吧？啊就控制可能没有那么精细，在这一层级可以做的事情就更多。那当然还有最底层啊，最底层的这个API叫做process function API，他能做的事情就更多了，大家看这里边他能拿到是什么呢？首先能拿到当前的每一个事件啊，具体的数据肯定能拿到，另外呢，还能拿到状态，我们不是说可以做那个有状态的计算吗？你可以自己去定义各种各样的状态啊，另外还可以拿到时间，甚至我们后面讲到呃，会告诉大家，就是这里边你还可以去定义一些自定义的定时事件，什么叫定时事件呢？就是相当于我设一个闹钟，我可以让就是当前我要做的这个操作啊，这段代码逻辑不是现在马上执行，过一段时间之后到几点的时候再去执行，它都允许我们做这些操作啊，所以这个process方式可以说是非常强大，也是非常灵活的，使用起来的话，可以说是所有的需求理论上啊，都可以用这个最底层的process function结合这个PI。
07:38
实现啊，当然了，就是它可能使用起来这个代码的逻辑啊，这个难度也会更大，对吧？所以我们可以总结起来就是越往底层就会越具体，实现起来越灵活，表达能力越丰富，但是呢，用起来可能就稍微会麻烦一点，而越往上层呢，就会越抽象，用起来就越简单越方便啊这是这个不同层级分层API的一个特点，然后最后我们再总结一下flink其他特点啊啊，这就是把我们前面讲到的那些优势全要列举列举一遍了啊，首先在flink里边它是支持不同的时间语义的，大家看这里边它支持事件时间和处理时间不同的时间语义啊，那至于这个到底是什么，我们后面讲到再说啊啊另外它还支持精确一次的状态一致性，保证所谓的状态一致性，大家可以理解成就是我们前面说的啊，就是结果正确对吧？啊，就是出现故障之后也要保证它的这个。
08:38
呃，就是最后恢复之后的那个结果是正确的啊，所以这就是所谓的状态一致性的概念，另外就是低延迟高吞吐，他在理论上啊，可以实现毫秒级的延迟，而且每秒处理百万数百万个事件，这是flink的这个并发能力啊，和这个延迟的这个能力，另外它还可以和众多的常用存储系统做方便的连接，它可以实现高可用动态扩展，真正实现七乘24小时全天候运行啊，这就是flink的所有的特点。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分

（5/99）

5分36秒

001_尚硅谷大数据技术_Flink理论_Flink简介（一）Flink是什么

410

13分11秒

002_尚硅谷大数据技术_Flink理论_Flink简介（二）为什么要用Flink

370

12分49秒

003_尚硅谷大数据技术_Flink理论_Flink简介（三）流数据处理的行业

400

16分17秒

004_尚硅谷大数据技术_Flink理论_Flink简介（四）流处理的发展演变

320

9分14秒

005_尚硅谷大数据技术_Flink理论_Flink简介（五）Flink的特点

350

7分44秒

006_尚硅谷大数据技术_Flink理论_Flink简介（六）Flink vs Spark Streaming

350

26分36秒

007_尚硅谷大数据技术_Flink理论_简单上手（一）批处理WordCount

380

13分51秒

008_尚硅谷大数据技术_Flink理论_简单上手（二）流处理WordCount

300

10分59秒

009_尚硅谷大数据技术_Flink理论_简单上手（三）流式数据源测试

410

27分53秒

010_尚硅谷大数据技术_Flink理论_Flink部署（一）Flink安装和配置

420

24分18秒

011_尚硅谷大数据技术_Flink理论_Flink部署（二）Job的提交运行

400

7分5秒

012_尚硅谷大数据技术_Flink理论_Flink部署（三）资源的分配和并行度测试

420

6分54秒

013_尚硅谷大数据技术_Flink理论_Flink部署（四）命令行提交Job

450

14分7秒

014_尚硅谷大数据技术_Flink理论_Flink部署（五）Yarn和K8s平台的Flink部署

450

11分29秒

015_尚硅谷大数据技术_Flink理论_运行时架构（一）Flink四大组件

340

4分48秒

016_尚硅谷大数据技术_Flink理论_运行时架构（二）作业提交流程_抽象架构

370

4分48秒

017_尚硅谷大数据技术_Flink理论_运行时架构（三）Yarn上作业提交流程

370

7分26秒

018_尚硅谷大数据技术_Flink理论_运行时架构（四）作业调度原理及思考问题

360

27分16秒

019_尚硅谷大数据技术_Flink理论_运行时架构（五）Slot和任务调度

380

14分24秒

020_尚硅谷大数据技术_Flink理论_运行时架构（六）Slot和并行度的关系

440

11分0秒

021_尚硅谷大数据技术_Flink理论_运行时架构（七）程序结构和数据流图

340

19分37秒

022_尚硅谷大数据技术_Flink理论_运行时架构（八）数据传输和任务链

430

5分43秒

023_尚硅谷大数据技术_Flink理论_流处理API_创建执行环境

360

16分38秒

024_尚硅谷大数据技术_Flink理论_流处理API_Source（一）从集合读取数据

430

4分22秒

025_尚硅谷大数据技术_Flink理论_流处理API_Source（二）从文件读取数据

420

10分45秒

026_尚硅谷大数据技术_Flink理论_流处理API_Source（三）从kafka读取数据

370

22分21秒

027_尚硅谷大数据技术_Flink理论_流处理API_Source（四）自定义测试数据源

400

14分42秒

028_尚硅谷大数据技术_Flink理论_流处理API_Transform（一）基本转换操作

270

29分53秒

029_尚硅谷大数据技术_Flink理论_流处理API_Transform（二）滚动聚合

400

12分4秒

030_尚硅谷大数据技术_Flink理论_流处理API_Transform（三）reduce聚合

480

12分57秒

031_尚硅谷大数据技术_Flink理论_流处理API_Transform（四）分流

390

14分1秒

032_尚硅谷大数据技术_Flink理论_流处理API_Transform（五）connect合流

330

6分28秒

033_尚硅谷大数据技术_Flink理论_流处理API_Transform（六）union合流

330

6分21秒

034_尚硅谷大数据技术_Flink理论_流处理API_Flink支持的数据类型

370

25分10秒

035_尚硅谷大数据技术_Flink理论_流处理API_Flink中的UDF函数类

350

14分27秒

036_尚硅谷大数据技术_Flink理论_流处理API_Flink中的数据重分区操作

370

17分39秒

037_尚硅谷大数据技术_Flink理论_流处理API_Sink（一）_Kafka

470

17分5秒

038_尚硅谷大数据技术_Flink理论_流处理API_Sink（二）_Redis

410

19分18秒

039_尚硅谷大数据技术_Flink理论_流处理API_Sink（三）_Es

300

18分25秒

040_尚硅谷大数据技术_Flink理论_流处理API_Sink（四）_JDBC

390

7分18秒

041_尚硅谷大数据技术_Flink理论_Window API（一）_基本概念

350

16分33秒

042_尚硅谷大数据技术_Flink理论_Window API（二）_窗口类型

360

17分18秒

043_尚硅谷大数据技术_Flink理论_Window API（三）_窗口分配器

330

19分24秒

044_尚硅谷大数据技术_Flink理论_Window API（四）_窗口函数（一）时间窗口u增量聚合

340

14分45秒

045_尚硅谷大数据技术_Flink理论_Window API（五）_窗口函数（二）时间窗口全窗口聚合

370

12分59秒

046_尚硅谷大数据技术_Flink理论_Window API（六）_窗口函数（三）计数窗口测试

310

20分8秒

047_尚硅谷大数据技术_Flink理论_Window API（七）_其它可选API

340

6分55秒

048_尚硅谷大数据技术_Flink理论_时间语义（一）_时间语义概念

440

11分18秒

049_尚硅谷大数据技术_Flink理论_时间语义（二）_时间语义的应用

380

4分51秒

050_尚硅谷大数据技术_Flink理论_时间语义（三）_事件时间语义的设置

460

21分13秒

051_尚硅谷大数据技术_Flink理论_Watermark（四）_Watermark概念和原理

390

17分48秒

052_尚硅谷大数据技术_Flink理论_Watermark（五）_Watermark特点和行为

480

9分0秒

053_尚硅谷大数据技术_Flink理论_Watermark（六）_Watermark在任务间的传递

340

21分44秒

054_尚硅谷大数据技术_Flink理论_Watermark（七）_Watermark在代码中的设置

380

10分41秒

055_尚硅谷大数据技术_Flink理论_Watermark（八）_Watermark的设定原则

400

11分59秒

056_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（一）

380

15分48秒

057_尚硅谷大数据技术_Flink理论_窗口起始点和偏移量

360

9分20秒

058_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（二）迟到数据处理

370

9分7秒

059_尚硅谷大数据技术_Flink理论_状态管理（一）状态定义

330

21分11秒

060_尚硅谷大数据技术_Flink理论_状态管理（二）算子状态

440

26分41秒

061_尚硅谷大数据技术_Flink理论_状态管理（三）键控状态

380

16分29秒

062_尚硅谷大数据技术_Flink理论_状态编程_温度跳变报警

420

15分56秒

063_尚硅谷大数据技术_Flink理论_并行任务Watermark传递测试

380

21分58秒

064_尚硅谷大数据技术_Flink理论_状态管理（四）状态后端

420

13分31秒

065_尚硅谷大数据技术_Flink理论_ProcessFunction（一）整体介绍和分类

330

24分55秒

066_尚硅谷大数据技术_Flink理论_ProcessFunction（二）KeyedProcessFunction测试

360

25分30秒

067_尚硅谷大数据技术_Flink理论_ProcessFunction（三）应用案例_一段时间内温度连续上升

380

10分2秒

068_尚硅谷大数据技术_Flink理论_ProcessFunction（四）应用案例_高低温分流

370

11分21秒

069_尚硅谷大数据技术_Flink理论_容错机制（一）检查点概念

370

6分39秒

070_尚硅谷大数据技术_Flink理论_容错机制（二）从检查点做故障恢复

330

14分54秒

071_尚硅谷大数据技术_Flink理论_容错机制（三）检查点算法思路和Barrier

350

22分14秒

072_尚硅谷大数据技术_Flink理论_容错机制（四）检查点具体算法

370

7分23秒

073_尚硅谷大数据技术_Flink理论_容错机制（五）保存点

390

23分6秒

074_尚硅谷大数据技术_Flink理论_容错机制（六）检查点和重启策略配置

410

9分38秒

075_尚硅谷大数据技术_Flink理论_状态一致性（一）一致性概念和分类

430

8分6秒

076_尚硅谷大数据技术_Flink理论_状态一致性（二）端到端状态一致性

390

5分12秒

077_尚硅谷大数据技术_Flink理论_状态一致性（三）幂等写入

340

18分58秒

078_尚硅谷大数据技术_Flink理论_状态一致性（四）事物写入_预写日志和两阶段提交

370

18分29秒

079_尚硅谷大数据技术_Flink理论_状态一致性（五）事物写入_Flink和Kafka连接保证状态一致性

350

24分1秒

080_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（一）_基本介绍和简单示例

390

6分59秒

081_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二）_基本程序结构

380

12分36秒

082_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（三）_表环境配置

310

21分50秒

083_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（四）_创建表_从文件读取数据

470

15分55秒

084_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（五）_表的查询

390

8分10秒

085_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（六）_表的输出_输出到文件

320

16分32秒

086_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（七）_Kafka数据管道测试

330

8分1秒

087_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（八）_更新模式

410

10分8秒

088_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（九）_输出到其它外部系统

310

9分33秒

089_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十）_表和流的转换

350

19分35秒

090_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十一）_动态表和持续查询

340

12分22秒

091_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十二）_处理时间特性

330

10分9秒

092_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十三）_事件时间特性

330

25分49秒

093_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十四）_分组窗口

300

19分14秒

094_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十五）_开窗函数

390

14分44秒

095_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十六）_系统内置函数

310

21分22秒

096_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十七）_标量函数

340

18分50秒

097_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十八）_表函数

370

20分0秒

098_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十九）_聚合函数

380

7分31秒

099_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二十）_表聚合函数

420

005_尚硅谷大数据技术_Flink理论_Flink简介（五）Flink的特点

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐