文章/答案/技术大牛

发布

首页视频002_尚硅谷大数据技术_Flink理论_Flink简介（二）为什么要用Flink

002_尚硅谷大数据技术_Flink理论_Flink简介（二）为什么要用Flink

2022-12-022022-12-02 16:02:17播放37

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分/002_尚硅谷大数据技术_Flink理论_Flink简介（二）为什么要用Flink.wmv

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
再来呢，我们来看一看flink在全球范围内的一个热度的体现啊，大家看这张图其实看的一目了然啊啊flink其实现在从它产生啊开始发展之后，呃，其实就是在短短的几年时间内啊，已经得到了非踌速广泛的这种发展和应用，那在可以说是在全球范围内都有应用啊，那主要集中在其实就是欧洲北美对吧，然后还有这个金砖国家，大家看这个俄罗斯，巴西，中国印度啊，就主要就是这些比较发达，然后技术也走在这个全球前列的这些国家，那当前这个全球的热度，如果大家要来对比的话啊，大家会发现集中在哪里呢？啊，就集中在中国对吧？啊甚至我们看到如果说中国的热度是100是满分的话，其他地方，其他地区的热度可能只有个位数。为什么会出现这样的一种场景呢？啊，当然大家会想到，首先我们说这是因为中国国内有巨头在挑头做这件事儿啊，这个以阿里为首的啊，一众互联网巨头公司都在FNK上有很大的投入啊，都在着重发展这一块的流失处理计算啊，啊那为什么中国国内的公司就。
01:17
对flink的兴趣就这么浓厚呢？啊其实我们可以想到啊，首先一方面是因为呃，国内我们的这个技术实力也很强啊，很多这个大公司也是走在了这个国际的前列啊，我们会尝试一些新兴的这个框架和新兴的技术的，首先一方面是这个啊，我们创新能力是足够的，另外一方面，其实大家想到是不是主要是因为中国人多啊，啊对吧，大家想中国人多，那就是特别是中国的这个一线大厂，像像阿里，像京东啊，像这个腾讯这些大厂，他们会遇到一个什么样的一个问题呢？就是我在短时间内，假如说我想去做这个实时计算，是不是有可能那个数据量非常非常大呀，诶就有可能达到什么级别，就是达到直接就是上亿个用户的数据啊，就是几几亿条，十几亿几十亿的这个数据啊，短时间内大量的就来了啊，大家想这种场景，这在国外完全就不可想象啊，你说一个国家一共才几千万人啊，你。
02:18
总共这个上亿的用户，我到哪儿找那么多用户呢？啊，所以这种应用场景在国内来讲，可以说是很多公司的一个挑战，那也是一个推动公司技术进步的一个动力，对吧，你因为要解决这样的极端的场景，所以说我们就要找更新的技术，更好的框架来解决啊，那所以呃，Flink其实就是在这种场景下啊，有有了这个长足的进步和发展的。那我们再看一下，在目前国内企业里边，到底哪些企业有应用呢？啊，那这张图其实是很多，其实我们可以看到啊，几乎就是所有的这个一线大厂都有比较丰富的应用，那以阿里为首，阿里腾讯，华为，网易对吧？啊，滴滴饿了么，京东360啊就这涵盖的也是各行各业，包括啊电商，即时通讯啊，就包括这个偏硬件啊，做做硬件相关的内容，包括门户网站，包括我们这个安全方面的网络安全，还有这个呃，视频网站，还有这个出行打车啊，外卖的一些网站啊，就这些所有的场景下，其实都有flink的应用，那所以大家就会想到，呃，为什么在这些行业里边都会有应用，大家都想用flink去做数据处理呢？
03:38
哎，那接下来我们其实要解决的一个问题就是为什么选择flink。首先我们想这样的一个问题啊，我们在日常生活中，大家遇到的这个数据，我们现在要处理数据做计算呢，大家见到的这个数据应该是什么样的呢？啊，有同学可能说那数据长什么样，那不就是呃一开始我们那个收集日志嘛，是吧？啊，他本身那个当时那个日志写什么数据，不就是什么数据吗？我们这里说的并不是说它具体一条数据是什么样啊，因为我们现在是呃大数据处理嘛，我们说的是大量海量的数据，他来到我们的处理系统里边的时候是什么样子。
04:19
那主要的区分就是它是一整批来的呢，还是说数据是源源不断的产生，源源不断的来的呢？哎，有同学说，诶，那我们一般处理数据好像是一批一批来的，对吧？哎，那这个就我们要考虑一下，数据在真实生成的时候，在生产环境里边，它是一批一批产生的吗？对，所以这就涉及到一个问题了，大家其实会发现我们真实的这个生产环境里边，数据其实产生的过程是连续不断的，对不对？你说我们收集这个日志啊，往往我们都是一个这个网站应用嘛，有自己的这个后台处理系统，我们收集的是用户的一些行为，或者说系统内发生的一些事件，那这些事件是不是我并不能确定，他在哪个时间段内就可以生成一一组事件，然后一下子传输啊，它本身发生事件是不是随时都会发生，哎，你像用户那边有点击操作对吧，有这个下单行为，他那边是不是随时都有可能发生啊。
05:21
你并不可能限定说，诶一定就是这个时间段，你来来一批用户的点击直接发给我啊，所以在真实的处理场景下，数据是连续不断生成的，它的这种生成的模式，这就叫做数据流，或者说流逝的数据，就是前面我们提到的data streams，这个数据的特点就是它不是攒一批直接发出来，直接拿过来的，而是。一个一个连续不断，就像水流一样，这就是数据流的一个概念。啊，那举一个生活当中的例子，大家可能就理解的更加明显了啊，啊，那就是比方说像我们这个平常聊天，我们拿一些即时通讯的这个工具，QQ或者微信，大家在聊天的时候，你说你这个聊天数据是我们的数据，就是聊天要说的话，对吧，你是攒一堆话，然后一次回车，一下子发给对方呢，还是说我有一句就发一条，有一句发一条啊，一般我们肯定都是有一条就发一条，对不对，然后那对方那边直接收到之后，就可以跟你回复，就可以跟你聊天了，你如果要是攒一批一下子发过去的话，这这叫写信，这这叫写邮件，对不对，对吧？这其实就跟我们这个日常行为，大家就会看到啊，写信这种方式就有点儿像是一批攒一批，然后以下发的这种方式，而我们实时的聊天其实是一个流处理流数据，来一条数据就发一条，这样的一个状态。
06:49
那自然我们就想到另外一个问题了，为什么我们在真实处理的时候，大家感觉好像大部分我们用到的数据都是一批一批来的呢？啊，其实主要的问题就在于，如果你要是处理流数据的话，大家想他连续不断的来，那是不是我这边就得一直等着，然后来一个就得处理一个呀，这个过程是不是就会特别的麻烦，呃，像我们这个生活当中，大家也都很习惯嘛，就是你像我们这个聊天的话，最好的方式当然就是别人发一条，是不是我这边收到了之后处理也应该是看到一条信息，我就马上要处理一条啊，这样这才叫聊天嘛啊，你发一个我发一个，你一言我一语聊起来了，但是往往我们经翅出现什么状况，我这会儿有别的事儿在忙，对吧，那是不是我处理信息的时候就不会那么及时啊。
07:39
所以大家会想到，我们往往就会用一个什么样的方式。我就不要是说好像是时刻待命，随时都在盯着手机信息的这个状态，我就是我可以先干别的，然后呢，我过一段时间看一下，诶过去的这段时间到底有谁给我发信息了呢，然后我来，诶相当于是不是批量处理一下呀。所以大家会发现，对于这个人来讲是这样，对于机器来讲也是这样，你如果让这个机器，他要不停的等待随时发生的事件，然后来一个就处理一个，这对于机器来讲，它性能的要求是比较高的，那机器更容易做什么事情呢？那就是你隔一段时间数据都攒齐了，来一批放在那儿，然后你让我做什么计算，我就做什么嘛，对吧？你要统计这个求和，我就统计求和，你要算平均数，我就算一个平均数，这不是非常简单的一件事情吗？
08:30
啊，所以大家看，就是我们传统的数据架构，一般即使是处理这个流式的数据，我们现在也都是用攒成一批，我们都是把它当成一个数据集来进行处理的，这就是我们想要的这个实际处理流程和现实的一个差别。那大家想一下，就是我们传统的这种处理方式，基于数据集有什么问题没有？它做起来是比较比较容易是吧，很很容易实现，但是对大家就想到你既然要攒一批再去做处理嘛，那这个攒一批的过程是不是就需要等一段时间啊，那就没有那么实时了，所以大家会发现，就像前面我们呃讲过这个实时处理的时候，可以用Spark streaming Spark streaming，他在处理这个数据的时候。
09:20
是不是也是一批一批的攒起来的，那这个过程它能达到非常实时吗？啊，其实我们知道一般情况我们要设置那个back Du对吧，就是批处理的那个时间的这个，呃，持续的长度啊，那个间隔，呃，一般情况我们可能都要设一个。啊，就是几百毫秒到几秒对吧，诶可能要达到一个秒级的延迟，那所以现在我们的目标我们就要提出一个新的任务了，我们希望要做到的是。更低的延迟，我们要做到毫秒级别的延迟。哦，那有同学可能想，那你这个要延迟比较低的话，这个简单吗？之前你不是说了吗？那我们就来一个处理一个吗？你数据这个每来一条数据，我马上接收到之后就直接处理，这不就完事了吗？哎，这个还没完，我们不简简单单的只是要做低延迟，我还需要。
10:12
对，还要吞吐量大，对吧，我还要能处理非常海量的数据，你像我们之前这个大数据处理的架构里边，大家想我们是怎么样处理海量数据的呢。之前我们是不是直接做一个分布式的扩展啊。只要我当前这个处理引擎是一个分布式的集群结构，那接下来是不是所有数据来了之后，我可以给他做这个分区处理，对吧，分区完了之后，然后然后再再合并在一起啊，最后得到一个最终的结果，这个就完事了，所以这是一个基本的思路。那我怎么样能够同时做到低延迟和高吞吐呢？啊，所以这就是接下来flink啊，呃，我们想要的这种新式的处理引擎，它要解决的这样一个问题。那最后呢，我还要保持一个结果的正确性和良好的容错性，这说的是什么呢？这其实大家会想到，就是如果说我要想实现这个高吞吐，那我是不是必须要做分布式，诶你一台机器搞不定了嘛，你直接加这个机器的性能，你CPU再强劲，这个内存再大，它它总也是有限的，对吧？啊，这个往上扩容，而且那个代价会越来越高，所以我们现在的大数据处理的方式，一般都是做这个分布式的扩展，那这种扩展的话就就会带来另外一个问题，我们还要低延迟。
11:32
低延迟的话，那是不是来一个就处理一个马上就处理啊，那就带来一个非常显著的问题，就是说我既然是分布式了，是不是在传输过程和中间处理的过程当中，数据有可能会出现这种乱序的情况啊。什么叫乱序呢？就是本来我这个数据，因为你是来一个就处理一个嘛，本来我这个数据是在前面的，然后经过这个网络传输啊，本来就有延迟，然后呢，它又分开分布式的去做处理，那是不是到后边去合并的时候，就有可能导致本来是在前面的，经过传输之后到后边了，对吧？那是不是就会导致我们最终结果不正确啊。
12:12
哎，所以这个问题就来了，你怎么能在这种场景下有保证结果正确呢？那当然最后还有一个就是容错性，这也是分布式架构里边的一个必须要解决的问题，因为分布式里边如果我们要有一个节点挂了的话。那大家想是不是就整个都都挂了，我得重新来了，所以在整个我们如果要是你对实时性很高的话，一个节点挂了，你就所有节点都回滚，就是全部都重新来做计算，这个代价太高，而且我们现在要处理的是流市数据，流市数据是不是源源不断的来啊，那你现在如果要是直接回滚到最早的那个源头的话，哇，那那这个数据量太大了是吧？啊，所以我们当然是要有良好的容错性，就是一个挂了之后，我还可以回滚到非常近的一个状态，然后直接跟上去去做计算就可以了，不要让所有的状态都回退到最初啊，所以这就是我们接下来要去实现的一些内容啊，我们的目标就是这几点。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Flink（Java版）/视频/Flink理论部分

（2/99）

5分36秒

001_尚硅谷大数据技术_Flink理论_Flink简介（一）Flink是什么

410

13分11秒

002_尚硅谷大数据技术_Flink理论_Flink简介（二）为什么要用Flink

370

12分49秒

003_尚硅谷大数据技术_Flink理论_Flink简介（三）流数据处理的行业

400

16分17秒

004_尚硅谷大数据技术_Flink理论_Flink简介（四）流处理的发展演变

320

9分14秒

005_尚硅谷大数据技术_Flink理论_Flink简介（五）Flink的特点

350

7分44秒

006_尚硅谷大数据技术_Flink理论_Flink简介（六）Flink vs Spark Streaming

350

26分36秒

007_尚硅谷大数据技术_Flink理论_简单上手（一）批处理WordCount

380

13分51秒

008_尚硅谷大数据技术_Flink理论_简单上手（二）流处理WordCount

300

10分59秒

009_尚硅谷大数据技术_Flink理论_简单上手（三）流式数据源测试

410

27分53秒

010_尚硅谷大数据技术_Flink理论_Flink部署（一）Flink安装和配置

420

24分18秒

011_尚硅谷大数据技术_Flink理论_Flink部署（二）Job的提交运行

400

7分5秒

012_尚硅谷大数据技术_Flink理论_Flink部署（三）资源的分配和并行度测试

420

6分54秒

013_尚硅谷大数据技术_Flink理论_Flink部署（四）命令行提交Job

450

14分7秒

014_尚硅谷大数据技术_Flink理论_Flink部署（五）Yarn和K8s平台的Flink部署

450

11分29秒

015_尚硅谷大数据技术_Flink理论_运行时架构（一）Flink四大组件

340

4分48秒

016_尚硅谷大数据技术_Flink理论_运行时架构（二）作业提交流程_抽象架构

370

4分48秒

017_尚硅谷大数据技术_Flink理论_运行时架构（三）Yarn上作业提交流程

370

7分26秒

018_尚硅谷大数据技术_Flink理论_运行时架构（四）作业调度原理及思考问题

360

27分16秒

019_尚硅谷大数据技术_Flink理论_运行时架构（五）Slot和任务调度

380

14分24秒

020_尚硅谷大数据技术_Flink理论_运行时架构（六）Slot和并行度的关系

440

11分0秒

021_尚硅谷大数据技术_Flink理论_运行时架构（七）程序结构和数据流图

340

19分37秒

022_尚硅谷大数据技术_Flink理论_运行时架构（八）数据传输和任务链

430

5分43秒

023_尚硅谷大数据技术_Flink理论_流处理API_创建执行环境

360

16分38秒

024_尚硅谷大数据技术_Flink理论_流处理API_Source（一）从集合读取数据

430

4分22秒

025_尚硅谷大数据技术_Flink理论_流处理API_Source（二）从文件读取数据

420

10分45秒

026_尚硅谷大数据技术_Flink理论_流处理API_Source（三）从kafka读取数据

370

22分21秒

027_尚硅谷大数据技术_Flink理论_流处理API_Source（四）自定义测试数据源

400

14分42秒

028_尚硅谷大数据技术_Flink理论_流处理API_Transform（一）基本转换操作

270

29分53秒

029_尚硅谷大数据技术_Flink理论_流处理API_Transform（二）滚动聚合

400

12分4秒

030_尚硅谷大数据技术_Flink理论_流处理API_Transform（三）reduce聚合

480

12分57秒

031_尚硅谷大数据技术_Flink理论_流处理API_Transform（四）分流

390

14分1秒

032_尚硅谷大数据技术_Flink理论_流处理API_Transform（五）connect合流

330

6分28秒

033_尚硅谷大数据技术_Flink理论_流处理API_Transform（六）union合流

330

6分21秒

034_尚硅谷大数据技术_Flink理论_流处理API_Flink支持的数据类型

370

25分10秒

035_尚硅谷大数据技术_Flink理论_流处理API_Flink中的UDF函数类

350

14分27秒

036_尚硅谷大数据技术_Flink理论_流处理API_Flink中的数据重分区操作

370

17分39秒

037_尚硅谷大数据技术_Flink理论_流处理API_Sink（一）_Kafka

470

17分5秒

038_尚硅谷大数据技术_Flink理论_流处理API_Sink（二）_Redis

410

19分18秒

039_尚硅谷大数据技术_Flink理论_流处理API_Sink（三）_Es

300

18分25秒

040_尚硅谷大数据技术_Flink理论_流处理API_Sink（四）_JDBC

390

7分18秒

041_尚硅谷大数据技术_Flink理论_Window API（一）_基本概念

350

16分33秒

042_尚硅谷大数据技术_Flink理论_Window API（二）_窗口类型

360

17分18秒

043_尚硅谷大数据技术_Flink理论_Window API（三）_窗口分配器

330

19分24秒

044_尚硅谷大数据技术_Flink理论_Window API（四）_窗口函数（一）时间窗口u增量聚合

340

14分45秒

045_尚硅谷大数据技术_Flink理论_Window API（五）_窗口函数（二）时间窗口全窗口聚合

370

12分59秒

046_尚硅谷大数据技术_Flink理论_Window API（六）_窗口函数（三）计数窗口测试

310

20分8秒

047_尚硅谷大数据技术_Flink理论_Window API（七）_其它可选API

340

6分55秒

048_尚硅谷大数据技术_Flink理论_时间语义（一）_时间语义概念

440

11分18秒

049_尚硅谷大数据技术_Flink理论_时间语义（二）_时间语义的应用

380

4分51秒

050_尚硅谷大数据技术_Flink理论_时间语义（三）_事件时间语义的设置

460

21分13秒

051_尚硅谷大数据技术_Flink理论_Watermark（四）_Watermark概念和原理

390

17分48秒

052_尚硅谷大数据技术_Flink理论_Watermark（五）_Watermark特点和行为

480

9分0秒

053_尚硅谷大数据技术_Flink理论_Watermark（六）_Watermark在任务间的传递

340

21分44秒

054_尚硅谷大数据技术_Flink理论_Watermark（七）_Watermark在代码中的设置

380

10分41秒

055_尚硅谷大数据技术_Flink理论_Watermark（八）_Watermark的设定原则

400

11分59秒

056_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（一）

380

15分48秒

057_尚硅谷大数据技术_Flink理论_窗口起始点和偏移量

360

9分20秒

058_尚硅谷大数据技术_Flink理论_事件时间语义下的窗口测试（二）迟到数据处理

370

9分7秒

059_尚硅谷大数据技术_Flink理论_状态管理（一）状态定义

330

21分11秒

060_尚硅谷大数据技术_Flink理论_状态管理（二）算子状态

440

26分41秒

061_尚硅谷大数据技术_Flink理论_状态管理（三）键控状态

380

16分29秒

062_尚硅谷大数据技术_Flink理论_状态编程_温度跳变报警

420

15分56秒

063_尚硅谷大数据技术_Flink理论_并行任务Watermark传递测试

380

21分58秒

064_尚硅谷大数据技术_Flink理论_状态管理（四）状态后端

420

13分31秒

065_尚硅谷大数据技术_Flink理论_ProcessFunction（一）整体介绍和分类

330

24分55秒

066_尚硅谷大数据技术_Flink理论_ProcessFunction（二）KeyedProcessFunction测试

360

25分30秒

067_尚硅谷大数据技术_Flink理论_ProcessFunction（三）应用案例_一段时间内温度连续上升

380

10分2秒

068_尚硅谷大数据技术_Flink理论_ProcessFunction（四）应用案例_高低温分流

360

11分21秒

069_尚硅谷大数据技术_Flink理论_容错机制（一）检查点概念

370

6分39秒

070_尚硅谷大数据技术_Flink理论_容错机制（二）从检查点做故障恢复

330

14分54秒

071_尚硅谷大数据技术_Flink理论_容错机制（三）检查点算法思路和Barrier

350

22分14秒

072_尚硅谷大数据技术_Flink理论_容错机制（四）检查点具体算法

370

7分23秒

073_尚硅谷大数据技术_Flink理论_容错机制（五）保存点

390

23分6秒

074_尚硅谷大数据技术_Flink理论_容错机制（六）检查点和重启策略配置

410

9分38秒

075_尚硅谷大数据技术_Flink理论_状态一致性（一）一致性概念和分类

430

8分6秒

076_尚硅谷大数据技术_Flink理论_状态一致性（二）端到端状态一致性

390

5分12秒

077_尚硅谷大数据技术_Flink理论_状态一致性（三）幂等写入

340

18分58秒

078_尚硅谷大数据技术_Flink理论_状态一致性（四）事物写入_预写日志和两阶段提交

370

18分29秒

079_尚硅谷大数据技术_Flink理论_状态一致性（五）事物写入_Flink和Kafka连接保证状态一致性

350

24分1秒

080_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（一）_基本介绍和简单示例

380

6分59秒

081_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二）_基本程序结构

380

12分36秒

082_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（三）_表环境配置

310

21分50秒

083_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（四）_创建表_从文件读取数据

450

15分55秒

084_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（五）_表的查询

390

8分10秒

085_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（六）_表的输出_输出到文件

320

16分32秒

086_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（七）_Kafka数据管道测试

330

8分1秒

087_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（八）_更新模式

410

10分8秒

088_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（九）_输出到其它外部系统

310

9分33秒

089_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十）_表和流的转换

350

19分35秒

090_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十一）_动态表和持续查询

340

12分22秒

091_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十二）_处理时间特性

330

10分9秒

092_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十三）_事件时间特性

330

25分49秒

093_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十四）_分组窗口

300

19分14秒

094_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十五）_开窗函数

390

14分44秒

095_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十六）_系统内置函数

310

21分22秒

096_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十七）_标量函数

340

18分50秒

097_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十八）_表函数

370

20分0秒

098_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（十九）_聚合函数

380

7分31秒

099_尚硅谷大数据技术_Flink理论_Table API和Flink SQL（二十）_表聚合函数

420

002_尚硅谷大数据技术_Flink理论_Flink简介（二）为什么要用Flink

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐