文章/答案/技术大牛

发布

首页视频【赵渝强老师】Flink生态圈组件

【赵渝强老师】Flink生态圈组件原创

2025-03-122025-03-12 21:04:37播放361

点赞0 收藏 0

【赵渝强老师】Flink生态圈组件

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
本节课我们来讨论一下大数据计算引擎弗林克生态圈的组件。首先了解一下什么是弗林克。弗林克是一个分布式计算引擎，通过使用弗link可可以计算有边界数据流和无边界数据流。这里的有边界数据流其实就是批出的底线数据，而无边界数据流就是流出理的实时数据。在弗link中提供了data塔set的API和data塔swimming API两套接口，分别处理这两种数据流。弗Link与斯Spark一样在内存中完成计算并进行状态的管理，通过检查点的使用，可以把内存中计算的数据进行持久化存储，以保证数据的安全，并支持容错的功能。持久化存储可是文件，也可以是数据库。了解到了弗林克的基本知识后，下面讨论一下弗林可生态圈中的组件。弗林可生态圈可以被划分成三层，分别是平台层、核心层和最上层的API。
01:00
Libraryary首先讨论一下平台层，平台层研究的是K把弗link部署成哪些模式，一共有三种不同的模式。第一种是local模式，它是指可以在IDE的开发环境中直接运行弗link应用程序，因此这种模式多用于开发和测试环境中。第二种是class的集群模式，它具体分为两种不同的集群，S当的alone的独立运行模式和亚运行模式。在S当的along的独立运行模式下，弗林克集群不需要依赖其他的组件独立运行任务和管理集群资源，在亚模式下，弗林克需要亚M来管理资源和任务的调度。亚姆斯哈多普2.0版本home提供的一个资源和任务调度平台。第三种是云原生模式，该模式可以把弗林可运行部署在多cker和K80的容器中。有了平台层的支持就可以部署弗林克的。在弗林克生态。
02:00
中最核心的是它的执行引擎runtime，它是一个分布式流处理引擎，主要用于流处理的实时计算。因此使用fcom处理P处理的离线数据时，系统的吞吐量不如10SPA克。在执行引擎run汉之上是德塔斯的API和德塔SIMAPI，他们分别用于处理离线数据和流失数据。为了简化用程序的开发，弗林可对API进行的封装，从而提供了一系列的库。首先看一下P处理模块，Flink提供了flink table和flink c, 为支持C口语句，还提供了ML列和咖喱。因为支持机器学习和图计算，这里需要重点讨论一下机器学习。机器学习的本质上讨论的是算法，它是人工智能的基础，与大数体系没有本质上的联系，因为大数据体系研究的是数据的存储和数据的计算，只是在大数据体系中支持机学习的算法在。
03:00
再看一下流处理模块，基于CAPI同样可以使用fli table和F，同时还提供CP，已支持复杂事件处理。Cp complex event process的缩写CTC是变更数据库，或它是一种ETL数据采集方式，全称是change data塔capture。现在你已经知道弗林克生态圈中的组建了，那你知道如何部署弗林可集群吗？欢迎评论区留言讨论好了，记得点加号关注赵宇强老师。

展开

我来说两句

0 条评论

登录后参与评论

作者

赵渝强老师

【合辑】大数据技术

（55/59）

1分9秒

【赵渝强老师】Hive的单字段动态分区表

1K0

1分9秒

【赵渝强老师】Hive的半自动动态分区表

6640

1分8秒

【赵渝强老师】Hive的多字段全动态分区表

4680

1分14秒

【赵渝强老师】Hive的分区表

3770

1分11秒

【赵渝强老师】Hive的静态分区表

6530

1分24秒

【赵渝强老师】Hive的数据模型

3770

1分34秒

【赵渝强老师】Hive的内部表

3730

1分25秒

【赵渝强老师】Hive的外部表

3690

1分41秒

【赵渝强老师】大数据技术的理论基础

3860

1分33秒

【赵渝强老师】大数据生态圈中的组件

3660

1分24秒

【赵渝强老师】大数据主从架构的单点故障

3420

1分35秒

【赵渝强老师】HDFS的HA

3720

3分53秒

【赵渝强老师】数据仓库与大数据

9770

1分15秒

【赵渝强老师】Spark中的RDD

1.1K0

2分27秒

【赵渝强老师】基于RBF的HDFS联邦架构

2.3K0

1分41秒

【赵渝强老师】Spark中的DStream

1.1K0

1分25秒

【赵渝强老师】Spark中的DataFrame

3540

2分29秒

【赵渝强老师】基于ViewFS的HDFS联邦架构

1.8K0

2分11秒

【赵渝强老师】Kafka分区的副本机制

3930

1分28秒

【赵渝强老师】Kafka的主题与分区

3530

2分39秒

【赵渝强老师】阿里云大数据生态圈体系

3660

2分14秒

【赵渝强老师】MapReduce计算模型

3570

2分33秒

【赵渝强老师】Hive的体系架构

3790

2分22秒

【赵渝强老师】HBase的表结构

3570

2分35秒

【赵渝强老师】HBase的体系架构

1.4K0

2分47秒

【赵渝强老师】Kafka的体系架构

3620

2分0秒

【赵渝强老师】数据集成的大数据流批一体架构

3880

2分18秒

【赵渝强老师】数据仓库的流批一体架构

3950

2分22秒

【赵渝强老师】数据湖的流批一体架构

3640

2分53秒

【赵渝强老师】HDFS数据上传的过程

3510

3分20秒

【赵渝强老师】Hadoop的本地模式

3850

2分43秒

【赵渝强老师】HDFS数据下载的过程

3700

3分20秒

【赵渝强老师】Flink生态圈组件

3570

3分14秒

【赵渝强老师】Yarn的资源调度策略

3430

3分48秒

【赵渝强老师】Spark生态圈组件

3630

3分24秒

【赵渝强老师】Hadoop生态圈组件

3600

3分44秒

【赵渝强老师】大数据平台的Lambda架构

1.3K0

3分4秒

【赵渝强老师】大数据平台的Kappa架构

3740

1分51秒

【赵渝强老师】SparkRDD的窄依赖关系

3730

1分49秒

【赵渝强老师】Spark RDD的宽依赖关系

3830

2分3秒

【赵渝强老师】如何划分Spark任务的执行阶段

1.4K0

1分36秒

【赵渝强老师】Spark的容错机制-检查点

3720

1分31秒

【赵渝强老师】Spark RDD的缓存机制

9210

1分36秒

【赵渝强老师】Kafka生产者的执行过程

8300

1分44秒

【赵渝强老师】Kafka生产者的消息发送方式

8390

1分37秒

【赵渝强老师】Kafka的消费者与消费者组

8270

1分32秒

【赵渝强老师】Kafka消息的消费模式

8130

1分58秒

【赵渝强老师】HDFS的体系架构

1.7K0

1分55秒

【赵渝强老师】大数据的学习路线

1.1K0

1分48秒

【赵渝强老师】为什么Spark中不存在真正的实时计算

3590

4分11秒

【赵渝强老师】大数据平台的Lambda架构

1.4K0

3分41秒

【赵渝强老师】大数据平台的Kappa架构

3460

3分54秒

【赵渝强老师】Hadoop生态圈组件

6850

3分32秒

【赵渝强老师】Spark生态圈组件

3700

3分35秒

【赵渝强老师】Flink生态圈组件

3610

1分4秒

【赵渝强老师】大数据交换引擎Sqoop

3620

1分22秒

【赵渝强老师】Hadoop HDFS的快照

3560

1分31秒

【赵渝强老师】大数据日志采集引擎Flume

3570

1分38秒

【赵渝强老师】大数据的湖仓一体架构

1.1K0

【赵渝强老师】Flink生态圈组件原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐