温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下大数据计算引擎弗林克生态圈的组件。首先了解一下什么是弗林克。弗林克是一个分布式计算引擎,通过使用弗link可可以计算有边界数据流和无边界数据流。这里的有边界数据流其实就是批出的底线数据,而无边界数据流就是流出理的实时数据。在弗link中提供了data塔set的API和data塔swimming API两套接口,分别处理这两种数据流。弗Link与斯Spark一样在内存中完成计算并进行状态的管理,通过检查点的使用,可以把内存中计算的数据进行持久化存储,以保证数据的安全,并支持容错的功能。持久化存储可是文件,也可以是数据库。了解到了弗林克的基本知识后,下面讨论一下弗林可生态圈中的组件。弗林可生态圈可以被划分成三层,分别是平台层、核心层和最上层的API。
01:00
Libraryary首先讨论一下平台层,平台层研究的是K把弗link部署成哪些模式,一共有三种不同的模式。第一种是local模式,它是指可以在IDE的开发环境中直接运行弗link应用程序,因此这种模式多用于开发和测试环境中。第二种是class的集群模式,它具体分为两种不同的集群,S当的alone的独立运行模式和亚运行模式。在S当的along的独立运行模式下,弗林克集群不需要依赖其他的组件独立运行任务和管理集群资源,在亚模式下,弗林克需要亚M来管理资源和任务的调度。亚姆斯哈多普2.0版本home提供的一个资源和任务调度平台。第三种是云原生模式,该模式可以把弗林可运行部署在多cker和K80的容器中。有了平台层的支持就可以部署弗林克的。在弗林克生态。
02:00
中最核心的是它的执行引擎runtime,它是一个分布式流处理引擎,主要用于流处理的实时计算。因此使用fcom处理P处理的离线数据时,系统的吞吐量不如10SPA克。在执行引擎run汉之上是德塔斯的API和德塔SIMAPI,他们分别用于处理离线数据和流失数据。为了简化用程序的开发,弗林可对API进行的封装,从而提供了一系列的库。首先看一下P处理模块,Flink提供了flink table和flink c, 为支持C口语句,还提供了ML列和咖喱。因为支持机器学习和图计算,这里需要重点讨论一下机器学习。机器学习的本质上讨论的是算法,它是人工智能的基础,与大数体系没有本质上的联系,因为大数据体系研究的是数据的存储和数据的计算,只是在大数据体系中支持机学习的算法在。
03:00
再看一下流处理模块,基于CAPI同样可以使用fli table和F,同时还提供CP,已支持复杂事件处理。Cp complex event process的缩写CTC是变更数据库,或它是一种ETL数据采集方式,全称是change data塔capture。现在你已经知道弗林克生态圈中的组建了,那你知道如何部署弗林可集群吗?欢迎评论区留言讨论好了,记得点加号关注赵宇强老师。
我来说两句