00:00
我们已经了解了在flink当中集群部署和作业提交的相关流程,而且也了解了运行架构当中的一些重要概念。当然,了解概念并不是我们的目的,我们还是要进行大量的代码练习来看一看到底怎么样用flink去实现具体的。需求的开发,那所以接下来我们要讲的第五章主要就是flink当中data STEM API的使用,那其实在第二章的时候,我们介绍flink快速上手的时候,曾经写过一个非常简单的world程序,在里边我们其实就用到了data set API和data streampi。在那里我们对flink它做批处理和流处理的这种编程风格和方式都有了一些基本的了解,那关于data set API和data stream API,前面我们已经了解到,这是flink分层API里边的核心层API啊,那这一部分内容。
01:04
分成两大块儿,一部分是data set,另外一块是data stream,之前我们讲到做批处理的时候可以直接用data set API,但是这一部分其实现在已经不重要了。因为新版本的flink已经完全实现了流批一体,所以其实所有data set API能够做的事情呢,都可以用data stream API统一把它搞定。啊,那他的基本思想其实就是我们前面介绍到的。把有界的数据集当成一个所谓的有界流来处理,这样的话我们就可以处理这个类似于DES set相关的功能了,那呃,所有的内容都可以通过data stream API去处理,所以这一部分内容其实是非常多的。我们。接下来会用好几章的篇幅来详细的进行讲解,那当前的这一章第五章主要介绍的是t streamam API里边的一些基本的用法,那经过本章的学习,我们其实就可以了解一个flink程序到底应该长什么样,也可以用它去实现一些非常基础的功能。
02:20
完成一些需求了。那整体来讲,这最美API其实就是link里边。基于data stream这样一个数据结构设计出来的一整套调用的接口,那么data stream可以认为是一个表示数据结合的类啊,那所以。这种数据表示数据集合的data stream可以看成类似于Java里边的。集合类型,但是它具体实现当然是有所不一样的,我们在使用的过程当中,其实并不去关心这个集合当中具体的数据,而是直接给它定义出一整串的操作,那就是考虑当前这个数据来了之后,我们接下来是要对数据进行怎么样的转换处理。
03:11
这所有的转换处理前后啊,直接用这个链式调用的方式把它们连接在一起,这样用API定义出的一连串操作,我们就把它叫做数据流的转换操作。所谓的transformation指的就是data stream上面的这些一连串的API调用,那所以简单来看的话,一个flink程序其实就是datatream的各种转换。那当然,从一开始,我们首先是要先去做一个执行环境的获取。然后基于这个执行环境可以去读取数据源,有了数据源之后得到的返回的数据类型就应该是一个data stream,那么基于它再去定义各种转换操作,所谓的transformation。那最后。
04:03
还应该有一步操作,就是要定义计算结果输出到哪里去,这一步在flink里边叫做think think这个单词其实在英文当中是有下沉的意思,所以有时候可可能呃,有一些文章或者书籍里边会把对应的这一步操作啊,跟前面的这个数据源source对应,把它叫做数据汇,数据的汇集汇入啊,这里我们如果简单理解的话,就把它叫做数据的输出就可以了。那当然最后还有一步是所谓的触发程序执行啊,所谓的execute。那所以所有这这里边的每一个步骤啊。最开始的获取执行环境和最后边的触发程序执行都可以是认为是整个我们这个程序架构的一个要求,它是针对执行环境的操作,所以整体来讲,我们这一章对于this stream API的介绍也分成这样的四大部分来做一个介绍,首先就是针对执行环境的一个获取,以及最后我们要。
05:11
对它进行一个程序的触发执行,那么后边呢,就是基于执行环境获取数据源S,这是第一步,然后第二步就是中间转换transformation。或者叫做transform,然后最后一步是数据的输出think。这就是我们想要。用使用data three API构建出来的程序的基本结构。
我来说两句