00:01
那么我们关于数据结构的这一块呢,就先告一段落。我们接下来往下看,这个配置文件里面剩下重要的三个组件。嗯,接下来呢,是我们的S块。我们可以看source块呢,是用来声明数据源的。也就是这个位置。啊,我们的S块,不过S块里面呢,它可以声明什么呢?它可以声明多个连接器的插件。你们看到我们这里这个例子里面写的,比如说S和S里面我们可以写一个HDFS啊,然后它的配置,然后ES呢,然后它的配置啊,GTBC,然后它的配置。是如果你声明多个SS插件呢,你要考虑一个这样的问题啊,我们有多个的SS插件。我们后面还可以声明这个转这个转换插件,那我声明了一个转换插件。我这个转换插件用的是谁里面的数据呢?对吧,所以说我前面的so插件呢,它必须要有一个东西,就是可以标明它的唯一性,也就是我这个数据源它叫什么。
01:02
啊,那么这个在墙里面是怎么解决的呢?实际上我们可以给这个。呃,数据源也就是source插件里面去声明一个,然后这个属性的名称呢,就在下面,这个属性名称叫result name,也就是说我们可以让这个语言里面的这个数据。导入到这个can里面的工作环境之后呢,它实际上是可以像这个弗Li克job里面,它其实还有一个表环境在我们的这个框架里面。那么它会向这个表环境里面把你读到的这个数据源出来的这个数据注册成table里面的一张表。当然你在这个指定的result table name之后呢,啊,你还可以指定final name,也就是说我们希望这个表里面呢,呃,有几个字段,然后他们各自的名称是什么。呃,那么这个工作是谁完成的呢?我们后面的时候会讲解,就是它的整个一个执行逻辑啊,目前呢,你知道就是我们这里可以设定啊结果表明,还有一旦设置了结果表明之后呢,我们还可以制指定这个字段名称就可以了。
02:05
然后这里再讲一下,就是我们的这个插件里面,实际上你想。呃,这个HDFS,还有这个ES,还有JGBC,他们所需要的参数肯定是很不相同的,嗯,很不相同的话,我们怎么样知道这个,呃,插件里面具体需要写什么参数呢?我们说在这个地方呢,其实你最好去参考官方的文档。啊,看看官方的文档它是怎么写的,然后我们这个地方呢,可以带大家去看一眼官方的文档。我们直接去看他的getub哈,然后我们这里直接。It tunnel。哦,这就是。对,他这个仓库在get HUB上的一个啊,我可以看到的页面完了之后呢,它这里有一个read me,也就是这个读我对吧,这个是文档,一般的这个项目里面呢,都会放一个read me,就告诉大家应该怎么用我这个框架,我这框架干什么的一些基本介绍。
03:00
然后我们在这个地方呢,实际上可以找到很多的一些资料,比如说我们是干什么的是吧,为什么你要用用我这个东西啊,然后完了之后他的这个啊很多啊,包括这个其他的一个工作流是吧,这个我们刚才说过了。啊,还有一个就是I plug plug supported by can,就是说can,它支持的插件,我们可以看到这个connector,然后完了之后它就是它的连接器source think,它支持什么?有了这个文档的就是它支持的,完了之后还有一个是transform,你可以看到这个transform的实际上大多数都没有支持到,他现在目前来说的话只是Jason,然后split,还有一个circle。是支持的,但是呢,你要注意哈,就是我们现在看到的这个read me呢,它实际上是。是dev这个分支上的dev是吧,它实际上是一个开发分支啊,那么我们刚才讲课用的呢,是2.1.0的分支,怎么办呢?你点一下这个,我们看2.1.0的这个情况,去这个版本去。然后我们这个切换到这个2.1.0这个这个地方呢,我们再往下拉。
04:05
啊,你看这个前面那张基本基本没有怎么变,但是哈,这个plugins这个文档它是变了的,它是它是有很大的一个变化的,我们看到这个2.1.0版本的这个。拉这个文档呢,实际上啊,它是source里面还有think,它实际上是分Spark的,你看到没有,比如说这Spark支持的source s。完了之后我们还往下看。呃,这个是flink支持的source s,但是我们刚才看那个div分支的时候呢,发现没有对吧,发现没有,为什么在div分支里面不分这个flink和Spark了呢?因为哈,在2.1.0之后的版本,就是现在社区正在做的一个事情,就是把插件。把插件和引擎解耦。也就是我后面以后呢。这个插件呢,在这个写的实现呢,可能就是说啊,我只实现一个插件完了之后具体的这个。
05:01
啊,跟这个Spark还是跟这个弗Li的环境呢,就没有关系了啊,这是这个它最近要做的一次重构。我们这个提前就预告一下,那目前呢,你要看我们这个视频课的话呢,要读的文档还是要读这个2.1.0这个版本的文档。啊,我们可以试着去读读一下看看,比如说我们说去找一个这个卡夫卡弗林卡夫卡的这个S文档。我点进来之后呢。啊,直接可以看到一个它的用法。比如说我支持一些选项options啊,你可以说这个topics是吧,然后你说那个哪些哪些这个话题完了之后啊,你的group ID,然后你的这个booksshp啊向哪。那个集群去消费完了之后,包括这个啊,Format tap这些东西,待会儿后面我们讲那个卡夫卡案例的时候,会讲这些东西怎么用。啊,再往下看的话,它对每一个选项都会有一个比较详细的说明,然后上面这个表呢,他还告诉你哪一些这个啊选项是必选的,就是必须得得有的,然后哪一些选项呢是可以没有的。
06:04
啊,包括这个他支持的一些东西是吧,这个文档都写的明明白白啊最后呢,我们要注意到问一个问题,就是它这里有一个公共选项,那么公共选项是什么呢?公共选项是指啊我们所有的source,也就是这个,也就是我这个插件。和这个别的这个source插件,他们一些公共的选项是什么,我们可以看到这个页面上去。那我们点这个plug。啊,也可以看到,我们看到了一个。Source options是吧,就是这个source的一个公共的选项,而且是在flink这个引擎上的,所以我们可以看到它这里面只有两个,一个就是我们刚才说的这个结果表明,另外一个就是字段明。也就是说所有的source插件它都是支持啊,设定结果表明和字段名的。啊,这里他给了一个这个事例。
07:03
我们可以看到这里说啊,结果呢,这个数据源的这个结果啊,会被会被注册到一个这个啊名为F的表里面去。然后呢,这个表可以被啊这个转换插件或者是think插件。啊,来使用这个source table name这个这个选项来来消费它里面的数据,那么这呢,就是啊,我们这个配置文件里面source块的情况。
我来说两句