温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:01
好的,我们上一讲呢,就是把这个塔它核心的源码呢看了一下,当然这并不是他全部的源码,我们只是说核心的部分。啊,那么我们回头呢,来看一下这个一个总结性的东西,那么我们可以看到写他度的一个基本原理,实际上呢,我们可以看到就是啊,我们在这个配置文件里面所编写的四个块,呃,在这个代码里面呢,映射的实际上就是一个疑问对象和三个集合,然后最后呢,由excution对象来搭建啊,来组合这个数据流啊最后呢,调用这个环境的第的方法啊,整个触发整个job的一个执行。啊,就是它这个图上一看的话,就感觉就比较简单了,这样的话啊,我们后面再看的话就是。对他做一个总结。嗯,C塔的一个重要概念,这个是我们刚才对三个放循环的一个抽象的图啊,我可以看到仍然是这个肉呢,它是各个插件之间的重要交换对象啊,同时呢,这个,呃,我们可以去配置这个result name是吧,完了之后name和result name,这都是刚才那个for循环里面的一些东西。
01:07
呃,最后呢,我们会发现这个因对象呢,其实是所有的插件它都可以去访问的一个对象,因为它这个对象就是在挂在这个execution对象里面的。啊,然后这个任何的这个插件呢,它都可以通过这个环境来获取一些表里的数据啊,通过这个环境来获取到自己有用的信息,那当然你如果对他进行二次开发的话,就是。可以啊,很方便的,就没有什么限制。那么我们再往下看的话就是啊,如果你愿意呢,实际上依托这个思库插件,还有udf啊,你可以搭一个很复杂的工作流,就像我们刚才这样说的,就是这个工作流可以搭的很复杂,但是你要注意的是,就是我们的C塔诺呢,它定位是一个数据集成的框架啊,也就是说在技术点上呢,核心还是以数据同步为主,而不是以数据分析为主啊,所以说呢,这个这种方式呢,其实不是我们这个C塔这个框架所提倡的啊,那么你其实也可以减少表面的使用,像用这种这个啥,就组成这种一杆的同到底的这种模型,那么一般来说呢,在这个数据集成框架里面呢。
02:14
啊,其实是少做一些这种啊,就是。复杂的计算啊,我们主要还是放在这个数据同步上。
我来说两句