温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
那么接下来呢,我们来看一下这个塔的应用场景。啊,我们可以看到哈,就翻回来看这个图就是C他弄的,他其实自己没有自己的一个呃计算引擎,也没有自己处理这个数据同步的一个一套引擎啊,它是它是用什么呢?它实际上是把配置文件翻译成具体的Spark和flink任务,这样的话呢,它就是以Spark和fli为引擎,也就是说这些同步任务是由弗Li和Spark这种分布式计算框架去做的啊这样的一个好处呢,就是它是分布式的啊,其实数据同步呢,我们可以想到还有什么呀,还有data叉。但是data叉有个什么问题呢?就是它data塔叉是单点的,就它只能是在单机上运行,而他弄呢,它可以借助Spark和框架的能力啊,来把这个数据同步呢,做成一个分布式的,分布式的事情。所以说我们可以看看官网对自己的一个介绍,也就是其他弄的它适用于什么场景的,呃,其实这个数据的同步,数据的集成,这个都是我们常见的,关键是海量。啊,实际上关键是海量,也就是塔诺,它可以通过分布式来避免单机的瓶颈,那么后面这些都是塔诺的一些特点,这个之前我们都已经介绍过了,关键是什么呢?目前来说它是支持circle进行数据操作和数据聚合,你后面会发现,就是说目前啊,社区推荐的这个数据处理的方式,还是用circle来进行处理。
01:15
我们继续往下看,呃,下面呢,这是一个真实的场景。嗯,这是一个典型的数据集成的问题,实际上这个是唯品会在他周会上去分分享的一个自己企业的案例。啊,我们可以看到就是说这个唯品会呢,他们内部之前呢,就已经有了一套数据系统啊,但是呢,啊,后面的这个又做了一个新的olp,他们使用了click house,但是因为这个house呢,出来的它这个东西比较晚。那么出来的比较晚呢啊,有一些生态又没做好,比如说连接器就比较少啊,这样一来的话呢,它以前的这个数据系统呢,它已经可以实现一个互相的导通,但很可惜的是呢,Click house不能很好的去接入这个系统啊,所以说呢,他们后面是采用了什么方案呢?就是用了塔诺。
02:00
呃,用can诺的连接器呢,因为can诺连接器比较丰富,它把这个click click house读进来,于是的话,Can诺就和这个系统,哎,直接融合进来了啊,也就是说避免了click house作为一个。数据孤岛的问题。那我们可以看到这个文档上说的,也就是斯塔诺,它现在的长板呢,就是它有丰富的连接器,它的连接器比较多,然后完了之后伊斯bug和普尼克微引擎可以分布式的进行海量数据同步。然后呢,我们就可以看一下这个吉他的工作流程,这个是官方的一个图,我们可以看到哈,它就是说它的。源比较丰富,它支持的数据源比较丰富,然后支持向外的连接器也比较丰富,然后中间的这个就是我们之前说那个配置文件里面抽象出来的三个层次,也就是说上来是数据源,哎,Data source input,数据的输入完了之后,Transform对数据进行一个处理,然后最后呢,Think把数据输出出去啊,这就是他的一整个流程。
我来说两句