00:00
接下来呢,我们先来认识一下什么叫data塔差,那这个呢,有的人叫他data塔差,有的叫它data塔X,那我们先了解一下它的背景,它呢是由阿里开源的,呃,是阿里巴巴开源的,它是国内啊,做的就是阿里。另外一个重点呢,它是一个支持易购数据源,所谓的易购呢,就是各种呃不同的一个数据库啊,像大家比较熟悉的像MYSQL啊,还有一些业务上,呃,可能有的公司会用到Oracle啊,DB two啊等等。另外呢,一个关键词是什么呢?是一个离线,它是做离线同步的,区别于咱们所谓的什么呃,Canel啊,Mawere这种CDC的工具啊,他们是实时增量同步,那它呢是离线的,这个一般呢,咱们拿它是跟scoop做一个对比啊,因为这个是在咱们大数据采集啊,数据采集领域用的比较多的一些啊。那么他强就强在于它支持很多很多的一个数据源,你想想咱们scober有啥缺,呃,有什么局限性啊,也不叫缺陷的,他是不是专门对咱们大数据领域而生的呀?呃,他是不是把一些所谓的关系型数据库,将他们的数据采集到咱们的HDFS啊。
01:19
啊hi,也是基于HDFS嘛,对吧,那甚至呢,它也可以做到从HDFS导出到一些关系型数据库,那这是scoop主要做的是。它的呃场景应用场景比较单一,那如果你想想在我们实际啊,呃,一些企业里面,它用到的关系业务数据库啊,也就主要是关系型的,对吧,像MYSQL大家比较熟悉啊,这个大家最熟悉,那其实很多企业也会用到什么呢?比如说Oracle。甚至有微软开发的那个叫什么呢,Circle server。呃,甚至有一些,呃,特别是金融企业用的比较多的,像DB two IBM,这是IBM做的。
02:03
也就是说咱们的关系型数据库其实有很多的,甚至有一些非关系型,像一些no circle数据库,像芒果DB啊,不是芒果啊,又想起吃的芒果DB,那你看。如果一家企业啊,它规模不小,它可能甚至多个部门,多个业务模块,它使用了不同的数据库,这是很正常的。那你现在咱们大数据的第一步是什么?除了设计什么建模那些之外,你是不是得做好ETL工作?那ETL这三个东西,ET是三个事儿嘛,对吧,大家应该都了解,呃,提取转换等等啊,那这一块第一就是一个采集。那我怎么在不同的数据源将数据很好的采集进来呢?对吧,那这个时候呢,甚至还有一些需求,那比如说我某一个库,我的数据要迁移到另外一种数据库里面啊,就不是HDFS,那这个时候是库就不是很擅长了啊,也不是那么好用,那所以呢。
03:12
阿里呢,针对他们因因为阿里大家知道它体量比较大嘛,对吧,那他的呃,数据来源也就他们使用的数据库可能也会多一点,那他们采集的。就会有各种各样不同的一个场景跟需求,那这个时候呢,他们自己就开发了一个叫data塔差,那data塔差的前身其实就是阿里是不是做了一个自己的数据平台,它是商呃商用版的,可以对外出售啊,叫datawork,这个咱们干大数据的应该都听过。那么它里面呢,有一个数据采集模块啊,就是其实就是他们自己开发的一个数据采集服务,那么后来呢,他们将它开源的啊,名字叫起名为data塔叉啊,这就是它的一个起源,那么它也是非常好用的啊,来我们来聊一聊呃,它的一个设计啊。
04:05
它的设计初衷呢,就是为了解决一个异构数据源同步,那么从下面这两张图大家可以很直观的看到啊,哪一个结构更清晰啊?是不是右边这个。对吧,来我们继续看一下啊,你像呃,现在呢,有这么多种数据库,这么多种存储,像hdfs base还有等等等等,对吧,那如果由于你的实际需求,你可能涉及到他们两两之间的数据。呃之间的一个同步,那比如说mysle到Oracle mysle还要到这儿,还要到这儿,还要到这儿,还要到这儿对吧?呃,那你像从呃Oracle角度讲,它可能也需要到这儿,到这儿到这儿,那看起来是不是中间这一块乱七八糟啊。对吧,那这样的话就很费劲了。也没有效率,这种就像什么呢?就像海王的自我管理。对吧?啊,你同时把几个海王放在这里,他们两两之间是不是都想发生一点不可描述的关系啊,都想更进一步的了解了解啊,对吧?那这他们中间的关系就错综复杂。
05:12
啊,那所以呢,当有了data塔差之后,它可以什么,它就变成了一个媒介,一个中心,那所有人有需求跟他反映就行了,啊,都跟他对接嘛,相当于相当于说皮条克对吧?啊,当然这个呃,就类似于皮条客的一个作用,对吧,你这么多个海王,好,你只要有需求,你告诉我就行了,我帮你去匹配,其实这个又有点像咱们去买卖东西,你像。如果买方跟卖方都是私人去,呃打交道是不是就像左边这个一样,乱七八糟的,两两之间有关系啊,那么如果你中间有了一个交易平台,那是不是有买东西需求的人,他去,比如说市场吧,比如说菜市场啊,那是不是所有人呃,想买菜的他市场去看看就行了,对吧,他就知道我去市场就行了,那卖菜卖东西卖菜的人他是不是只要去市场摆个摊,开个店就可以了?
06:15
对吧,大家呢,统一都到市场来进行交易,那这样呢,就整体流程啊,互相之间的交互啊,效率就大大的提升了,那所以呢,那如果用一些呃学术性的词来讲,那咱们这种看起来像是一个什么新型数据链路,对吧,那左边这种乱七八糟的像什么呢?网状的一个数据链路。这是咱们用data塔差的一个好处啊,那么另外data塔差它其实有一个关键词,我希望大家了解了解,就是它的设计理念是什么插件式。什么叫插件式啊?你大家可以发现,比如说我现在data叉支持了这么多个数据源,比如说未来有一个数据库,我希望data塔叉也支持,那么他对源码的改动。
07:07
是可以很少的,因为它是什么呢?其实大家看一眼源码就懂了啊,我这边应该有打开过啊,你看这是get塔HUB上面贝塔差的开源,你看是谁啊,阿里巴巴的好,嗯,我放大一点啊,大家可以大概了解了解它是分为一种叫什么。什么什么reader,什么什么writer,它读跟写是分开的,而且不同组件它实现了一个不同的read模块,如果支持写呢,那就有一个right模块。你看包括HDFS它有什么,Reader,有writer,那对于h base呢,它有reader writer,甚至呢,H base支持不同的版本,对吧。也就是说你有一个新加的东西,那好啊,很简单,我加一个对应的read模块,对应的right模块就可以了啊,这也是插件式啊,就像你的电脑,比如说你要在。
08:08
这硬盘不够用了,你想在上扩容你的硬盘,你是不是可以考虑外接一个移动硬盘呢?对吧,插件是,那我们来看看他支持的一个数据源啊,把这个缩掉啊。它支持的是非常非常多的,哎,这张图呢,其实是从呃官网也就是他的GIHUB上面,呃我们下载下来的,你看它支持什么呢?关系型的数据库。还有阿里自己开发的一些数据存储,还有什么no circle,还有无结构化的。数据存储,说白了就是一句话,同学们。我啥都支持,基本也不是都啊,基本都支持我,我都能行啊,来者不拒,你是啥我都能顶得住啊。哎,你看关系型的下my circle Oracle circle server。
09:01
Post circle对吧,还有什么DB,呃,DB two啊等等它都支持了,而且呢,它列出来,对于这种数据库支不支持读,支不支持写啊,一般都支持,那像阿里自己的这个,咱们就了解一下就行了。咱们。也没去用啊,因为它收费的啊,那么no circle呢,像大家熟悉的h base对吧,Following是结合h base来用的啊,那还有一个什么呢?Mango DB。Have。等等。那么无结构化的就一些其他的存储,比如说HD FS yes,这两个大了,首位FTP就有一个文件服务嘛。啊,那这一块呢,还有持续的一些数据库啊,大概了解一下,另外有一点大家要注意的就是它有些东西只支持什么。写有些东西它只支持读对吧,当然这些都是比较特殊的一些数据库啊,大部分呢是读写都支持,那么可以看到很强大的,你再想想SCO。
10:08
它能支持这么多吗?而且呢,它贝塔差,我们看这张图。他是不是分为读跟写两个部分啊,我只要有一边能读一边能写就行了,我管你这个是谁啊,那无所谓啊,对吧。这是他支持的一个数据源啊,这是咱们对对塔差有一个直观的认识,那到这里为止啊,我们留下的一个印象就是什么牛逼是吧,啥都支持。
我来说两句