文章/答案/技术大牛

发布

首页视频02_DataX_概述

02_DataX_概述

2022-12-022022-12-02 16:02:30播放44

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之DataX/视频/02_DataX_概述.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
接下来呢，我们先来认识一下什么叫data塔差，那这个呢，有的人叫他data塔差，有的叫它data塔X，那我们先了解一下它的背景，它呢是由阿里开源的，呃，是阿里巴巴开源的，它是国内啊，做的就是阿里。另外一个重点呢，它是一个支持易购数据源，所谓的易购呢，就是各种呃不同的一个数据库啊，像大家比较熟悉的像MYSQL啊，还有一些业务上，呃，可能有的公司会用到Oracle啊，DB two啊等等。另外呢，一个关键词是什么呢？是一个离线，它是做离线同步的，区别于咱们所谓的什么呃，Canel啊，Mawere这种CDC的工具啊，他们是实时增量同步，那它呢是离线的，这个一般呢，咱们拿它是跟scoop做一个对比啊，因为这个是在咱们大数据采集啊，数据采集领域用的比较多的一些啊。那么他强就强在于它支持很多很多的一个数据源，你想想咱们scober有啥缺，呃，有什么局限性啊，也不叫缺陷的，他是不是专门对咱们大数据领域而生的呀？呃，他是不是把一些所谓的关系型数据库，将他们的数据采集到咱们的HDFS啊。
01:19
啊hi，也是基于HDFS嘛，对吧，那甚至呢，它也可以做到从HDFS导出到一些关系型数据库，那这是scoop主要做的是。它的呃场景应用场景比较单一，那如果你想想在我们实际啊，呃，一些企业里面，它用到的关系业务数据库啊，也就主要是关系型的，对吧，像MYSQL大家比较熟悉啊，这个大家最熟悉，那其实很多企业也会用到什么呢？比如说Oracle。甚至有微软开发的那个叫什么呢，Circle server。呃，甚至有一些，呃，特别是金融企业用的比较多的，像DB two IBM，这是IBM做的。
02:03
也就是说咱们的关系型数据库其实有很多的，甚至有一些非关系型，像一些no circle数据库，像芒果DB啊，不是芒果啊，又想起吃的芒果DB，那你看。如果一家企业啊，它规模不小，它可能甚至多个部门，多个业务模块，它使用了不同的数据库，这是很正常的。那你现在咱们大数据的第一步是什么？除了设计什么建模那些之外，你是不是得做好ETL工作？那ETL这三个东西，ET是三个事儿嘛，对吧，大家应该都了解，呃，提取转换等等啊，那这一块第一就是一个采集。那我怎么在不同的数据源将数据很好的采集进来呢？对吧，那这个时候呢，甚至还有一些需求，那比如说我某一个库，我的数据要迁移到另外一种数据库里面啊，就不是HDFS，那这个时候是库就不是很擅长了啊，也不是那么好用，那所以呢。
03:12
阿里呢，针对他们因因为阿里大家知道它体量比较大嘛，对吧，那他的呃，数据来源也就他们使用的数据库可能也会多一点，那他们采集的。就会有各种各样不同的一个场景跟需求，那这个时候呢，他们自己就开发了一个叫data塔差，那data塔差的前身其实就是阿里是不是做了一个自己的数据平台，它是商呃商用版的，可以对外出售啊，叫datawork，这个咱们干大数据的应该都听过。那么它里面呢，有一个数据采集模块啊，就是其实就是他们自己开发的一个数据采集服务，那么后来呢，他们将它开源的啊，名字叫起名为data塔叉啊，这就是它的一个起源，那么它也是非常好用的啊，来我们来聊一聊呃，它的一个设计啊。
04:05
它的设计初衷呢，就是为了解决一个异构数据源同步，那么从下面这两张图大家可以很直观的看到啊，哪一个结构更清晰啊？是不是右边这个。对吧，来我们继续看一下啊，你像呃，现在呢，有这么多种数据库，这么多种存储，像hdfs base还有等等等等，对吧，那如果由于你的实际需求，你可能涉及到他们两两之间的数据。呃之间的一个同步，那比如说mysle到Oracle mysle还要到这儿，还要到这儿，还要到这儿，还要到这儿对吧？呃，那你像从呃Oracle角度讲，它可能也需要到这儿，到这儿到这儿，那看起来是不是中间这一块乱七八糟啊。对吧，那这样的话就很费劲了。也没有效率，这种就像什么呢？就像海王的自我管理。对吧？啊，你同时把几个海王放在这里，他们两两之间是不是都想发生一点不可描述的关系啊，都想更进一步的了解了解啊，对吧？那这他们中间的关系就错综复杂。
05:12
啊，那所以呢，当有了data塔差之后，它可以什么，它就变成了一个媒介，一个中心，那所有人有需求跟他反映就行了，啊，都跟他对接嘛，相当于相当于说皮条克对吧？啊，当然这个呃，就类似于皮条客的一个作用，对吧，你这么多个海王，好，你只要有需求，你告诉我就行了，我帮你去匹配，其实这个又有点像咱们去买卖东西，你像。如果买方跟卖方都是私人去，呃打交道是不是就像左边这个一样，乱七八糟的，两两之间有关系啊，那么如果你中间有了一个交易平台，那是不是有买东西需求的人，他去，比如说市场吧，比如说菜市场啊，那是不是所有人呃，想买菜的他市场去看看就行了，对吧，他就知道我去市场就行了，那卖菜卖东西卖菜的人他是不是只要去市场摆个摊，开个店就可以了？
06:15
对吧，大家呢，统一都到市场来进行交易，那这样呢，就整体流程啊，互相之间的交互啊，效率就大大的提升了，那所以呢，那如果用一些呃学术性的词来讲，那咱们这种看起来像是一个什么新型数据链路，对吧，那左边这种乱七八糟的像什么呢？网状的一个数据链路。这是咱们用data塔差的一个好处啊，那么另外data塔差它其实有一个关键词，我希望大家了解了解，就是它的设计理念是什么插件式。什么叫插件式啊？你大家可以发现，比如说我现在data叉支持了这么多个数据源，比如说未来有一个数据库，我希望data塔叉也支持，那么他对源码的改动。
07:07
是可以很少的，因为它是什么呢？其实大家看一眼源码就懂了啊，我这边应该有打开过啊，你看这是get塔HUB上面贝塔差的开源，你看是谁啊，阿里巴巴的好，嗯，我放大一点啊，大家可以大概了解了解它是分为一种叫什么。什么什么reader，什么什么writer，它读跟写是分开的，而且不同组件它实现了一个不同的read模块，如果支持写呢，那就有一个right模块。你看包括HDFS它有什么，Reader，有writer，那对于h base呢，它有reader writer，甚至呢，H base支持不同的版本，对吧。也就是说你有一个新加的东西，那好啊，很简单，我加一个对应的read模块，对应的right模块就可以了啊，这也是插件式啊，就像你的电脑，比如说你要在。
08:08
这硬盘不够用了，你想在上扩容你的硬盘，你是不是可以考虑外接一个移动硬盘呢？对吧，插件是，那我们来看看他支持的一个数据源啊，把这个缩掉啊。它支持的是非常非常多的，哎，这张图呢，其实是从呃官网也就是他的GIHUB上面，呃我们下载下来的，你看它支持什么呢？关系型的数据库。还有阿里自己开发的一些数据存储，还有什么no circle，还有无结构化的。数据存储，说白了就是一句话，同学们。我啥都支持，基本也不是都啊，基本都支持我，我都能行啊，来者不拒，你是啥我都能顶得住啊。哎，你看关系型的下my circle Oracle circle server。
09:01
Post circle对吧，还有什么DB，呃，DB two啊等等它都支持了，而且呢，它列出来，对于这种数据库支不支持读，支不支持写啊，一般都支持，那像阿里自己的这个，咱们就了解一下就行了。咱们。也没去用啊，因为它收费的啊，那么no circle呢，像大家熟悉的h base对吧，Following是结合h base来用的啊，那还有一个什么呢？Mango DB。Have。等等。那么无结构化的就一些其他的存储，比如说HD FS yes，这两个大了，首位FTP就有一个文件服务嘛。啊，那这一块呢，还有持续的一些数据库啊，大概了解一下，另外有一点大家要注意的就是它有些东西只支持什么。写有些东西它只支持读对吧，当然这些都是比较特殊的一些数据库啊，大部分呢是读写都支持，那么可以看到很强大的，你再想想SCO。
10:08
它能支持这么多吗？而且呢，它贝塔差，我们看这张图。他是不是分为读跟写两个部分啊，我只要有一边能读一边能写就行了，我管你这个是谁啊，那无所谓啊，对吧。这是他支持的一个数据源啊，这是咱们对对塔差有一个直观的认识，那到这里为止啊，我们留下的一个印象就是什么牛逼是吧，啥都支持。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之DataX

（2/31）

5分56秒

01_DataX_课程简介

390

10分40秒

02_DataX_概述

440

8分6秒

03_DataX_原理

370

11分43秒

04_DataX_与Sqoop的对比

440

12分44秒

05_DataX_安装&体验

350

14分38秒

06_DataX_案例_StreamReader&StreamWriter

800

22分34秒

07_DataX_案例_mysql2hdfs

310

3分53秒

08_DataX_案例_HDFS高可用配置

620

8分29秒

09_DataX_案例_hdfs2mysql

370

20分0秒

10_DataX_Oracle安装准备工作

450

7分7秒

11_DataX_图形化安装Oracle

390

6分48秒

12_DataX_Oracle创建数据库

300

8分3秒

13_DataX_Oracle简单使用

420

11分55秒

14_DataX_案例_Oracle导出到MySQL和HDFS

460

8分1秒

15_DataX_MongoDB简单介绍

420

15分50秒

16_DataX_MongoDB安装&简单使用

350

10分29秒

17_DataX_案例_MongoDB导出到MySQL和HDFS

450

10分32秒

18_DataX_SQLServer简介&安装

400

8分38秒

19_DataX_SQLServer客户端安装&简单使用

500

5分42秒

20_DataX_案例_SQLServer导出到MySQL和HDFS

370

4分46秒

21_DataX_DB2简介&安装准备

310

6分40秒

22_DataX_DB2安装

330

4分17秒

23_DataX_DB2启动&简单使用

400

12分10秒

24_DataX_案例_DB2导出到HDFS和MySQL

510

6分37秒

25_DataX_源码分析_总体流程认识&程序入口

380

12分46秒

26_DataX_源码分析_并发数的确定

420

1分59秒

27_DataX_源码分析_切分简单了解

500

7分19秒

28_DataX_源码分析_调度_确定组数&分组算法

300

5分14秒

29_DataX_源码分析_调度_调度实现

360

11分54秒

30_DataX_源码分析_数据传输_限速的实现

420

8分2秒

31_DataX_优化

380

02_DataX_概述

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐