文章/答案/技术大牛

发布

首页视频05_DataX_安装&体验

05_DataX_安装&体验

2022-12-022022-12-02 16:02:30播放35

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之DataX/视频/05_DataX_安装&体验.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，那接下来呃了，简单了解完data叉，那我们来快速上手体验一下啊，那首先我们了解几个地址，一个是下载地址，一个是源码地址，那我们直接打开GIHUB搜索data叉，找到用户名是阿里巴巴就行了，那这我是已经打开了啊，那这边源码大家可以简单瞅一瞅啊，都是分为什么reader writer reader writer对吧。插件式的嘛，啊插件式的那这个还是比较简单的啊。而且它下面呢，会有一些什么介绍，那比如说之前咱们说的数据源在这都有，那有的同学说。有的人可能就我也不知道咋写对吧，你放心这边是什么蓝色的，那说明什么，比如说my circle，你不知道他读的时候该怎么写，来你点一下。啊，有点慢，稍等一下啊。
01:02
他呢，已经将所有的案例模板都给到你了啊，就生怕你不会用啊，毕竟人家前身是做商业版的嘛。我们终于打开了，你看，呃，My circle reader插件文档对吧，全是中文的，不用担心看不懂啊。而且他支呃某一个数据源，他支持什么，不支持什么，他都会提醒你。那么后面呢，也会告诉你一个样例，诶，其实他大家已经看到他作业的配置是什么Jason啊，纯粹的Jason串啊。啊，都有案例对吧，然后每一个参数呢，都给你了，你解释你完全不用担心看不懂这个玩意儿，说实话没有什么学习难度啊，你只要找得到地方就行，那包括什么支持的一些类型啊，该怎么去呃，做一个映射啊，一个什么一个对应关系啊，这边上面都有啊，什么不支持都有。
02:07
这个就比较简单了啊。好，这是一个源码，那下载呢。你可以下载源码自己编译啊，但是没必要咱们直接给提供的这个链接去下载就可以了啊。你看这里有一个什么data叉下载地址，你一点它就会下载编译好的二进制包啊，你可以直接现场下载，你看点一下直接就下载了，对吧。啊对，塔差点塔点GZ踏包嘛啊。就这个地址直接下载就行了，那我这边已经给到大家了啊，可以直接上传就行。那另外有几个环境大家要注意啊，它是基于CDK1.8。以上的，呃，它JDK是1.8的啊，另外呢，它咱们要部署在Linux上面，当然它什么呢？它Windows也可以的啊，它其实Windows也可以，另外它是需要用到一个Python环境，也就是说它执行命令启动的时候用的是Python啊PY脚本啊Python脚本，那注意咱们用的是二点几的一个Python 2.62.7都行啊。
03:25
三年级呢？不保证有没有一些问题。好，这是咱们的一个下载地址，跟一个相关的环境要求。那我们呢，可以将来做一下吧。我打开SFTP传输。OPT对吧。来在咱们资料里边，我这边提前放好了这个包啊。
04:02
好，把它拖上来。上床这一步应该不用讲啊，应该大家都会了。然后等他传完它的安装也是超级简单的啊，没有什么难度，解压就行。好。来，我们大家看一下，呃，秒杀。那我们解压一下杠avf电量差，然后呢，杠大C还是老地方OPT。猫啊猫掉。
05:04
呃，设备没空间，完了，我的磁盘不够了。磁盘不够往上一点东西啊。先清理完了，我们重新解压一下啊。对，叉杠CD model。好，检验完了，我们来看一下啊。它的目录名呢，应该默认就是叫对塔差啊，很简单，我们进到对塔差目录下面，那我们先了解一下它的一个目录结构，那肯定啊来第一个B目录。对大家很熟悉，这是一个什么一些运行的命令跟脚本啊命令那么呢。
06:04
配置文件对吧，配置那还有这个力宝，相信大家都很熟啊，一些依赖啊在这里。我们说了它是插件式的，那么你的是分为读跟写，读插件写插件对吧，那它的一些相关的。价包都在这里面，Plugin，那像什么脚本TP，这个无所谓了，那还有一个目录job，这个job是啥呢？就是咱们编写的某一个任务的。呃，一个同步脚本，那比如说你my circle，刚才大家看官网也看到了my circle大HTFS，它是不是要写一大堆阶层串呢？啊，指定一些参数啊，那这些配置写在哪，写在job本里面。就这么几个目录来看一下，B目录有什么呢？有三个最核心的是哪个，这个我们要运行的就是这个脚本，另外大家应该都看到它是一个什么点Py.Py.PY它是一个Python脚本，也就是说咱们其实执行的时候是这样Python，然后对塔它点PY，然后跟上一堆啊是这么来执行的，好看一下配置目录，配置目录呢有两个，第一个是它的全局核心配置。
07:24
叫call连Jason，另外一个叫什么log back，这个其实就是日志的相关的，对吧，日志他用的不是log，佛经用的是log back，好，那我们看一下job里面有东西没有，这是一个模板。来，我们看一下。这不就是一个阶层串吗？你看一个job，然后有一些设置叫setting，内容叫content，然后呢，里面又分为reader write啊，咱们后续再来解读一下这个参数啊，啊，然后这个是write，咱们后面也要经常写这个啊，好，就那我们再看一下一大公主呗，既然聊都看一眼，这是一些什么？
08:12
共用的，这是一些公用的依赖。也就是说，不是某一个writer，也不是某一个reader，这是公共的一些依赖核心部分common，对吧？那么我们所谓的各种数据源的依赖在哪里呢？在这里。啊。然后我们给让大家看一下，大家就很清晰了，你看它里面分为什么呢？Reader跟writeer。插件式的嘛，你需要啥就往里放啥，然后比如说进入reader，再看一下这个就是它目前支持的读取的数据源，一些全是reader，那前缀呢，就是数据源的名称啊，像什my base啊，Mango DB啊，My circle啊，Oracle啊，对吧。Oss circle server啊，等等等等啊。
09:06
好，那关于这个呢，咱们就瞅一眼就行了，那比如说你要看的话，像HDFSV的进来，它里面就是一个什么一个价包啊，还有他自己需要的一些依赖。还有一些配置。而且他每一个都给你放的这个叫什么模板，就你配置任务的时候，模板reader hdfs reader该怎么写，它都有你看。这个呢，就是咱们一些简单的目录介绍，那后面咱们可以运行一下官方的一个自检脚本。那就这么一个命令在哪呢？就咱们刚才看到的。Tube文件夹里面的job.jason它是一个官方的一个案例啊。
10:01
我们来瞅眼啊，让大家直观感受一下，如果你还没安装Python呢，你可以通过样的方式来安装一下就行了啊。啊，这个就不过过多介绍了，我这边是装了一个2.7，呃，你咱们直接Python命令空格跟上data差点PY啊，我们说了这个命令呢，是你要最常用的，那接下来要指定一个Jason文件，也就是说你要执行什么任务，对吧？呃，这个在哪里呢？点杠job里面是不是有个官方自带的案例job.jason呢？对吧，好回车这就行了。其实这已经完事了，来，往上翻看看他的一些日志，其实已经打过了来。它会有一些什么资源统计再往后呢？
11:01
他会将咱们配置当前作业的配置内容，把它打印出来，打印在哪日志里面，方便你去排查，对吧，这个就是那个Jason串，你看这是不是有个reader。诶。然后这里是不是有个writer对吧，还有整个作业的setting设置啊。那后面的日志呢，大家瞅一瞅。他最终有一个什么呢，统计。对吧，什么时候启动，什么时候结束，耗时多久啊，十秒钟，比如说呃，平均流量，也就是说平均速率是多少对吧，每秒多少K，每秒多少兆等等，那这个是数据调数。对吧，每秒钟写入多少条是按条数来统计的，那这边有一个总的多少条，还有一个读写失败的总数，这个应该是大家要关注。
12:00
也就是说当前的路有多少条，我要倒10万条，那有没有都成功了，还是有几条失败，那在这里就很直观的可以看到了，如果是SCO，你看得到吗？对吧。先别管他有没有给你统计，你自己找就很麻烦，那他自己做了一个统计，这个是做的比较好的，我觉得那其实因为咱们这个执行的比较快，如果你比较慢的话，这边日志会打印，说当前速率多少，当前速率多少，他会啊，定期打印给你看的，也就当前的一个执行状态。这个呢，是咱们的一个基本安装了啊，这个比较简单啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之DataX

（5/31）

5分56秒

01_DataX_课程简介

390

10分40秒

02_DataX_概述

440

8分6秒

03_DataX_原理

370

11分43秒

04_DataX_与Sqoop的对比

440

12分44秒

05_DataX_安装&体验

350

14分38秒

06_DataX_案例_StreamReader&StreamWriter

800

22分34秒

07_DataX_案例_mysql2hdfs

310

3分53秒

08_DataX_案例_HDFS高可用配置

620

8分29秒

09_DataX_案例_hdfs2mysql

370

20分0秒

10_DataX_Oracle安装准备工作

450

7分7秒

11_DataX_图形化安装Oracle

390

6分48秒

12_DataX_Oracle创建数据库

300

8分3秒

13_DataX_Oracle简单使用

420

11分55秒

14_DataX_案例_Oracle导出到MySQL和HDFS

460

8分1秒

15_DataX_MongoDB简单介绍

420

15分50秒

16_DataX_MongoDB安装&简单使用

350

10分29秒

17_DataX_案例_MongoDB导出到MySQL和HDFS

450

10分32秒

18_DataX_SQLServer简介&安装

400

8分38秒

19_DataX_SQLServer客户端安装&简单使用

500

5分42秒

20_DataX_案例_SQLServer导出到MySQL和HDFS

370

4分46秒

21_DataX_DB2简介&安装准备

310

6分40秒

22_DataX_DB2安装

330

4分17秒

23_DataX_DB2启动&简单使用

400

12分10秒

24_DataX_案例_DB2导出到HDFS和MySQL

510

6分37秒

25_DataX_源码分析_总体流程认识&程序入口

380

12分46秒

26_DataX_源码分析_并发数的确定

420

1分59秒

27_DataX_源码分析_切分简单了解

500

7分19秒

28_DataX_源码分析_调度_确定组数&分组算法

300

5分14秒

29_DataX_源码分析_调度_调度实现

360

11分54秒

30_DataX_源码分析_数据传输_限速的实现

420

8分2秒

31_DataX_优化

380

05_DataX_安装&体验

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐