00:00
好,那接下来呃了,简单了解完data叉,那我们来快速上手体验一下啊,那首先我们了解几个地址,一个是下载地址,一个是源码地址,那我们直接打开GIHUB搜索data叉,找到用户名是阿里巴巴就行了,那这我是已经打开了啊,那这边源码大家可以简单瞅一瞅啊,都是分为什么reader writer reader writer对吧。插件式的嘛,啊插件式的那这个还是比较简单的啊。而且它下面呢,会有一些什么介绍,那比如说之前咱们说的数据源在这都有,那有的同学说。有的人可能就我也不知道咋写对吧,你放心这边是什么蓝色的,那说明什么,比如说my circle,你不知道他读的时候该怎么写,来你点一下。啊,有点慢,稍等一下啊。
01:02
他呢,已经将所有的案例模板都给到你了啊,就生怕你不会用啊,毕竟人家前身是做商业版的嘛。我们终于打开了,你看,呃,My circle reader插件文档对吧,全是中文的,不用担心看不懂啊。而且他支呃某一个数据源,他支持什么,不支持什么,他都会提醒你。那么后面呢,也会告诉你一个样例,诶,其实他大家已经看到他作业的配置是什么Jason啊,纯粹的Jason串啊。啊,都有案例对吧,然后每一个参数呢,都给你了,你解释你完全不用担心看不懂这个玩意儿,说实话没有什么学习难度啊,你只要找得到地方就行,那包括什么支持的一些类型啊,该怎么去呃,做一个映射啊,一个什么一个对应关系啊,这边上面都有啊,什么不支持都有。
02:07
这个就比较简单了啊。好,这是一个源码,那下载呢。你可以下载源码自己编译啊,但是没必要咱们直接给提供的这个链接去下载就可以了啊。你看这里有一个什么data叉下载地址,你一点它就会下载编译好的二进制包啊,你可以直接现场下载,你看点一下直接就下载了,对吧。啊对,塔差点塔点GZ踏包嘛啊。就这个地址直接下载就行了,那我这边已经给到大家了啊,可以直接上传就行。那另外有几个环境大家要注意啊,它是基于CDK1.8。以上的,呃,它JDK是1.8的啊,另外呢,它咱们要部署在Linux上面,当然它什么呢?它Windows也可以的啊,它其实Windows也可以,另外它是需要用到一个Python环境,也就是说它执行命令启动的时候用的是Python啊PY脚本啊Python脚本,那注意咱们用的是二点几的一个Python 2.62.7都行啊。
03:25
三年级呢?不保证有没有一些问题。好,这是咱们的一个下载地址,跟一个相关的环境要求。那我们呢,可以将来做一下吧。我打开SFTP传输。OPT对吧。来在咱们资料里边,我这边提前放好了这个包啊。
04:02
好,把它拖上来。上床这一步应该不用讲啊,应该大家都会了。然后等他传完它的安装也是超级简单的啊,没有什么难度,解压就行。好。来,我们大家看一下,呃,秒杀。那我们解压一下杠avf电量差,然后呢,杠大C还是老地方OPT。猫啊猫掉。
05:04
呃,设备没空间,完了,我的磁盘不够了。磁盘不够往上一点东西啊。先清理完了,我们重新解压一下啊。对,叉杠CD model。好,检验完了,我们来看一下啊。它的目录名呢,应该默认就是叫对塔差啊,很简单,我们进到对塔差目录下面,那我们先了解一下它的一个目录结构,那肯定啊来第一个B目录。对大家很熟悉,这是一个什么一些运行的命令跟脚本啊命令那么呢。
06:04
配置文件对吧,配置那还有这个力宝,相信大家都很熟啊,一些依赖啊在这里。我们说了它是插件式的,那么你的是分为读跟写,读插件写插件对吧,那它的一些相关的。价包都在这里面,Plugin,那像什么脚本TP,这个无所谓了,那还有一个目录job,这个job是啥呢?就是咱们编写的某一个任务的。呃,一个同步脚本,那比如说你my circle,刚才大家看官网也看到了my circle大HTFS,它是不是要写一大堆阶层串呢?啊,指定一些参数啊,那这些配置写在哪,写在job本里面。就这么几个目录来看一下,B目录有什么呢?有三个最核心的是哪个,这个我们要运行的就是这个脚本,另外大家应该都看到它是一个什么点Py.Py.PY它是一个Python脚本,也就是说咱们其实执行的时候是这样Python,然后对塔它点PY,然后跟上一堆啊是这么来执行的,好看一下配置目录,配置目录呢有两个,第一个是它的全局核心配置。
07:24
叫call连Jason,另外一个叫什么log back,这个其实就是日志的相关的,对吧,日志他用的不是log,佛经用的是log back,好,那我们看一下job里面有东西没有,这是一个模板。来,我们看一下。这不就是一个阶层串吗?你看一个job,然后有一些设置叫setting,内容叫content,然后呢,里面又分为reader write啊,咱们后续再来解读一下这个参数啊,啊,然后这个是write,咱们后面也要经常写这个啊,好,就那我们再看一下一大公主呗,既然聊都看一眼,这是一些什么?
08:12
共用的,这是一些公用的依赖。也就是说,不是某一个writer,也不是某一个reader,这是公共的一些依赖核心部分common,对吧?那么我们所谓的各种数据源的依赖在哪里呢?在这里。啊。然后我们给让大家看一下,大家就很清晰了,你看它里面分为什么呢?Reader跟writeer。插件式的嘛,你需要啥就往里放啥,然后比如说进入reader,再看一下这个就是它目前支持的读取的数据源,一些全是reader,那前缀呢,就是数据源的名称啊,像什my base啊,Mango DB啊,My circle啊,Oracle啊,对吧。Oss circle server啊,等等等等啊。
09:06
好,那关于这个呢,咱们就瞅一眼就行了,那比如说你要看的话,像HDFSV的进来,它里面就是一个什么一个价包啊,还有他自己需要的一些依赖。还有一些配置。而且他每一个都给你放的这个叫什么模板,就你配置任务的时候,模板reader hdfs reader该怎么写,它都有你看。这个呢,就是咱们一些简单的目录介绍,那后面咱们可以运行一下官方的一个自检脚本。那就这么一个命令在哪呢?就咱们刚才看到的。Tube文件夹里面的job.jason它是一个官方的一个案例啊。
10:01
我们来瞅眼啊,让大家直观感受一下,如果你还没安装Python呢,你可以通过样的方式来安装一下就行了啊。啊,这个就不过过多介绍了,我这边是装了一个2.7,呃,你咱们直接Python命令空格跟上data差点PY啊,我们说了这个命令呢,是你要最常用的,那接下来要指定一个Jason文件,也就是说你要执行什么任务,对吧?呃,这个在哪里呢?点杠job里面是不是有个官方自带的案例job.jason呢?对吧,好回车这就行了。其实这已经完事了,来,往上翻看看他的一些日志,其实已经打过了来。它会有一些什么资源统计再往后呢?
11:01
他会将咱们配置当前作业的配置内容,把它打印出来,打印在哪日志里面,方便你去排查,对吧,这个就是那个Jason串,你看这是不是有个reader。诶。然后这里是不是有个writer对吧,还有整个作业的setting设置啊。那后面的日志呢,大家瞅一瞅。他最终有一个什么呢,统计。对吧,什么时候启动,什么时候结束,耗时多久啊,十秒钟,比如说呃,平均流量,也就是说平均速率是多少对吧,每秒多少K,每秒多少兆等等,那这个是数据调数。对吧,每秒钟写入多少条是按条数来统计的,那这边有一个总的多少条,还有一个读写失败的总数,这个应该是大家要关注。
12:00
也就是说当前的路有多少条,我要倒10万条,那有没有都成功了,还是有几条失败,那在这里就很直观的可以看到了,如果是SCO,你看得到吗?对吧。先别管他有没有给你统计,你自己找就很麻烦,那他自己做了一个统计,这个是做的比较好的,我觉得那其实因为咱们这个执行的比较快,如果你比较慢的话,这边日志会打印,说当前速率多少,当前速率多少,他会啊,定期打印给你看的,也就当前的一个执行状态。这个呢,是咱们的一个基本安装了啊,这个比较简单啊。
我来说两句