00:00
那使用data叉之前,我们要先让对data叉进行一个部署,那部署的时候我们要来到我们的机器当中,来到哈102,我CD到OPT software来到这儿啊,我上传一下我的安装包,在我给大家的资料当中。资料啊,这个叉在这呢,我们给它上传到这,给它拖过来。好,这个叉还是有一些大的,你看它一共是700多兆行,那我们先让他上传着那data叉啊,它的部署,它是我见过最简单的一个部署工具了,那为什么他说部署起来非常简单呢?它已经简单到了根本就不需要部署。解压解安装啊,也就是说我们解压完了,诶直接就能用,我们也可以不做一些什么配置,哎,直接就可以用了,那好了,那我们等它上传完,上传完之后,你不是说你解压就能用吗?那我来解压,解压一下T-ZXVF贝塔叉杠大C到解压到OPT Mo目录回来,然后我CD啊没完事了。
01:08
那这个对的差比较大啊,所以说它减啊要稍稍慢一些,截完之后我CD到o PT Mo目录进来LL那在这呢,啊名字呢也不用改了,它直接就叫对叉,然后我CD到对叉,那我你不是说检压完就能用吗?那你到底能不能用呢?哎,我们看这啊有一个自检测的命令,我们看一看,如果说它这个自检测的命令它执行通过了,那就证明我们当前的这个data叉,诶它就是可以用了,我在这儿右键粘贴,然后我执行看看行不行。它能不能检测通,它能不能执行成功,如果说执行成功了,那就证明我们的data叉啊,现在已经可以同步MYSQ的数据到HDFS了,你看到这儿呢,他打印了这么多信息,我们看一看这些信息都有啥呀。启动的时间,结束的时间,任务的总耗时啊,平均的流量写写入的速度,也就是说我每秒同步数数据的速度是多少啊,流量的速度,那每秒记录写入的条数是多少?REC是条数,KB是啊自的那个数据的流量啊。
02:21
那你看文档上也说了,当啊出现这些统计信息的时候,那就证明我们的data叉它是安装成功了啊,OK,那到这儿我们的data叉就安装完了,那安装完我们再来看一看我们刚刚的这个自检测命令,它是啥呢?其实啊,这个自检测命令就是我们的data叉job的一个启动命令,当我们以后啊,那想要同步MYSQ数据到HDFS,我们呢,也需要一个执行一个跟它一样的命令,那我们看一看,首先Python,那证明啥呀?证明我们这个data叉它的一个启动的脚本是一个Python的脚本,你看后面说了,找到OPT model data叉的并录,并论目录下面有一个脚本就叫做data叉,点PY,那它是一个Python脚本,所以说我们要执行它就不能用SH了,我们要用的是Python Python,然后找到data差点PY,然后我后面指定一个,你看这是什么job.zython嘛,那也就是说呀。
03:22
啊,我们呢,在这指定一个可执行的zon文件,也就是datax的配置文件,那好了,那再来到这个命令,我们看一看啊,对于我们data叉的使用来说,Python啊,这是一个环境,我们是不是自带了一个2.7的Python环境啊,所以说我们不用管它了,Data差点PY这个配置文件,这个配置文件也给我们提供好了,所以说我们也不需要来去写这个data差点PY的启动文件,那对于我们来说呀,我们想执行一个data差的job吧,我们只需要做一个事儿就完事了,我们就需要编写我们所需要的这么一个可执行的data叉文件就完事了,你看啊,Data叉启动一共需要这么三个东西,那么前两个东西已经帮我们做完了,对于我们来说,我们只需要。
04:14
写一个这个Z文件,诶,drop.s就OK了啊,那data叉到这儿我们就部署完了,那来到文档当中,你看这个是data差的任务提交命令,一共是通过Python,然后找到对差点PY,然后指定一个我们自己的job.sok,那同样啊,我们现在呢,它是给了一个默认的这么一个job.section但我现在我想用my circle的数据。我想把买circlel的数据给它写到HDFS,那这个我们想用的这个Jason Jason的配置文件,Datax的配置文件肯定不是这个job.s吧,那我接下来还有可能要把Oracle的数据写入到HP,或者把什么什么的数据源写入到什么什么的数据去向当中,那每一个数据同步我都要定义一个V1的job点摘,那大家先来想一想,这个job点摘son,这个摘son文件我们应该怎么定义呢?同友啊,呃,官方这呢也给我们提供了一个查看配置文件模板的这么一个命令,我们给它拿过来啊,先看一看吧,你看通过呀Python环境,然后也是啊,找到了这差点PY这么一个脚本,然后通过杠R,杠R的意思就是我们的reader嘛读嘛,Re,哎,同样我这还有一个杠W,杠W意思就是writeer嘛,往出写嘛,啊读的时候我们找。
05:42
找到的模板是my circle的reader,因为我们要从my circle当中读出去,写的时候我们找到的是HDFS的write,因为我们要往HDFS上写数据啊,行,那我把这个命令拿过来,CTRLC,然后来到这儿我执行一下。
06:01
右键粘贴回去,好,我们看看,当我一执行啊,那这一个摘模板它就给我打印出来了,你看reader的名字它叫my circlel reader writeer的名字它叫hdfs writeer,那对应的呢,有这么多参数,那接下来我们就要看一看这些参数它都有什么用,OK,那接下来我们就看一看data叉它的,哎,这些参数啊,都怎么用,那我们可以怎么干呢?你看刚刚我打印出来的,呃,这么一个灾,我可以给他复制出来。右键粘贴复制啊,右键复制,然后来到这个我们的浏览器上啊,在浏览器上呢,我这有这么一个工具,这个工具是摘格式化的工具,我打开它。诶不从这打了,不从这打,我新建一个,新建一个,然后打开JA森格式化的工具,那在这个工这个工具呢,它能帮我们的Jason进行一个格式化的操作,你看我把刚刚复制出来的这个摘模板,我给它粘贴进来,粘贴进来之后我在这就可以点击格式化,那它对应啊就会把我们的一个摘给格式化,然后呢,你看我还可以在这给它折叠所有,折叠所有之后我可以依次打开。
07:13
第一个这是什么?这是一个罩吧,那我们说了这个叉他想要执行,首先它会把我们的任务给封装成一个罩吧,那在这就能体现出来,在job里啊,它有这么两个模块,第一个叫做content,第二个叫做settings,那settings它是什么呢?在这你看这有一个channel,还记得我们说channel是什么呢?Channel是不是并发呀?那我们在这就可以设置一个总并发,你比方说我在这设置的总并发是20。那么我们的代德查job它的总并发度就是20,那每一个帕斯克group尔和组它的并发度是五啊,所以说我们经过五除以一个2R,十除以一个五,它等于四,那么这个四就是我们task group组的数量了,好,这个是三定四,那我们主要看的是content里啊,Content里它才是我们读数据和写数据的这么一个配置,有两个模块,一个是reader读数据的模块,一个是writer写数据的模块,那对应我们依次展开,你看读数据它叫做my circle reader,那我们不是从my circlel当中读数据吗?那MYQL读数据我们是不是要知道我的MYSQLURL连接地址啊,以及我的MYSQL登录的用户名和密码吧?
08:32
再有啥呢?再有我要知道我同步哪一张表的数据吧,OK,那所以说它这有这么多参数,我们可以填,你看同步的列,以及一些连接的信息啊,以及用户名和密码,那这儿呢,我们还可以填写一个过滤条件,那同样writer这个模块,你看我们要往HDFS写,那HDFS写我们这呢,也有这么多信息,列信息以及压缩的信息,以及HDFS的name note的连接地址,我们通过这个地址才能往HDFS写数据嘛,那这个是分割符,文件名,文件类型,然后我们要写入HDFS的路径,以及写入的这么一个模式。好了,那我们呢,先简单的介绍一下这叉,它的这个Jason是一个什么样的结构,完事我们再来看一看每一个参数,它具体的含义是什么啊,好,那在文档当中呢,他也给我们在这做了两做了这么一个PPT啊,那我们来看一看啊,我把这个打开。
09:34
双击打开,诶,这不是个屏蔽啊,这是个图片,好啊,这是个图片,那我们就看一看呗,你看首先我们的对的叉要封装成一个job吧,Job里边有两个模块,一个是content,一个是SETTINGING4,那SETTINGING4它是job一些相关的配置,包括什么流速的配置啊,并发的配置啊,全在这啊,主要看content content里呢,我们要配置数据源以及数据目的地的,那好了,我们看读数据呢,是reader reader相关的配置,那writer呢,是我们写数据的writer相关的配置,那name这两个name,我读数据的name是用my circle reader写数据的name用的是hdfs writer这两个名字啊,它是写死的,不能随意改变,我们要让data叉知道,行了,你现在要读数据,你从哪读呢?啊,我们要从买S读,那我你要往哪写呢?啊,你是要往一是DFS写这个是告诉我。
10:31
Data差的啊,我们要让data差知道你从哪读,要上哪去,好了,那接下来per啊啊perter那这两个是相关的一些配置参数,好了,那这个是做一个宏观的介绍,那接下来我们就看一看具体的介绍。那你看reader和writer啊,我们呢,也可以参考这个官方文档,那官方文档给我们一共提供了这么多个reader,以及这么多个writer,好了,我把它给复制过来。
11:02
右键复制,复制,然后来到啊,其实也不用复制啊,在这,那这个是data叉,你看上面这不就这了吗?Data叉它支持的这么多个数据类型,这有RDBMS的,就是关系数据库,以及阿里云的一些数据存储系统,那还记不记得我们说阿里云它有一些对应的云服务啊,那你像这些数据存储它就是云服务之一,那这还有这个no s,非关系型数据库,无结构化的数据,你像我们的HDFS。好,那我们现在是要干嘛呢?我们要把my circle的数据给它同步到HDFS,所以说我们就要找RDBMS关系型数据库当中的MYSQL,那MYSQ这我们要用的插件是读插件,你看他说了MYSQ啊,读插件你支持吗?哎,你支持那写呢?哎,你也能往买S当中写,但是我们只用读买S的这么一个插件就行了,那在哪呢?你看这有一个文档,文档这我们就可以点击这个读,哎,我一点击进来,那么它就到了MYSQL的读插件了。
12:09
那好,那接下来我还要往HDFS当中写呀,你看无结构化数据,这这不有个HDFS吗?HDFS你支持从HDFS读吗?诶,它支持,那往HDFS写呢,同样它也支持,但是我们要往HDFS写,我们就在这点击HDFS写的文档,诶你一点击它就应该进入到了HDFS对应写插件的这个文档了,那我们把这二者结合,MYSL读插件的文档加上HDFS写插件的文档这两个配置,那我们给它结合起来,哎,就变成一个当前的这么一个文档了,买之后读插件的文档我给他写到这儿,写插件的这个文档对应的这个配置我给他配置到这儿。啊,HDFS写插件的文档,我给它对应的给他这些参数啊,写到这以及这个参数怎么写,那么我当前这一个job我就配置完了好了。
我来说两句