00:00
那呢,还支持拓展data差。呃,平常使集群使用里面,应该data塔叉是特别常用的一个工具,对吧,这边不过多介绍,我们简单了解,Data叉是阿里巴巴开源的一款数据同步工具,那它呢,呃,是插件式的,比如说。它读跟写是分开的,它读呢有一个插件叫reader插件,那写呢它一个叫write插件。那每一呃,那就看它支持什么RA,支持什么right,对吧?如你想把数据从一个系统导入到另一个系统,你只需要看对于A系统。Data差有没有read插件有就可以了,对于B的这个是系统有没有对应的right插件有那这个电路就能打得通,那data差就是中间的一个,相当于没人一个环节一样啊,只要瑞的有right也有,那他们就能通啊,那你可以有任意的组合方式啊。
01:00
那我们关,呃,我们之前也发布过一些Doris的课程,对吧,大家可以去B站搜索去看啊,都有。那么这个,但是呢,贝塔他。呃,目前呢,是没有。那个Doris相关的插件的啊,没有reader也没有writer啊,那目前呢,Doris官方是提供了一个Doris writer,就写入Doris的这么一个插件。那read呢?那原先data叉自己就支持,像什么my circle Oracle,呃,Circle server呃,DB two。呃,Mango DB啊等等,还有HDFS。啊,等等等等,它本身就支持啊,这些它本来就支持,那基于此呢,我们只需要扩展一个呃,Doris writer这么一个插件啊,然后放到data塔叉里面去,那我们就能实现各种各样的数据来源导入到Doris啊,可以说这个是非常好用啊,那么来,呃,先查看一下,那既然没有官方也提供了代码,我们直接对其进行编译即可。
02:06
如果你嫌麻烦,那也可以直接用我编译好的一个插件包啊,你把它放到data插的目录下面就可以了。但是这里呢,我们还是要讲解如何编译对吧?啊,所以我们这里写了一句话,你可以自己编译,也可以直接使用我们编译好的包啊,那编译的过程呢,很简单啊,首先我们前面编译Doris的时候,是不是已经呃做好了这个容器环境啊,对吧,那还是之前这个命令啊,还是挂载的目录,对吧。还是挂载了相应的目录?那我们直接进来啊。那我来到哈DO1,然后呢,修度啊,把这个命令粘过来,进入一个。这个Doris的镜像环境啊,那现在就进来了,进来之后我们看一下源码啊CD,嗯,阿帕提Doris。在这里面呢,有一个文件夹叫做。
03:03
诶,我找一下叫extension。诶,突然看不见啊,在这里啊,Extension是不是扩展了对吧?来我们进来一下,首先官方提供的源码里面就其实包含了什么flink。跟Doris的连接器,还有Spark跟Doris的连接器,这些都是源码,那我们之前前面呃讲的那些,其实是人家已经提供好了一些包,我们直接用,你也可以选择自己编译啊,还有logtech。啊,那现在我们要做的是对谁编译啊,对对塔差进行编译啊,进入data塔差目录。进来看一眼,那这边它有一个data叉源码文件夹,还有一个我们要加的Doris writer,还有一个初始化环境的脚本,那我们现在要做的第一步是什么呢?执行一个初始化。啊,要不然你啊,因为我初始化过了,所以才有这个文件夹初始化它会做很多事,它会把data叉的源码全部下载下来啊,并且呢,会在里面新建一个叫Doris writer。
04:06
然后呢,把它软链接到当前这个文件夹,为什么要这么做呢?我们方便直接用这个文件夹去找嘛,对吧,所以它是通过软链接的方式连接过来,呃,总而言之呢,我们执行很简单,我们先初始化环境。好,那初始化完了之后,就可以看到这个里边有一个data差文件夹,我们可以进来看一眼data塔差。那在这里你可以看到是data塔差的源码,有各种各样的什么reader,有各种各样的right,就是data叉的一个插件式开发啊,我们S看一下啊。你看有各种各样的reader writer reader writer对吧,我们只要我们前面讲的,只要reader能通游,并且对方也有个writer,那他俩之间就能可以导数据啊,带着它就能实现,那这边源码是加了一个Doris writer啊。
05:06
来。对吧,有一个writer没有提供reader啊。那我们就进入到Doris writer里面。看一下主要是不是一个源码对吧,他给的是因为我之前编译过一次,所以现在有。那这就完事了。那我们回退到data塔差这一级目录下面,啊,是这一级目录extension,然后进入data叉,又一个data塔差源码,这是源码路径,在这里面有一个呃脚本。我们直接去执行就可以了。嗯。那我们编译的时候啊,呃,可以选择只编译Doris write插件,你也可以选择将整个data叉编译啊,但我不推荐啊,其实我们data它直接去呃官方下载编译好的包就行了,然后呢,我们编译Doris writer编译好放过去那就可以用了啊,这样就可以了,那编译过程中我们要先做一个事儿啊,就是有这么一个依赖。
06:16
不加的话,回头我们编译会报错,那这个包我也提供到在资料文件夹里面,我已经上传过了啊,这些步骤我都做了,讲一下,那给到大家这个包你先解压,解压完我给大家看一下,解压完是一个什么样啊,我拷贝一下。绘画OPT OPT software。解压完之后,它其实就是这么一个文件夹,叫阿里巴巴。啊,就是这个包啊,这个包解压完完之后是这个包,这个文件夹,那我们只需要将这个阿里巴巴文件夹,把它拷贝到之前挂载的点M2路径下,这样它编译的时候就能够找到这个依赖,那这就够了啊所以呢,我们执行一个拷贝。
07:05
将我们解压出来,这个阿里巴巴文件夹里面有个data差目录。将它拷贝到前面容器挂载的这个点M2下面啊。这个目录大家注意啊。不要直接拷,如果你之前容器挂载的点M2目录不是这个你对应的要去改一下啊。这里跟这是对应的。那后面这个路径就是固定的啊,对吧?Com,阿里巴巴代打叉啊好,那这一步做完之后就可以执行编译,那我选择的是单独编译啊,那怎么编译呢。来回到容器里面,当前我们已经进入到了一个源码啊,源码进来之后呢,你直接拷贝这个命令对吧?Me命令啊,Install啊,然后呢,我指定只编译这两个东西,其他都不要啊。
08:00
那这样就会快很多。好直接拷贝,呃,然后呢,粘贴执行。那接下来你要做的就是一个等待就可以了。等待它编译完成。那我先暂停编译,完了之后我们再来看。编译特别快啊,其实我们呃,因为我依赖我们都是现成的,对吧,不用再去下载,那你看基本上几十秒就编译完成了,那编译完之后我们去哪找呢?哎,我们可以直接呃去到它真正路径啊,也可以在。Doris writer这个路径下面我们看一下,它现在就生成了一个target文件夹,再进来target。在这里呢?是不是已经有了一个炸包啊啊,但你不要拷贝它,你要按照data塔差的一个放置方式,所以呢,我们看这个文件夹啊,Data差进入到data塔差。可以看到是不是有个plugin目录啊,那从这一级目录开始,就跟data差的文件目录是一样的CD plugin。
09:09
对吧,那里面是不是有一个writer。对吧,里面有一个Doris。那我们就是需要将这个文件夹拷贝到data插的write插件目录下就可以了。啊,进入一个给大家看一下里面有啥啊,这里面是不是有这个价包有依赖啊,有data插的一个插件配置,还有一个模板。停。那接下来就是拷贝了,那我回到我虚拟机的环境,阿杜可一给大家看一下啊。现在。我本身是装了一个data X。这个大家自己要用,肯定安装过了,对不对啊,有个data差目录,那在data叉里面它是不是有个对吧,那我们同样进入plug看一眼。
10:02
它是不是也有一个writer文件夹CD writer,对吧?这里是data,它自带的很多很多的writer,我们只需要将编译好的那个do writer拷贝到当前文件夹就行了。那我们那个源码路径是挂载到虚拟机的,所以我们是不是,呃,再带大家看一眼,我再拷贝一个吧。CD我们是不是挂载在soft外,然后有一个阿帕提。Doris源码对吧,是不是跟这个是挂载的。然后进入一个extension啊extension然后呢,对差好进来看一眼。你也可以直接拷贝他的真实路径,对吧,反正它是软链接过来进入target target里面有个data差。啊,都不那么麻烦了,我直接一步到位啊好,就是把我们编译好了这个Doris拷过去。
11:09
CB杠二,然后呢,Doris writer。整个卡位到哪里呢?到对塔差。新正的那个路径,这个writer下面。好,对吧,把它拷到data差的writer路径下。那么回到电场差看一下考过来没有?啊,Doris,你现在就有这个Doris writer了,那就OK了,那就可以直接用了,那我们来试一下呗,呃,我回到data插的安装目录下面,啊安装目录那我在job本这个文件夹是我自己建的,我们在里面创建一个T啊,我从my circle,比如说从my circle导到doris.jason好,那怎么写呢?这边给到大家一个案例了。
12:05
就下面这个案例啊。
我来说两句