00:00
那接下来我们来准备测试,首先呢,在my circle创建一张表,测试表,呃,插入几条数据,或者你用已有的表也可以。那我来连接一下我的MYS啊,我在它的唯一上面有一个啊,我里面有个库叫test啊,然后呢,看一下表,Show tables有一张深色表啊,我们来查一下这张表的数据。就三个字段,Idts VC啊,然后两两条数据,那这个已经准备好了,接下来就直接编写data的一个配置文件。那我们先把这个拷贝过来,再讲解一下这个配置文件有什么用啊。拷贝,然后呢,我这边。啊,我们重新看一下啊,这个是我data叉的安装目录对吧,加目录,那么我就在旧本,我这边专门创建一个旧本目录用来配。
01:01
用来存放一个作业的配置就在这里呢,呃,我可以去创建一个,比如说我叫my circle two do.jason。好,然后呢,将那些内容拷贝过来。重新拷贝一下啊,粘上去就可以了,这个就是data塔差的用法,那我们先讲解一下吧,前面呢是对塔差的一个作业配置,是控制它的流速,呃,流控的,这是做流控的啊,它的并发也好,还有它的一个速率可以控制,那我们就先给个默认。那具体呢,得要我们还要配置一个reader,还要配置一个writer对吧,那reader我们是my circle啊,那可能配置什么呢?啊,像我的列啊列我得改一下啊。这个不是ID name。这个是ID啊,TS。逗号对吧。
02:00
然后呢,一个VC对吧,这是这么一个字段,是一个速度对吧,一个list,那连接选项啊,我要指定它的JDBC路径。那这就哈13306库呢,就test表名叫S啊,还有MY搜狗的用户名跟密码来往下走。那这个里面就改成自己的,可以去测试测试,那再往下我们看一个Doris writer啊,这个是Doris writer,它可以指定这么多个参数啊,并不是每个都必须的,有一些我列出来,但我没写啊,就比如说我们可以去指定fe的地址,那么是什么地址呢?HTTP的地址,所以端口是8030,也可以去指定be的地址。B的也是HTTP地址,所以端口是8040,那我三台都有对吧,那就可以向我这么配,那还有toris的JDBC地址。那这个呢,你看它协议是基于MY口对吧,但是端口我们用的是查询端口9030,这是fe的查询端口啊。
03:07
接下来就简单了啊,指定户名,指定表名,指定列名,还有呢用户名密码。那这两个是什么意思呢?一个是预处,呃,预先处理,一个是查询后的处理。那像pre circle,意思就是我在查询之前,我先执行一个circle啊,去处理它,Post是我查询完之后,读完MYSQL之后啊,我去再处理它,这个是可选的。还有一些配置项可以选,还有可以有一个批次的,因为你是writer对吧?啊,最好是按批的方式写入,那你可以设置一个批次的条件啊,可以是函数,可以是呃,具体的大小啊,多少兆多少字节。那可以指定一个label标签啊,还可以指定行的分隔符啊,比如说杠N斜杠N,好,那这就完事了呗。
04:01
啊,那首先呢,在Doris里面,我应该是没有这张表的,其他我关了啊没什么用。So tables。并没有这张深色表,那我们来试一下,会不会把我们自动建表呢?我们先来执行一下啊,那我这个配置data塔差的,这文件配置好了,我回到它的加目录,然后呢,B对塔差点。PY,然后呢,指定为刚才那个配置文件to doris.jason就可以了,一车。就开始执行啊。这个时候就报错了,你看。刷写数据到dori失败啊。失败了。但是为什么呢?我们注意看啊,它这个只有一个报错刷写失败,下面有详细信息,在这一块我们仔细找,它有一个错误信息啊,在message里面,你看error code等于七,然后呢,详细的错误信息是什么啊,No table。
05:11
Table内等于sensor,所以呢,这张表我们还是需要手动创建的。那既然要创建,那我们就见一下呗。那跟买搜狗的语法是不是一样啊?对吧,这几个类型它都是支持的嘛,我直接把这个语句拷过来。先在Doris啊这个对应的库里面,我建一下这张表。我们改一下这个。T,可以不用啊。不要指定组件了,好,那其他都一样。哦,对,那还不能这么简单,对吧,那我重新写一下吧。那无非就是要求我们一定要分筒对吧,那我就给他加一个分筒字段了,那这个我就也回头我也写到文档啊,那大家直接粘贴去创建就可以了,那现在已经创建成功了,我们查一下这张表,Select新from ss现在是在Doris里边啊Doris。
06:11
好,没有,那我们再重新执行一下这个data差任务啊,这也说明了它不会自动帮我们签建表,所以你必须是已存在的表。好,已经完成了啊,其实从日志可以看到对吧。已经完成,我们先来这里查一下。这两条数据是不是就倒过来了?对吧。那你看,Data塔差还很贴心给你显示了一些。统计信息都有啊,这就这点差。集成。特别简单。那接下来就说明一下具体参数,其实刚才讲过啊,就是这个Doris write的一些基本参数,这个你不要写成了MYSQL的3306端口,这个是Doris对吧?Doris连接的另外一个呢,呃,这是fe的地址,Be的地址,那这边我们一定要写HTTP的端口。
07:12
那我们知道它底层是低于低于是mode的。那么在介绍是追node的时候讲过,呃,那它既可以通过fe去导,也可以通过be去导。所以像我配置里面两个都写了,其实你写一种就行,这两种你写一种就行啊。再往下看呢,用户名密码,这个没什么好介绍的,Doris的用户名,Doris的密码数据库和表。也都是Doris的,那这边呢,我们可以指定啊,需要写入的字段啊,也不一定要全写啊。那这个play呢啊,具体来讲应该是写入到目标表签,也就是说我从my circle过来对吧。
08:01
查完的my circle口,那查完之后我是不是得写啊,那我在写入之前,我要先执行一下这个circle。啊,就相当于说你可以提前做一些处理转换它再写入到瑞里面的表里面去。那写入完之后,如果你还要再做一些处理,还可以用一个post circle啊,就是这个意思,这两个也不一定要写,像我们刚才其实都是空没写,没有做任何处理,写入前写入后都没处理。那后面呢,就是批次啊,最大批次的这是一个行数。每个批次的最大行数。默认值呢?是50万行,还有一个批次默认的最大的字节数,最大的数据量,那它是这么多个字节,那我简单算一下呗,这是K,这是兆。对吧,是不是差不多100兆啊。标签底层是10MODE的任务,任务对吧,那肯定可以去指定一个标签,标签的前缀。
09:01
呃,行的分隔符。请求参数,那这边写什么参数呢?String参数啊,就是我们前面介绍过导入导出方式啊,里面有一种string node里面有一些参数,那就可以写在这个字段里面,还有个连接的超时时间,默认值是负一啊。那我们可以去设定啊,单次请求的超时单位,它是个毫秒,那对应根据你的需要去配就行了,就是。Data,它里面的toris所有的配置项啊,基本就这些。
我来说两句