00:00
那其次呢,还有一个东西啊,就是我们这个官方的Spark Doris,它提供了一些配置项,因为前面的案例我们只是简单的去连接使用,那还有很多啊。还有一个字段类型的映射关系,那我们看看首先是通用的配置项有一个什么,这个我们见到过了,它是f fettp的地址,那如果我们想简单的实现一个负载均衡,或者说从事,那是不是把你所有f fe节点写上去就行啊,这个是不是就涉及到我们前面啊查询这里是不是有一个查询从事和高可用。那其中有一个代码方式是不是啊。配置多个前端节点的地址就OK了。好。再往下看,那这个呢,Table相关的就是库明表明对吧,这个是可以设置一个重试的次数,默认值呢是三啊,我们之前没设置。
01:01
还有一个像Doris连接的超值时间啊,默认是30秒。还有发送读请求的超时也是30秒啊。这是查询Doris的超时时间啊。默认值为一个小时啊,如果设成负一就无限值。还有一些大小的限制,对吧,一个RDD分区对应的tablet个数。啊,这是个数啊。也可以去调整一个Spark的并行度啊,比如说你把这个RDD一个分区的table light个数设的小一点,那整体Spark的分区数是不是就上升了,对吧,就提高Spark的并行度啊。但是这样会给DOS造成压力。还有一个批次,大小一次从be读取的最大行数。那。就以P的方式去读,那P的批次越大,是不是需要去请求dori次数就越小啊,啊,所以这个你要去取舍。
02:06
还有这个执执行内存限制跟dollars一样啊,默认两个G。这还有它支持的呃,AR格式,AR格式。还有一个反序列化的一个大小啊,这是必须上面这个为触的时候一起使用啊。还有指定写的字段啊,往外写的时候批次大小,还有最大重置的次数,这是几个通用的配置,那其次呢,还有我们circle也好,Data frame也好的一些专有配置,像这个用户名密码,还有一个什么呢。位置下推啊。为下推中印表达式里面的元素最大的数量,对吧,你印里面只能最大放几个啊,这边有几个啊,100个。那RDD也有一些特有的啊,其实这个这几个我们都写过了,对吧,虽然这个也是英文名,这个也是密码,但是它这个参数写起来是不一样的啊,跟DF这个不一样啊。
03:11
Circle df里面写的简单一点,RD的这个长一点。那RD还可以指定读取的啊。还有一个过滤时的一个表达式。那我们这个一传到Doris里面,就根据这个表达式去做一个过滤啊,仅此而已,那下面就是一个大家供大家查阅的一个类型映射关系啊。比如说在Doris的类型是small in,那么到Spark里边它没有small in,那他用什么呢?用salt。啊,就是这些给大家去做一个查阅啊,你回头啊,不知道怎么写,你就看一下这个官方提供的这个列表,还有呢,就比如说字符串相关的啊,Doris有large。那int还有very差,但是到B里面通通得用什么string来处理啊。
04:07
他这边有一个。一个那个诶看一下啊啊还有一个注意的就date跟date time在do这个类型,这个精确到日,这个精确到秒到28个里面,它就变成了十罪啊。有一些特殊的地方大家是要注意的啊。这是给大家说明了几些资料。
我来说两句