00:00
那最后呢,我们来看一看data差的一个使用优化,那首先要知道咱们优化主要其实就从一个角度,一个叫什么并发。限流。啊来控制啊,那这个结合咱们刚才看的源码,其实咱们主要有几个参数啊。有三种方式来限制并发啊,第一个是什么?呃,Record,第二种方式呢,BY。第三种方式呢,直接指定圈拢而来,我们再具体回忆一下它的规则来,规则是什么?如果他俩都设置了。那么以他们最小的为准是不是?那么如果他们俩没设置,他设置的以他为准,他的优先级最低。好,那另外一个问题,他是怎么计算的,它又是怎么计算,它是不是有一个全局啊,也就是咱们在自己定义的作业的Jason文件可以指定一个全局的,呃相关参数,那么是不是还有一个单channel的参数啊,那个在哪里啊?
01:18
那个在coral。点JA里面去配置啊,那这边几个参数我们聊一聊来setting speed speed。这前缀都一样,那分别有三种,一种叫channel,一种叫record,一种叫bit,这种是全局。啊,全局呢,就是你自己写的那个杰森好,那还有一个叫call开头的。Call全是power channel speed的,它有两个,一个是record的一个bit,这个是不是在co.Jason里面对吧,而且这个指的是单channel的一个参数啊,一个速度默认呢是负一对吧。
02:01
就其实优化呢,就是嗯,合理的运用这五个参数就得了呗,啊就得了,来,那我们来个实际的例子啊,怎么来写,第一个提升每个圈拢的速度。那这个也很简单啊。它速度的控制,一种是控制什么,咱们说的是速度啊,不是并发单圈拢的速度。对吧,你不管你有几个兄弟干活,每个兄弟的效率提高了,你是不是整体肯定快了是吧,那这种速率呢,控制主要有两种,一种是什么调数,一种是数据量啊。那这个呢,呃,比如说你如果默认咱们的速度是一每秒钟一兆,那如果你带宽允许。
03:01
你的。磁盘也还行啊。那这个时候你还有你的网络,就带宽就网络了,就你的硬件资源允许的话,你可以把这个速率上线往上调一调,对吧。你想想,如果你想把带宽打满,你是不是至少你的速率要能匹配的上你的带宽呢?不然你自己都把自己按死了啊,这是一个点啊,那第二一个优化呢是什么?就是咱们刚才讲的控制并发啊,就三种方式啊。并给三种方式都给大家举例的并发数怎么计算呢?Task group的数量乘以每个。Task的默认值啊,就是五个啊。那第一种方式呢,通过BAT来限速,这个就是咱们之前一直讲的全局的除以单个的啊,那怎么配呢?配core里面咱们是。指定了一个单channel的,那在我们自己的作业里面指定的是一个全局的,那它俩相除是不是就等于全数啊?
04:08
对吧,这是第一种方式,呃。这个我就简单过一下,因为优化比较简单啊,主要你抓住思路就行。第二种方式,通过数据条数一样的,我们得配置,配置一个什么全局的啊,也就是在job.jason还得配置一个单channel的,在core里面配置啊,那比如说core里面我配置它是100啊,每秒钟100条,那在作业配置里面,我设置的是全局500条。那所以全等有几个,那么500除以100嘛,啊,等于五啊,当然这不考虑其他方式来影响啊,那大家应该都明白了,现在。那第三种呢,我另外两个都不指定,我只指定一个什么channel。啊,就合理控制啊,那要我们也说了,只有在上面两种未设置它才能生效,因为它优先级怎么样,第一。
05:09
这个已经说了很多遍了啊,咱们单独拎出来再给大家提醒一下啊,那么最后咱们聊一聊这个堆内存。那堆内存呢,你的并发越高,它越吃资源,对吧?那如果你内存不够,可能会发生什么oom,也就是说如果你使用data塔差的时候发生OM,你就应该想是不是并发过高,内存过低,一般都是这个原因。因为什么呢?因为正常你设置的限流的话,不管是bit还是record,还是呃,单纯单纯的设置的channel,那正常来讲,如果合合适的话,不应该会OM,因为咱们毕竟只干了什么采集,我们也没有做什么分析啊,也没有做什么聚合,什么还重分区,还杀否一下这啊那的对吧,没有这种很重的操作,仅仅是采集。
06:06
发生OM是一般是比较不应该的啊,如果你并发过多,咱们还是建议什么呢。调大它的一个堆内存调多大呢。咱们建议是四个G,或者如果你实在很大,给到八个G,其实再高已经没有意义了啊,再高没什么意义。那怎么调呢?还记得咱们看源码的时候,它是不是有个参数叫杠J啊,或者杠杠JVM啊,对吧,你可以直接执行的时候这么来写。那这个的配置相信大家应该都很熟了吧,XMS是什么?堆内存的初始大小叉MX呢?堆内存的最大内存对吧?一般呢,如果这两个值设成一样,是不是可以避免一个什么内存抖动嘛?什么叫内存抖动?
07:03
呃,比如说我初始值是一个G,我最大值是八个G,那是不可能随着使用情况,我是这样的。对吧,那相比于这种一条线哪种更稳呢?肯定是他更稳啊,是一种设置方式,还有第二种方式,直接改脚本,改什么呢?Data差点PY。电脑差点PY,这里有一个什么呢?看30行同学们。30这里。默认都给了多少一个G,那你直接改默认值也行啊,你单独对某个作业去指定也行啊,这就看你了,这是两种方式啊。那总体呢,Data塔差这个价,呃框架呢,嗯,没有特别复杂的东西啊,咱们就学习到这里。
我来说两句