温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,接下来呢,我们来看一下生产环境当中非常重要的一个知识点,数据加了怎么办?那什么叫数据积压呀,啊,其实呢,在卡法当中,它是不是有日志的一个存储时间呢,默认的一个日志存储时间呢,是七天,就是过了七天之后,这里面的数据呢,就会被删掉,那好,那如果说你消费某一个主题的数据。那么这里的数据啊,我已经消费了四天了,但是我只消费整体数据量的一个多少呢?一个10%。那这种情况下,再过三天是我仍然我也消费不了啊,那这里面数据是不是就会被删掉啊。那这种情况怎么办呢?哎,我们就考虑能不能加快一下我的消费速度,好,那下面来看一下啊。打开首先呢,我面临的问题就是,哎,这是一个分区,这是一个消费者啊来消费,消费的速度已经非常缓慢了,那怎么办呢?哎,我们想办法增加它对应的分区。提高它对应的一个消费密度。
01:00
那如果你只增加对应的分区,有没有用呢?比如说这样,你看你增加完分区之后,还是由一个消费者进行消费,那这个呢是没法接受的。那怎么办?哎,马上呢,加大消费者的个数,比如说要增加你对应的CPU的一个核数,让每一个分区对应的一个消费者,那这样的速度不就快了吗?啊,也就是说第一条呢,就是要增加分区,同时呢,要增加对应的消费者的一个CPU核数。那下面继续往下走。那这块我这边也已经提高了,那还记得我们在消费数据的时候,每批次拉取的数据量是多少啊,是不是默认是500条啊。那如果说我每批次拉取的数据提高到1000条。那我的吞吐量是不是就增加了,哎,那这样呢,就能够加快它的一个消费速度,好,但是我增加到1000条的时候要注意。我是不是有一个上限,每批次的大小是50兆啊,那也就是说,如果你抓取的条数啊,乘以上每条的日志的大小大于了50兆,那这时候要注意了啊,那你要把这个值50兆的值是不是也要适当的进行一个增加呀?
02:07
哎,这是配套的一个使用的哈,那当然了,说还给我加到1000条还不够,那你可以尝试着加2000条,那这是一个不断的调试的一个过程,好,那现在呢,这块呢,就是保证消费者如何提高对应的吞吐量,那你稍微回忆一下在生产者端到集群这块如何来提高吞吐量,还记得哪说的参数吗?哎,第一个呢是半SIZE16K,还有一个link Ms默认是零,你要调整到五到100毫秒。那一个呢,是采用压缩。还有一个呢,哎,还有一个呢,就是它缓冲区大小从32兆可以调整到60套,哎,那在生产环境当中呢,这是一套组合拳,比如说生产到卡帕集群,诶采用这几个,那么集群到这个消费者,那我们再采用增加分区,以及呢,把这个批次大小从500条增加到1000条,那同时呢,将这个50兆啊,可以根据适当的情况适当的再提高啊这一系列下来之后,那你这个卡法尔整体的吞吐量那就要高很多了。
我来说两句