文章/答案/技术大牛

发布

首页视频80_尚硅谷_Kafka_调优_总体调优

80_尚硅谷_Kafka_调优_总体调优

2022-12-022022-12-02 16:02:03播放38

点赞0 收藏 0

尚硅谷大数据技术之Kafka3.x（2022版）/视频/80_尚硅谷_Kafka_调优_总体调优.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来呢，我们来看一下第五章卡普总体性能的一个调优，比如说之前啊，我们讲的都是生产者到卡卡集群，诶这段的一个调优，还有呢，卡瓦集群本身的一个调优，以及呢，从这个集群到这个消费者啊，你说这块对应的一个调优，那接下来我们要讲的就是站在整体这个角度来说，去看这个卡瓦集群它的一些相关的调优手段，好吧，那接下来我们来看一下如何来提高卡帕的吞吐量，那我们之前啊讲过的是生产者到卡帕集群，还有呢，卡帕集群到消费者每一段的一个生产调优，那我们需要呢，把它整体是放在一起啊，来提高它对应的一个吞吐量。那好，那首先生产者这块的吞吐量提高，那四个参数一定要记住，第一个呢，就是对应的这个呃，BA size，诶默认的是16K，我们需要呢，适当的把它进行一个提高，第二个呢，是对应的这个link Ms，默认时间是零毫秒，那我们在生产环境当中，通常呢，会给它配置五到100毫秒左右，会根据你的实际的一个生产环境要求具体配置啊，那比如说呢，你希望呢，这个吞吐量高，那你可以把它提高，但是呢，它会导致数据的一个延迟，看你能不能接受的了啊。
01:14
那再往下一个呢，就是对应的这个压缩，默认呢，它采用的是这个耐这种方式，也就是说没压缩，那生产环境当中，诶，我们可以采用像拉住罗压缩，S耐皮压缩，还有对应的像这个GP啊，还有JSD啊等等，那你具体要采用哪种压缩方式，还是需要根据实际的一个压测的效果再来选定，具体要选择哪种压缩方式啊。行，那上面还有一个啊没说，就是这个buff for memory，诶，它的缓存大小啊，默认是32兆，那么如果你的数据量特别特别大啊，特别忙碌的时候，那这个32兆呢，是扛不住的啊，我们需要增加到对应的64兆，哎，来提高它对应的一个生产吞吐量啊好，这是生产阶段的四个参数。那接下来往下走的话呢，就是还需要提高对应的一个分区，那么增加分区就能提高它对应的一个并发度啊，那对它吞吐量呢，哎，是有一定的这个提高的啊。
02:09
下边呢，在消费者阶段这块如何来提高对应的吞吐量呢？诶首先呢，我们第一个呢，就是每批次抓取的这个数据量大小，诶最大值呢是50兆，你可以适当的往上进行一个提高。啊，那下面呢，还有就是每批次处理的数据量大小，那么这个默认值呢，是500条，哎，你可以来处理，比如说增加到1000条或者2000条进行测试啊。好，那下面还有最后一个呢，就是增加下游消费者的一个处理能力，你前面增加分区了，同时也增加了消费者的一个吞吐量，但是啊，你这块下游的这个处理能力很弱，比如说你这边消费完了之后，你往后写的时候写的很慢，那就主射了啊，那这也没有意义，你下游的这个处理能力呢，也必须配套的一个提高啊。行，再往下呢，是数据的精确一次啊，怎么做到数据精确一次呢？首先从这个生产者角度，我们要做的事就是你得保证它不丢对吧？那A呢，得配置为负一，那这保证数据不重的话呢，那幂等性啊必须开启，同时呢，还得加上事物的这种方式进行保障，那么光开启A等于负一并不能保证它完全的可靠，你还需要加上分区副本数必须大于等于二，同时还要要求is SR队列里面最小副本的数量也要大于等于二啊，这两个配合使用啊。
03:28
那下面呢，在消费者阶段，那这块你要做的事情就是要采用手动提交奥赛的，并配合上事物的一个使用啊，同时呢，得要求消费者输出的这个目的地啊，必须也得支持事物的一个回滚，你才能真正的做到数据的精确，一次是整个数据链条上任何一个地方都不允许出现任何问题啊，这个呢是比较难一点的啊，要注意了。那下面呢，在生产环境当中，哎，我一个topic主题啊，我到底要设置多少个分区合适呢？
04:00
是吧，哎，那首先呢，你要这样去做啊。正常情况下呢，哎，我们可以先做一个测试，比如说我们创建一个分区的一个topic，然后呢，哎对它进行一个测试，测什么呢？哎，我们这里面有三个概念哈，第一个呢，就是我们假设期望的一个吞吐量，那这个呢是这个。是吧，哎，假设我们期望能达到这个，嗯，我看这有没有啊，这呢希望吞吐量，我期望我这个卡马集群啊，能达到100兆每秒，但是呢，我现实情况下，哎，我生产者这个吞吐量最大就是20兆每秒。我消费者的吞吐量呢，最大是50兆每秒，那很显然它满足不了我100兆的一个每秒的吞吐量，那这是怎么办呢？哎，那直观的感受就增加分区呗，那我增加多少呢？哎，那这里面的分区数啊，等于这个就说等于你期望的吞吐量除以这个mini生产者吞吐量和消费者吞吐量，他俩选用最小的，那假如说哎，我这里面是100兆每秒对吧？哎，吞吐量，那我除以它俩一个最小的，那就是20，那算下来的话就是五个分区，那五个分区能不能满足我们对应的要求呢？你反过来推一下。
05:01
比如说我现在是五个分区了，那五个分区我乘以这个生产总存量，那这样的话就能它就能达到100兆每秒，那那消费者总量呢，是50兆每秒，那我乘以五的话，五个分区那不就250兆每秒了吗？那很显然也能够满足100兆每秒以上，是这样吧，哎，好，那在生产环境当中啊，通常我们这个分区数设置多少比较合适呢？一般情况下我们先设置这个三到十个啊，当然这个是有特殊情况的啊，根据你的业务场景有关系，有的公司数据量特别特别大，那你设置这点分区那肯定不够啊，有可能设置100个甚至更多啊，对吧？啊，那我这里面设置是通常情况下啊。呃，还有一点呢，要注意分区数呢，一定不是越多越好，也不是越少越好，这里面要搭建完集群之后，你必须得进行一个详细的测试，那怎么测试呢？后面这块有个集群压力测试啊，那时候再教大家，哎，好吧，哎，所以说这块呢，一定要注意啊，这个分区不是越多越好，也不是越少越好，要适合自己才是最好的哈。再往下，下边有一个比较难的问题啊，就是单条日志大于一兆啊。
06:03
啥意思呢？就是生产者这端接收到一条日志，它呢是大于一兆，比如说两兆过来之后，那么你的卡帕集群会出现什么情况啊，两兆的日志发过来。能不能处理的了，那这里要注意啊，呃，卡不卡呢？默认处理的单条日志最大的上限呢，是多大呢？是一兆。啊，是一兆大于一兆的话，就会出现卡顿卡死了，哎卡住了卡法不能进行后续的一个处理了啊那怎么办呢？记住这一个是这个叫ma max best这个值，这个值呢是默认是一兆，哎，它是表示博客端接收的每批次消息的最大值。哎，这是博科，这是卡发集群啊，卡发集群你发送过来的数据是不是以科为这个啊批次啊，对吧？啊，你这里不管哪个分区的数据，哎，我会把发到这个博科的。打包成一个就开请求发过来，那你发过来这批数据不能大于一兆，那如果你一条日志都大于一兆了，那么直接不就接受不了了嘛，对吧？哎，那这也要注意第一个好，那接下来我们看第二个参数叫markx request size，那这个参数呢，是生产者发往broke端每个请求的消息大值，那还是这边往这边发，往这个基因发，但是呢，它针对谁呢？哎，它针对的是这个topic而言的，你上一个参数啊，是针对博某一个博，那这次呢，是针对某一个for主题啊，或者S的主题，针对主每一个主题的对应的请求的消息，哎，也不能大于一兆啊，那一般情况下这两个呢，哎，要么都提高，要么都往下降低啊。
07:30
好，那下面还有一个呢，就是这个叫副本的一个同步数据，默认的是一兆，比如说你这边数据发送到这个卡法集群的leader之后，那leader跟follow之间是不是要进行数据的一个同步啊，哎，那这个同步啊，每批次这个同步这个数据量大小呢？哎，默认的是一兆啊，那如果你传过来一条日志都大于一兆了，那这块是不是就同步不了了啊，这都要适当提高，那么也就是说在生产环境当中这个值。要根据你传过来的日志的大小，进行适当的往上进行一个提高啊，假如说你这个生产环境当中啊，你们这个日志经常出现大于一兆的。
08:06
那你要知道最大的一条多多大六兆，最大一条呢是五兆，哎，那你这边呢，至少要提调到六兆对不对，每个值都给它调到六兆，那是不是就能满足对应的要求啊，但是正常情况下，在生产文件当中，一条日志的大小呢，往往是0.5K到2K之间，就能满足对应的一个要求啊。那下面还有最后一个叫ch max BA，这个呢，就是这个消费者端哎，去拉取这个博集群对应的数据的时候，最大一批咱说的是不是拉取50兆啊啊，50兆，那么其实这50兆啊，呃，它是一个软上限啊，就说你即使你这个这批数据过来，这里面大于50兆，那么其实它也能把这波数据拉回来啊，你说它其实受谁影响呢？它受的是这个影响啊，Max mass be，还有一个呢，是max message be，就前面这两个。这两个参数，你说你前两个，这也就说，也就是说你前两个这个参数啊，假如说我传过来日志呢，60兆对吧，按60兆，那么60兆呢，虽然说我这块写的是50兆，但是我也能把你的60兆的数据通过那个盎13的方法带回来啊，是没有问题的啊，这个呢要注意一下啊，所以说你前面这两个提高，那这个呢就还好，而且呢，这个单条日志超过这个50兆的这种情况几乎很少啊，很少很少，不不能说这个一点没有啊，因为之前听说过有个别公司啊，一条日志呢200兆啊，这种呢是极个别极个别的哈，而且也不建议说一条日志太大啊，这个呢要知道。
09:29
那下面呢，还有一种情况呢，就是这个服务器挂了怎么办？生产环境当中，经翅发现某一台卡卡挂了啊，好多同学就慌的不要不要的啊，那这时候大家要注意啊，首先呢，要正确的处理办法就是先尝试着去重启一下这个节点，哎，看能不能启动，如果没启动的话，你看他报什么错啊，然后根据错误呢，再进行一个排查啊好，如果说哎发现没有什么这个特别异常的地方，那这时候呢，哎，那就是重启也没行，没形的话，你考虑一下哎，看到内存O不OK，那之前我们是不是讲过查看内存的一些命令啊，在这呢。
10:03
这里面可以查看内存的一个，呃，使用情况对吧？哎，看它剩多少啊，还有多少内存使用，是不是这个内存不够用了，那你可以尝试着去考虑增加一下对应的这个内存啊，这是第一个，那接下来再往下看，那你还可以看一下是否出现这种卡顿的这种情况，那如果是卡顿的话呢，往往是这个CPU，哎，这个线程数不够，或者是你这个网络带宽啊，啊有点太低了，那你可以把这两个参数呢啊再适当提高，那这个呢，一般是遇到这种卡顿情况。那下面呢，还有一个呢，就是哎，有个别公司啊，前一阵有个呃，咱学生的同事啊，出现的什么情况呢？呃，他同事呢，手比较快，直接把一台机器所有的内容全干掉了啊，他执行的是2M-RF-RF，然后斜杠啊整个这个节点数据全没了啊，当时慌得不要不要的，其实后来我给他呃说了一下啊，其实没有什么大问题啊，我还特意问了一下你的副本数是多少啊，他说都是二啊，那二的话就没问题，你说你可以按照这个正常的服役新节点和退役旧节点这种方式对吧？哎，然后制定好这个数据的一个呃计划啊，之后呢，按照这个计划进行一个执行啊，然后把那个呃误删那台节点退役掉啊，之后呢，这个整个集群还是可以正常工作的，也不会进行一个丢数啊。
11:14
那这是服习挂了，那下面呢，就是这个卡瓦集群的一个压测啊，那压测呢啊，我们在下节课给大家详细的一个讲解啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Kafka3.x（2022版）

（80/96）

4分52秒

01_尚硅谷_Kafka_课程简介

550

6分21秒

02_尚硅谷_Kafka_概述_定义

430

7分35秒

03_尚硅谷_Kafka_概述_消息队列应用场景

510

3分47秒

04_尚硅谷_Kafka_概述_消息队列两种模式

480

9分39秒

05_尚硅谷_Kafka_概述_基础架构

480

15分36秒

06_尚硅谷_Kafka_入门_安装Kafka

610

4分33秒

07_尚硅谷_Kafka_入门_启动停止脚本

490

10分58秒

08_尚硅谷_Kafka_入门_Topic命令

530

5分9秒

09_尚硅谷_Kafka_入门_命令行操作

430

13分48秒

10_尚硅谷_Kafka_生产者_原理

500

12分15秒

11_尚硅谷_Kafka_生产者_异步发送

430

3分20秒

12_尚硅谷_Kafka_生产者_回调异步发送

320

2分21秒

13_尚硅谷_Kafka_生产者_同步发送

420

4分38秒

14_尚硅谷_Kafka_生产者_分区

430

11分17秒

15_尚硅谷_Kafka_生产者_分区策略

400

4分55秒

16_尚硅谷_Kafka_生产者_自定义分区

390

11分0秒

17_尚硅谷_Kafka_生产者_提高生产者吞吐量

390

14分0秒

18_尚硅谷_Kafka_生产者_数据可靠

350

15分5秒

19_尚硅谷_Kafka_生产者_数据重复

420

2分11秒

20_尚硅谷_Kafka_生产者_数据有序

310

4分47秒

21_尚硅谷_Kafka_生产者_数据乱序

370

6分0秒

22_尚硅谷_Kafka_Broker_ZK存储

450

5分21秒

23_尚硅谷_Kafka_Broker_工作原理

420

1分25秒

24_尚硅谷_Kafka_Broker_上下线

360

7分26秒

25_尚硅谷_Kafka_Broker_服役新节点（上）

350

7分24秒

26_尚硅谷_Kafka_Broker_服役新节点（下）

410

5分18秒

27_尚硅谷_Kafka_Broker_退役旧节点

400

16分4秒

28_尚硅谷_Kafka_每日回顾（上）

310

24分24秒

29_尚硅谷_Kafka_每日回顾（下）

460

4分18秒

30_尚硅谷_Kafka_Broker_副本基本信息

360

10分1秒

31_尚硅谷_Kafka_Broker_Leader选举

360

5分53秒

32_尚硅谷_Kafka_Broker_Follower故障

430

1分56秒

33_尚硅谷_Kafka_Broker_Leader故障

400

6分26秒

34_尚硅谷_Kafka_Broker_分区副本分配

400

4分40秒

35_尚硅谷_Kafka_Broker_手动调整分区副本分配

330

5分57秒

36_尚硅谷_Kafka_Broker_LeaderPartition负载平衡

460

2分57秒

37_尚硅谷_Kafka_Broker_增加副本因子

370

12分49秒

38_尚硅谷_Kafka_Broker_文件存储机制

460

8分33秒

39_尚硅谷_Kafka_Broker_文件清除策略

350

7分58秒

40_尚硅谷_Kafka_Broker_高效读写

310

2分52秒

41_尚硅谷_Kafka_消费者_消费方式

320

4分54秒

42_尚硅谷_Kafka_消费者_消费者总体工作流程

410

5分26秒

43_尚硅谷_Kafka_消费者_消费者组工作原理

250

6分48秒

44_尚硅谷_Kafka_消费者_消费者组初始化

390

4分1秒

45_尚硅谷_Kafka_消费者_消费者组详细消费流程

360

9分34秒

46_尚硅谷_Kafka_消费者_消费一个主题

410

6分37秒

47_尚硅谷_Kafka_消费者_消费一个分区

280

3分25秒

48_尚硅谷_Kafka_消费者_消费者组案例

460

12分58秒

49_尚硅谷_Kafka_消费者_Range分配

380

6分48秒

50_尚硅谷_Kafka_消费者_Roundrobin

360

5分51秒

51_尚硅谷_Kafka_消费者_Sticky

390

7分32秒

52_尚硅谷_Kafka_消费者_offset保存位置

420

4分41秒

53_尚硅谷_Kafka_消费者_自动offset

350

4分33秒

54_尚硅谷_Kafka_消费者_手动offser

360

9分42秒

55_尚硅谷_Kafka_消费者_指定offset

340

5分47秒

56_尚硅谷_Kafka_消费者_按照时间消费

420

4分3秒

57_尚硅谷_Kafka_消费者_消费者事务

390

3分6秒

58_尚硅谷_Kafka_消费者_数据积压

500

17分15秒

59_尚硅谷_Kafka_每日回顾（上）

420

17分41秒

60_尚硅谷_Kafka_每日回顾（下）

420

4分31秒

61_尚硅谷_Kafka_监控_MySQL环境准备

390

2分21秒

62_尚硅谷_Kafka_监控_Kafka环境准备

480

6分37秒

63_尚硅谷_Kafka_监控_Kafka-Eagle安装

370

5分6秒

64_尚硅谷_Kafka_监控_Kafka-Eagle监控页面

410

14分56秒

65_尚硅谷_Kafka_Kraft模式

430

7分43秒

66_尚硅谷_Kafka_集成_Flume环境准备

430

9分0秒

67_尚硅谷_Kafka_集成_Flume生产者

360

6分57秒

68_尚硅谷_Kafka_集成_Flume消费者

440

10分15秒

69_尚硅谷_Kafka_集成_Flink生产者

390

5分5秒

70_尚硅谷_Kafka_集成_Flink消费者

360

9分34秒

71_尚硅谷_Kafka_集成_SpringBoot生产者

360

4分11秒

72_尚硅谷_Kafka_集成_SpringBoot消费者

340

8分46秒

73_尚硅谷_Kafka_集成_Spark生产者

410

12分38秒

74_尚硅谷_Kafka_集成_Spark消费者

390

2分39秒

75_尚硅谷_Kafka_调优_内容简介

350

18分6秒

76_尚硅谷_Kafka_调优_硬件选择

370

9分34秒

77_尚硅谷_Kafka_调优_生产者调优

300

10分49秒

78_尚硅谷_Kafka_调优_Broker调优

350

9分14秒

79_尚硅谷_Kafka_调优_消费者调优

350

11分22秒

80_尚硅谷_Kafka_调优_总体调优

380

15分35秒

81_尚硅谷_Kafka_调优_生产者压力测试

350

5分44秒

82_尚硅谷_Kafka_调优_消费者压力测试

370

5分35秒

83_尚硅谷_Kafka_源码_环境准备

340

2分53秒

84_尚硅谷_Kafka_源码_生产者原理回顾

270

24分32秒

85_尚硅谷_Kafka_源码_生产者初始化

330

20分13秒

86_尚硅谷_Kafka_源码_生产者发送数据到缓存

350

14分42秒

87_尚硅谷_Kafka_源码_生产者Sender线程

340

4分53秒

88_尚硅谷_Kafka_源码_消费者原理回顾

360

19分31秒

89_尚硅谷_Kafka_源码_消费者初始化

340

5分14秒

90_尚硅谷_Kafka_源码_消费者订阅主题

350

2分56秒

91_尚硅谷_Kafka_源码_消费总体流程

300

5分58秒

92_尚硅谷_Kafka_源码_消费者组初始化流程

410

10分7秒

93_尚硅谷_Kafka_源码_消费者组拉取和处理数据

360

2分51秒

94_尚硅谷_Kafka_源码_消费者Offset提交

390

6分56秒

95_尚硅谷_Kafka_源码_服务器端源码

390

1分54秒

96_尚硅谷_Kafka_课程结束

410

80_尚硅谷_Kafka_调优_总体调优

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐