操作场景
如果当前的实例规格不满足您的业务需求,您可以在控制台上根据业务需求提升实例规格。
变更配置类型 | 变更项目 | 标准版(已停售) | 高级版 | 专业版 |
升级实例规格 | 峰值带宽 | × | ✓ | ✓ |
| 磁盘容量 | × | ✓ | ✓ |
| Partition 上限 | × | ✓ | ✓ |
降低实例规格 | 峰值带宽 | × | ✓ | ✓ |
| 磁盘容量 | × | ✓ | ✓ |
| Partition 上限 | × | ✓ | ✓ |
变更实例规格类型 | / | 支持升级到专业版 | × | × |
说明:
当前 CKafka 标准版实例已于2024年3月停止售卖,建议您升级到专业版。专业版支持多 AZ 部署、更高的 SLA 保障,并新增支持丰富的存储形态、SSL 认证和智能运维等高级功能。
变配影响
在您选择好变配的目标实例规格后,系统会自动识别底层资源是否需要变更,是否需要进行数据迁移。数据迁移过程中,每个分区迁移完成后,会进行分区的 Leader 切换,Leader 切换的风险请参见 Leader 切换典型场景。
单副本 Topic 情况下,由于缺乏冗余备份,变更期间将导致该 Topic 完全不可用,无法进行任何消息生产或消费操作,从而引发业务中断风险。
多副本 Topic 情况下,变更过程能够保持服务连续性,但是需要逐个重启节点,负载会转移到其他可用节点上。因此建议将变更操作安排在业务流量较少的时段
变更期间监控进程会因节点滚动重启而部分丢失或暂时中断,造成监控数据不准确或断点,待节点重启后监控数据将恢复正常。
变更期间由于节点滚动重启会引发分区 Leader 重新选举,会发生秒级连接闪断,通常在网络稳定的情况下 Leader 切换时长不超过1分钟。为确保多副本 Topic 服务的可靠性,建议在生产客户端配置重试机制:
对于使用 Kafka 开源客户端的场景,应检查 retries 参数配置,推荐设置为3-5;
对于 Flink 客户端环境,需确认是否已配置合适的重启策略。
变配时端口可能会发生变化,公网的实际通信 IP 可能会变化(接入点地址不变),内网实际通信的 IP 地址及接入点地址均不变。可以登录 消息队列 CKafka 版控制台,左侧导航栏选择实例列表,单击实例 ID 进入详情页 > 接入方式 > 查看所有 IP 和端口进行查看。如果您的服务器配置了访问限制(安全组),请在服务器上放通端口区间,具体操作请参见 绑定安全组。
集群变配期间,建议您不要操作 Topic 管理相关的功能,例如新增 Topic 或编辑 Topic 属性等,具体功能列表如下:
功能模块 | 具体功能 | 描述 |
Topic 管理列表 | 新建 Topic | 集群下新建 Topic。 |
| 编辑 Topic | 集群下编辑 Topic 属性,例如变更分区数、副本数等。 |
| 删除 Topic | 集群下删除 Topic。 |
| 限流 | 配置针对 Topic 的限流策略。 |
| 手动分区均衡引流 | 手动进行分区均衡引流,解决分区分配不均的问题。 |
智能运维(专业版独有功能) | 磁盘水位处理 | 变更动态消息保留策略,或磁盘自动扩容,开关状态。 |
| 分区动态处理 | 操作手动分区均衡引流,或配置自动化分区均衡策略。 |
| 带宽弹性配置 | 变更弹性带宽的开关状态。 |
包年包月实例升配时需要按天补足差价,具体请参见 包年包月与产品配置升级说明
注意:
因变配会引起实例规格的变化,部分监控项(百分比)会出现抖动,如您从 2000G 磁盘降配至 1000G 磁盘,则可能出现磁盘使用率超过100%,此种情况待变配完成后会自动恢复,建议在变配过程中重点关注容量型指标(如磁盘使用量)。
前提条件
在进行变配前,请您完成如下检查项:
1. 检查实例是否存在不可用的 VPC 网络、公网路由、支撑网络等。详情请参考 网络连接说明。
2. 检查实例是否存在未同步的副本。详情请参考 查看 Topic 分区状态。
3. 检查实例是否存在未完成的任务(例如数据迁移),是否存在创建异常、删除异常的 Topic 数据。
4. 升级峰值带宽前,检查剩余磁盘空间是否充足或开启磁盘自动扩容(专业版独有功能),实例变配期间不支持同时发起磁盘扩容,磁盘满载可能造成限流。
5. 降配前,请检查实例至少7天内的资源使用情况,若实例近 7 天峰值带宽或峰值存储大于您的目标降配规格,继续降配业务可能有损,请您结合实际业务需求决定是否进行降配操作。
说明:
操作步骤
1. 登录 CKafka 控制台。
2. 在左侧导航栏选择实例列表,找到目标实例后,单击操作栏的更多 > 升配。
3. 在升级配置页面,根据业务需求选择目标规格
设置目标峰值带宽、磁盘容量和 Partition 上限。

目标规格类型选择专业版,设置好目标峰值带宽、磁盘容量和 Partition 上限。

4. 单击下一步,设置进行变更模式。
当识别到变配无需进行数据迁移,则无需设置变更模式,直接进入下一步即可
当识别到变配需要进行数据迁移时,支持设置变更时间和变更模式;
变更时间:支持选择立即执行或者自定义时间(推荐选择夜晚执行,减少对业务的影响)。
变配模式:可以根据实际业务需要选择变配模式。
稳定模式:CKafka 将限制变配过程中数据迁移速度,最大程度保留实例的带宽属性,适合于不希望干扰业务的场景。
高速模式:CKafka 将不对变配过程中数据迁移的速度进行限制,会影响实例的生产消费带宽,适合于业务低峰或者允许停服的场景。

5. 单击提交,返回实例列表,可以看到实例的状态变为“变配中”,点击悬浮图标可以查看实例的变配进度。若设置了定时变配中,则在状态栏可修改定时时间。
1. 登录 CKafka 控制台。
2. 在左侧导航栏选择实例列表,找到目标实例后,单击操作栏的更多 > 降配。
3. 在降低配置页面,根据业务需求选择目标规格。

4. 单击下一步,设置进行变更模式。
当识别到变配无需进行数据迁移,则无需设置变更模式,直接进入下一步即可
当识别到变配需要进行数据迁移时,支持设置变更时间和变更模式;
变更时间:支持选择立即执行或者自定义时间(推荐选择夜晚执行,减少对业务的影响)。
变配模式:可以根据实际业务需要选择变配模式。
稳定模式:CKafka 将限制变配过程中数据迁移速度,最大程度保留实例的带宽属性,适合于不希望干扰业务的场景。
高速模式:CKafka 将不对变配过程中数据迁移的速度进行限制,会影响实例的生产消费带宽,适合于业务低峰或者允许停服的场景。

5. 单击提交,返回实例列表,可以看到实例的状态变为“变配中”,点击悬浮图标可以查看实例的变配进度。若设置了定时变配,则在状态栏可修改定时时间。
升配失败的可能原因
1. 当前可用区的磁盘资源不满足此次升配的需求,建议联系腾讯云在线客服确认是否有足够的资源。
2. 实例升配过程中如果选择高速模式,并且集群当中存在占用带宽资源较高的生产任务时,会发生数据迁移延迟时长增大,可通过观察升配时间段生产和消费流量是否存在过高峰值。
3. 升配过程中耗时过长,由于迁移的机器配置的接收最大的消息字节数是1MB,而需要迁移的 Broker 配置的是 8MB。会导致 Broker 无法接收超大消息迁移,从而产生较长的迁移数据耗时,请咨询腾讯云在线客服处理。