故障演练

最近更新时间:2024-01-19 11:56:21

我的收藏

背景

云原生 Kong 网关是一个常用的 API 网关,用于管理和保护后端服务。为保证您的业务能够持续提供服务,云原生网关(Kong)分组(标准版、专业版)提供节点同城双可用区部署,可以在某些特殊场景下导致的可用区故障或节点临时宕机等非预期情况时,保护您的应用程序不受影响。为此混沌演练平台提供了针对云原生网关(Kong)分组节点重启的故障演练动作,您可使用混沌演练平台进行该故障演练,模拟可用区故障或节点临时宕机离线的故障场景,以此验证业务系统韧性,及时规避隐患,从而保证业务能够持续稳定地提供服务。

注意事项

该故障动作支持按照默认分组以及其他分组(需指定分组 ID)进行故障注入。当选择其他分组指定分组时,如果需要对多个网关实例注入故障,建议拆分为一个动作组一个网关实例执行。
如果待注入的分组中的节点数量小于2,则会拒绝注入节点重启故障。
故障执行会从分组下的所有节点中随机选择一个节点进行重启,重启完成时间预计3~5分钟,在故障期间,可能会出现连接到重启节点的长连接断开,请业务做好重试连接机制。
环境检测会检查网关实例的分组状态、分组节点数量、注入分组类型等检查,若不通过,请按照提示进行调整或检查故障配置。



演练实施

步骤1:演练准备

1. 一个云原生 API 网关实例,且至少包含一个具有2个节点及以上的分组。



步骤2:演练编排

1. 登录 混沌演练控制台,进入演练管理页面,单击新建演练。

2. 单击左下角跳过,新建空白演练。

3. 填写演练基本信息,然后单击下一步


4. 选择对象类型云原生网关,然后单击添加实例,添加需要进行演练的实例。


5. 选择实例之后,单击演练动作模块中立即添加


6. 添加网关节点重启(分组)故障动作之后单击下一步


7. 配置动作参数。这里选择默认分组进行注入,然后单击确认
注意:
使用其他分组时,需要手动输入分组 ID。



8. 单击下一步,进入全局配置,详情请参见 快速入门


9. 确认无误后,单击提交。


步骤3:执行演练

1. 可在 腾讯云微服务引擎控制台 观察演练前实例分组节点信息数据。可知晓,演练前实例默认分组具有2个节点,分别位于广州六区和广州三区。


2. 由于演练为手动推进,所以需要手动执行故障动作。可单击执行启动故障注入。


3. 故障注入过程中,可在 腾讯云微服务引擎控制台 对应实例的部署架构模块中观察到实例的对应分组节点的状态。
故障中:默认分组下广州三区的节点因重启下线 。


故障完成:默认分组下广州三区的节点因重新上线。


4. 单击查看日志查看故障演练日志。