背景
CVM 网络损坏故障是常见的问题之一。由于硬件故障、网络配置不当、网络拥堵等问题,会引起网络损坏,导致 CVM 无法正常响应用户请求,从而影响业务的正常运行。对于依赖高可用和低延迟的业务,网络损坏会给用户带来很大的不便和损失。
为了提高 CVM 的网络可靠性和稳定性,需进行网络损坏故障演练。通过演练,可以验证系统在网络损坏情况下是否能够正常运行,提前暴露在网络损坏故障场景下的一系列问题,以便于优化系统架构并做好应急预案。
演练实施
步骤一:演练准备
准备若干可以演练的 CVM 实例。
步骤二:演练编排
1. 查看故障注入前的网络状态。使用 ping 命令向目标机器发送报文,并等待目标机器的响应,以检查网络连通性。如果无法收到目标机器的响应,或者丢包率较高,可能存在网络损坏问题。
![](https://qcloudimg.tencent-cloud.cn/image/document/84843a810d07c74c30ec51306ba25107.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/84843a810d07c74c30ec51306ba25107.png)
2. 登录 云顾问 > 混沌演练控制台,进入演练管理页面,单击新建演练。
3. 单击跳过,新建空白演练。填写演练信息,添加目标 CVM 实例。![](https://qcloudimg.tencent-cloud.cn/image/document/3bd8454f3ea62d5d0ab8f89e124fb348.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/3bd8454f3ea62d5d0ab8f89e124fb348.png)
4. 单击立即添加,选择网络资源,单击主机内网络损坏,然后单击下一步。
![](https://qcloudimg.tencent-cloud.cn/image/document/4cab41517844a927e3f165ea4f5c8167.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/4cab41517844a927e3f165ea4f5c8167.png)
5. 配置故障动作参数,然后单击确定。
![](https://qcloudimg.tencent-cloud.cn/image/document/98cd9f640532d6ca2a942b8f4728738e.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/98cd9f640532d6ca2a942b8f4728738e.png)
6. 动作参数配置完成之后,单击下一步。根据实际情况配置护栏策略和监控指标,最后单击提交,完成演练创建。
![](https://qcloudimg.tencent-cloud.cn/image/document/6fe98eb4eff9592810e203fa1dac1c4b.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/6fe98eb4eff9592810e203fa1dac1c4b.png)
步骤三:执行演练
1. 进入演练详情,单击前往动作组执行。
![](https://qcloudimg.tencent-cloud.cn/image/document/56e5b4b8aeaa8b8111e3c1fbc06eb9d5.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/56e5b4b8aeaa8b8111e3c1fbc06eb9d5.png)
2. 单击执行,开始演练。
![](https://qcloudimg.tencent-cloud.cn/image/document/66a9c83ffb275a9b424c776c4897c9f2.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/66a9c83ffb275a9b424c776c4897c9f2.png)
3. 点击动作卡片,查看动作执行结果详情。![](https://qcloudimg.tencent-cloud.cn/image/document/8fc51132c63905495ae18216687c9566.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/8fc51132c63905495ae18216687c9566.png)
4. 查看故障注入后主机网络状态。再次 ping 目标机器的时候可以发现,返回的网络包已有部分损坏。![](https://qcloudimg.tencent-cloud.cn/image/document/0b170e257ecba3a5acf25f235342b755.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/0b170e257ecba3a5acf25f235342b755.png)
5. 执行恢复动作,查看恢复动作详情。
![](https://qcloudimg.tencent-cloud.cn/image/document/098a1ca2906a42fc9f39feba9fdf2748.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/098a1ca2906a42fc9f39feba9fdf2748.png)
6. 查看恢复效果。再次 ping 目标机器,可以看到网络传输已恢复正常,故障已经清除。![](https://qcloudimg.tencent-cloud.cn/image/document/3e056845875f0a31b60a108b3d153a25.png)
![](https://qcloudimg.tencent-cloud.cn/image/document/3e056845875f0a31b60a108b3d153a25.png)