有奖:语音产品征文挑战赛火热进行中> HOT

背景

CVM 网络中断故障是一个较为常见的问题。由于硬件故障、网络配置不当、网络设备故障、网络拥堵等原因,会导致 CVM 在网络通信过程中出现网络中断,影响业务正常运行。对于依赖高可用和低延迟的业务,网络中断则会给用户带来无法估量的损失。
为了提高 CVM 的网络可靠性和稳定性,需进行网络中断演练。通过演练,可以验证系统在网络中断情况下是否能够正常运行,以提前暴露故障引起的一系列问题,便优化系统架构并做好应急预案。

演练实施

步骤一:演练准备

准备若干可以演练的 CVM 实例。

步骤二:演练编排

1. 查看故障注入前的网络状态。使用 ping 命令向目标机器发送报文,检查网络连通性。如果无法收到目标地址的响应,或者丢包率较高,可能存在网络中断问题。



2. 单击新建演练,填写演练信息,添加目标 CVM 实例。


3. 点击立即添加,选择网络资源,单击网络中断,然后单击下一步


4. 配置故障动作参数,然后单击确定。此动作无需参数, 通用参数可以不配置。


5. 动作参数配置完成之后,单击下一步。根据实际情况配置护栏策略和监控指标,最后单击提交,完成演练创建。



步骤三:执行演练

1. 进入演练详情,单击前往动作组执行


2. 点击执行,开始演练。


3. 查看动作执行结果详情。


4. 查看故障注入后目标机器网络连接状态。可以发现,已经 Ping 不通了。


5. 执行恢复动作,查看恢复动作执行日志。


6. 查看故障恢复效果。登录到一台机器上,然后 Ping 目标机器 ,从响应报文可以看到,故障已经清除,网络传输已恢复正常。