有奖:语音产品征文挑战赛火热进行中> HOT

背景

CVM 内核故障可能会导致业务无法正常运行,并影响到整个系统的稳定性。硬件故障、内核软件缺陷、驱动程序、不兼容性等问题都可能会引起内核故障,导致 CVM 无法正常运行,对于依赖高可用性的业务来说,这会给用户带来很大的不便和损失。
为了提高业务的可靠性和稳定性,需要进行内核故障动作演练。通过演练,可以验证在内核故障的情况下对业务的影响,以及提前暴露故障引起的一系列问题,便于快速有效地解决故障。在处理内核故障时,为避免对系统造成进一步损害,请具备足够系统知识和经验的人员进行操作。

演练实施

步骤一:演练准备

准备若干已经安装自动化助手(TAT)工具的 CVM 实例。

步骤二:演练编排

1. 进入 混沌演练平台,点击新建演练


2. 填写演练和动作组基本信息,添加目标 CVM 实例。


3. 添加演练动作,选择CPU资源内核故障动作,然后点击下一步进入参数配置。


4. 配置故障动作参数,此动作无必填参数,可直接点击确定完成添加。


5. 确认配置,提交演练完成创建。



步骤三:执行演练

1. 进入演练详情,单击前往动作组执行


2. 点击执行开始下发故障任务


3. 观察故障效果:存量连接中断,实例重启。


4. 执行恢复动作


说明:
不同操作系统对内核故障有不同的应对策略,常见的方式为自动重启计算机。如果操作系统并未响应,可以在平台上手动执行恢复动作强制重启。