有奖捉虫:办公协同&微信生态&物联网文档专题 HOT
本文将为您介绍如何快速使用混沌演练平台,您也可以通过以下视频快速了解混沌演练平台的基本操作。


平台简介




1. 概览:提供新手操作指引、活动体验入口、热门演练模板等功能,帮助您及时获取产品资讯。
2. 演练管理:新建演练、管理所有历史演练任务。
3. 动作库管理:查看平台故障动作库详情,管理自定义动作脚本。
4. 经验库管理:查看平台推荐的演练经验模板,管理自定义经验库。
5. 探针管理:管理 TKE 类型故障动作所用到的预装在集群内的探针。
6. 运营统计:统计演练次数、动作和经验使用情况等。

操作步骤

为验证系统的容错性和可用性等性能,您可以将合适的故障注入到系统中,观察系统的表现,从而识别系统中可能存在的问题并及时修复。下面以“CPU 利用率高”演练为例,介绍如何快速创建一个混沌演练。

步骤一:新建演练

1. 登录 混沌演练控制台,进入演练管理页面,单击新建演练



2. 新建演练时,可直接选用平台推荐的行业经验模板,也可选择“跳过,新建空白演练”。若使用模板创建,则会自动带入演练基本信息、故障动作编排信息等,您只需选择实例资源即可。这里您可选择跳过。



3. 进入基本信息填写页面,填写演练名称演练描述自定义标签。其中,自定义标签可用于管理和搜索演练任务。单击下一步



4. 进入演练对象配置页面,填写动作组编排信息,并在动作组中选择添加实例
同一个动作组内仅可针对同一种对象类型进行故障注入操作;
一个动作组内可以根据需要添加多个动作,自由组合编排。



5. 单击添加实例,选择要注入故障的实例资源,这里选择 CVM 实例。
支持按实例类型、实例名称等进行搜索;
支持批量添加实例。



6. 添加实例完成后页面右侧同步出现实例分布预览视图。确认无误后单击添加演练动作
实例分布预览视图将直观地展示您所选实例所在的子网、可用区、实例类型等信息,帮助您快速检查实例选择范围是否正确,精准控制爆炸半径。



7. 单击立即添加演练动作,在“CPU 资源”分类中选择“CPU 利用率高”故障动作,单击下一步
平台支持多种故障原子动作的搜索;
支持通过上传自定义脚本的方式实现自定义故障注入,满足业务个性化需求。



8. 设置动作参数,支持在通用参数中设置动作前后等待时间超时时间,控制演练节奏;



动作参数中设置此动作的持续时长。设置完成后,单击确定,完成动作添加。



9. 单击下一步,进入全局配置页面,选择动作执行方式、配置护栏策略监控指标



单击选择护栏策略(本教程不作配置):



单击添加监控指标,这里选择CPU使用率指标,以实时观察故障注入情况:



10. 配置完成后,选择提交演练,演练创建成功。系统自动跳转演练环境检测页面,对本次演练的环境进行预检查,检查内容包括探针安装情况、自动化助手 TAT 安装情况、操作系统版本等,检查目的是确保演练可顺利进行。
说明:
演练环境检测功能仅用作风险提示,不会阻塞演练流程!即使环境预检不通过,您也可继续进行演练,但有可能会导致演练失败。为保证演练正常执行,建议按照预检指引操作后再继续流程。



11. 演练环境检测通过,单击跳转演练详情页面查看演练信息。系统默认展示可视化演练视图,在演练过程中,可以随时单击关闭可视化编排,切换至传统表单视图。




步骤二:执行演练

1. 进入演练详情页面,单击右上角执行开启演练。
说明:
若在上述创建演练过程中,执行方式选择为自动执行,则此处单击右上角执行按钮后系统将会自动开始执行动作,无需人工介入。
若执行方式为手动推进,则单击右上角执行后仍需要在动作组中单击开始。
若某个动作执行失败,则系统自动切换为手动推进方式,需要人工介入手动单击动作组中的执行或者跳过



2. 单击

,开始注入故障。



3. 演练执行过程中,通过单击可视化视图中的实例,展开查看动作执行详情;



4. 单击查看动作组详情,可以查看动作执行情况以及查看日志




步骤三:结束演练

1. 故障动作执行成功,单击结束演练。



2. 填写演练结论,记录演练过程中出现的问题、应急预案措施等,便于后续复盘分析



3. 单击生成演练报告,一键导出本次演练的报告。



您可查看混沌演练平台演练报告,内容包括:演练基本信息、演练动作组、演练日志、问题记录等。




步骤四:经验库管理

对于需要频繁进行的演练流程,以及历次演练中取得不错效果的演练,可以提取出其中的演练编排要素,新建为经验库,后续创建时即可快速复用模板,提升演练效率。同时,用户可以在经验库管理对自定义经验进行停用或生效等操作。