有奖捉虫:办公协同&微信生态&物联网文档专题 HOT
混沌演练平台(Chaotic Fault Generator)提供高效便捷、安全可靠的故障演习服务,除可视化故障注入服务外,还提供行业经验模板,监控护栏等核心功能,致力于帮助用户及时发现业务容灾隐患、验证高可用预案的有效性,从而提高系统的可用性和韧性。
以下视频将帮助您快速了解混沌演练平台。


基本概念

在使用混沌演练平台之前,了解相关概念,有助于您更快上手产品操作。
概念
说明
示例
混沌工程
混沌工程是在分布式系统上进行实验的学科,通过实践更新对系统的认知,从而去了解和发现系统未知的弱点,目的是建立对系统抵御生产环境中失控条件的能力以及信心。
-
演练
通过向系统的指定位置注入指定故障,观察实验结果,以验证和提高系统可用性的过程。
-
动作
指演练过程中向系统注入的原子故障动作,包括 IaaS、Paas 和SaaS 的各类故障注入场景,在一次演练任务中用户可以对多个演练动作进行自由组合和编排。动作组是动作的集合。
CPU 利用率高、CVM 关机、数据库主从切换等。
对象
动作所作用的实例对象。
CVM,MySQL 等。
经验
将有价值的、演练频次高的演练任务和场景另存为演练经验模板,以便后续快速复用。经验模板内容包括演练基本信息、动作编排方案等,后续使用时只需确定演练对象即可。
跨可用区容灾演练经验模板、网络故障经验模板等。
监控指标
为了判断系统是否稳定运行以及故障注入是否执行成功,可提前配置系统稳态指标,在演练过程中实时监测,感知系统状态变化。
磁盘使用率(%)。
护栏策略
配置告警指标和触发策略,当告警指标达到触发阈值时,系统可自动停止演练和动作回滚,以控制演练的影响范围。
若磁盘使用率(%)到达90%,则自动停止演练。