混沌演练平台可用性评估-操作指南-文档中心-腾讯云

应用可用性
应用可用性定义
云服务的可用性（Availability）是指云计算服务在给定时间内持续可靠地提供服务的能力。作为关键的性能指标，应用服务的可用性对于用户和组织来说非常重要，因为云可用性直接影响到用户对云服务的可靠性和可信度的信任。当基于云计算的 IT 基础设施出现问题时，如果可用性较差，企业将无法访问其数据或应用程序，并且可能会损失。因此，高可用性是企业能否继续访问数据和应用程序的关键。
应用可用性分数
在云计算领域，应用的可用性通常被量化为服务正常运行时间的百分比，业界用 N个9来量化可用性。此外，一些容灾恢复能力的关键指标 RPO、RTO 也通常被用来衡量系统的可用性情况。然而，这些“指标”有一个共同的问题：我们无法在真正的故障发生之前，得到一个可用性的客观评估结果。 因此，我们需要一个“可用性分数”体系，能够量化、展示、记录团队的可用性工作建设成果——这正是腾讯云混沌演练平台提供的“应用可用性评估”的价值所在。
应用可用性分数可以反映您运行在云上的一个应用服务的健康状态，它的评分规则包含两个维度：
隐患评估得分：系统自动扫描应用中的实例是否存在可用性隐患风险，经过用户主动治理后，风险项越少，得分越高；
演练验证评分：检验应用中所有实例的隐患评估项是否都已经过混沌演练验证，验证过的实例数量越多，得分越高。
隐患评估
1. 创建一个云架构应用，详情可参考 创建应用。
2. 进入应用详情，点击可用性评估。
﻿
﻿
﻿
3. 点击隐患评估，可展开查看各类型云产品的风险隐患。
系统每天12:00自动完成扫描评估并更新结果（扫描结果来自于 云顾问 - 风险治理）。
目前平台支持10种产品类型、193个风险评估项。
点击实例详情，可展开查看当前应用中，该评估项扫描不通过的所有实例信息。
﻿
﻿
4. 根据每条评估项的“优化建议”，完成所有实例的隐患治理工作。
﻿
﻿
5. 隐患评估项治理完成后，触发重新评估，隐患评估结果和得分将会更新。
﻿
﻿
演练验证
1. 点击演练验证，查看当前应用下所有云产品的演练情况。
支持对云产品类型进行筛选。
平台同时展示该评估项的扫描结果和验证结果。
﻿
﻿
注意：
平台建议用户首先对存在的隐患项进行治理，待扫描结果为“通过”时，再对实例进行混沌演练验证，否则可能将给业务带来安全风险。
2. 点击演练验证，对已通过该评估项的实例进行演练验证。
2.1 平台将根据当前评估项内容和产品类型，自动推荐演练验证方案。点击一键创建演练，进入演练任务创建流程。
﻿
﻿
2.2 进入新建演练页面，平台将自动填充实例、演练场景，并自动推荐相关监控指标。
﻿
﻿
﻿
2.3 检查演练信息，确认无误后，点击提交，即可完成演练创建。
﻿
﻿
﻿
3. 执行演练任务，对实例进行故障注入，记录实验结果。
4. 点击实例详情，查看当前评估项下，应用实例的演练情况。
﻿
﻿
﻿
对同一个实例，用户可以重复发起演练，平台将取最近一次执行结束的演练结果作为最新验证结果。
﻿
﻿
﻿
5. 演练验证完成后，触发重新评估，演练验证得分将会更新。
﻿
﻿
﻿
可用性分数规则
1. 应用可用性分数计算规则：
可用性分数 = 隐患评估得分 * 权重0.5 + 演练验证得分 * 权重0.5
隐患评估得分 =（100 - 累计扣分）* 权重0.5
演练验证得分 = 所有「评估项的验证得分」之和 * 权重0.5
2. 每个评估项的验证得分 = 该评估项下所有实例的「单个实例的验证得分」的平均分。
3. 单个实例的验证得分：
分数
扫描结果
验证结果
0分
通过或不通过
未验证
50分
通过或不通过
已验证，验证结果 = “不符合预期”
75分
不通过
已验证，验证结果 = “符合预期”
100分
通过
已验证，验证结果 = “符合预期”
﻿
分数	扫描结果	验证结果
0分	通过或不通过	未验证
50分	通过或不通过	已验证，验证结果 = “不符合预期”
75分	不通过	已验证，验证结果 = “符合预期”
100分	通过	已验证，验证结果 = “符合预期”
可用性评估

本页目录：

应用可用性

隐患评估

演练验证

可用性分数规则