有奖捉虫:办公协同&微信生态&物联网文档专题 HOT

应用可用性

应用可用性定义
云服务的可用性(Availability)是指云计算服务在给定时间内持续可靠地提供服务的能力。作为关键的性能指标,应用服务的可用性对于用户和组织来说非常重要,因为云可用性直接影响到用户对云服务的可靠性和可信度的信任。当基于云计算的 IT 基础设施出现问题时,如果可用性较差,企业将无法访问其数据或应用程序,并且可能会损失。因此,高可用性是企业能否继续访问数据和应用程序的关键。
应用可用性分数
在云计算领域,应用的可用性通常被量化为服务正常运行时间的百分比,业界用 N个9来量化可用性。此外,一些容灾恢复能力的关键指标 RPO、RTO 也通常被用来衡量系统的可用性情况。然而,这些“指标”有一个共同的问题:我们无法在真正的故障发生之前,得到一个可用性的客观评估结果。 因此,我们需要一个“可用性分数”体系,能够量化、展示、记录团队的可用性工作建设成果——这正是腾讯云混沌演练平台提供的“应用可用性评估”的价值所在。
应用可用性分数可以反映您运行在云上的一个应用服务的健康状态,它的评分规则包含两个维度:
隐患评估得分:系统自动扫描应用中的实例是否存在可用性隐患风险,经过用户主动治理后,风险项越少,得分越高;
演练验证评分:检验应用中所有实例的隐患评估项是否都已经过混沌演练验证,验证过的实例数量越多,得分越高。

隐患评估

1. 创建一个云架构应用,详情可参考 创建应用
2. 进入应用详情,点击可用性评估


3. 点击隐患评估,可展开查看各类型云产品的风险隐患。
系统每天12:00自动完成扫描评估并更新结果(扫描结果来自于 云顾问 - 风险治理)。
目前平台支持10种产品类型、193个风险评估项。
点击实例详情,可展开查看当前应用中,该评估项扫描不通过的所有实例信息。


4. 根据每条评估项的“优化建议”,完成所有实例的隐患治理工作。


5. 隐患评估项治理完成后,触发重新评估,隐患评估结果和得分将会更新。



演练验证

1. 点击演练验证,查看当前应用下所有云产品的演练情况。
支持对云产品类型进行筛选。
平台同时展示该评估项的扫描结果和验证结果。


注意:
平台建议用户首先对存在的隐患项进行治理,待扫描结果为“通过”时,再对实例进行混沌演练验证,否则可能将给业务带来安全风险。
2. 点击演练验证,对已通过该评估项的实例进行演练验证。
2.1 平台将根据当前评估项内容和产品类型,自动推荐演练验证方案。点击一键创建演练,进入演练任务创建流程。


2.2 进入新建演练页面,平台将自动填充实例、演练场景,并自动推荐相关监控指标。


2.3 检查演练信息,确认无误后,点击提交,即可完成演练创建。


3. 执行演练任务,对实例进行故障注入,记录实验结果。
4. 点击实例详情,查看当前评估项下,应用实例的演练情况。


对同一个实例,用户可以重复发起演练,平台将取最近一次执行结束的演练结果作为最新验证结果


5. 演练验证完成后,触发重新评估,演练验证得分将会更新。



可用性分数规则

1. 应用可用性分数计算规则:
可用性分数 = 隐患评估得分 * 权重0.5 + 演练验证得分 * 权重0.5
隐患评估得分 =(100 - 累计扣分)* 权重0.5
演练验证得分 = 所有「评估项的验证得分」之和 * 权重0.5
2. 每个评估项的验证得分 = 该评估项下所有实例的「单个实例的验证得分」的平均分。
3. 单个实例的验证得分:
分数
扫描结果
验证结果
0分
通过或不通过
未验证
50分
通过或不通过
已验证,验证结果 = “不符合预期”
75分
不通过
已验证,验证结果 = “符合预期”
100分
通过
已验证,验证结果 = “符合预期”