高可用原则

文章来源：企鹅号 - 互联网全栈架构

本文为翻译的文章，作者GrantCovell, StevenBeard, StephaneLeroy, ScottRich，原文：

https://jazz.net/wiki/bin/view/Deployment/HighAvailability

可用性是服务器或者进程正常运转时间的一种衡量方法，同时也是某个组件发生故障后，系统恢复所需时间的衡量方法。

高可用是系统的设计与实现，以达到系统和数据几乎在所有时间都具备可用性的目的，每天24个小时，每周7天，一年365天。高可用不等于100%可用。要达到100%可用，对于现在大部分的情况来说都不是一种节省成本的做法。相反，它是一个目标。

高可用是系统设计方法以及相关联的服务实现，以确保在一个约定的期间内达到预定的运营效率级别。

可用性--“9的个数”

可用性通常采用系统工作时间的百分比来表示。“9的个数”的概念与可用性要求越来越高有关，9的个数越多，表示可用性和工作时间越多。比如，“5个9”等于99.999%的工作时间。

下面的表格展示了年/月/周所允许的宕机时间百分比，基于系统一年需要24x7x365(6)的运行环境。

衡量可用性

可用性用时间的百分比来衡量。如果一个环境对于一般的业务操作在99%的时间可用，那个这个环境的可用性就是99%。这个可用性的百分比转化为系统在每天/月/年的宕机时间的平均值。

为了真实的衡量环境的可用性，我们必须首先区分计划内的中断和非计划性的中断。当运营人员把系统下线以进行备份、升级、维护和其它安排好的事件时，就属于计划内的中断。非计划性中断的出现是由于不可预见的事件发生，比如断电，硬件或者软件故障，用户操作员出错，安全漏洞，或者自然灾害等。

平均恢复时间（MTTR）

MTTR是指一个环境从所有的或者特定的故障恢复所需要的平均时间。

有时候一个组织只聚焦在主数据范围内的高可用性，而把灾难恢复的场景排除掉。

相关快讯