高可用原则

本文为翻译的文章,作者GrantCovell, StevenBeard, StephaneLeroy, ScottRich,原文:

https://jazz.net/wiki/bin/view/Deployment/HighAvailability

可用性是服务器或者进程正常运转时间的一种衡量方法,同时也是某个组件发生故障后,系统恢复所需时间的衡量方法。

高可用是系统的设计与实现,以达到系统和数据几乎在所有时间都具备可用性的目的,每天24个小时,每周7天,一年365天。高可用不等于100%可用。要达到100%可用,对于现在大部分的情况来说都不是一种节省成本的做法。相反,它是一个目标。

高可用是系统设计方法以及相关联的服务实现,以确保在一个约定的期间内达到预定的运营效率级别。

可用性--“9的个数”

可用性通常采用系统工作时间的百分比来表示 。“9的个数”的概念与可用性要求越来越高有关,9的个数越多,表示可用性和工作时间越多。比如,“5个9”等于99.999%的工作时间。

下面的表格展示了年/月/周所允许的宕机时间百分比,基于系统一年需要24x7x365(6)的运行环境。

衡量可用性

可用性用时间的百分比来衡量。如果一个环境对于一般的业务操作在99%的时间可用,那个这个环境的可用性就是99%。这个可用性的百分比转化为系统在每天/月/年的宕机时间的平均值。

为了真实的衡量环境的可用性,我们必须首先区分计划内的中断和非计划性的中断。 当运营人员把系统下线以进行备份、升级、维护和其它安排好的事件时,就属于计划内的中断。非计划性中断的出现是由于不可预见的事件发生,比如断电,硬件或者软件故障,用户操作员出错,安全漏洞,或者自然灾害等。

平均恢复时间(MTTR)

MTTR是指一个环境从所有的或者特定的故障恢复所需要的平均时间。

有时候一个组织只聚焦在主数据范围内的高可用性,而把灾难恢复的场景排除掉。

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20180626G1LL1R00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券