高可用性架构可确保系统的运行性能并避免计划外停机和中断,在本文中,我们将讨论高可用性为何如此重要、如何衡量它以及最佳实践。
高可用性 (HA) 是指 IT 系统、组件或应用程序能够在特定时期内持续符合高水平的操作性能而不会出现故障,高可用性系统环境包括复杂的服务器集群,以及在最短时间内从意外事件中恢复系统的能力。
高可用性架构组件有助于确保正常运行时间,避免计划外停机和中断。正常运行时间是指系统工作和可用的可靠性;相反,停机时间是指系统不可用的时期。
高可用性基础设施配置为提供高质量的性能,以最小的停机率处理重负载和故障,通常,可用性表示为给定时间段内正常运行时间的百分比。
可用性是系统最重要的方面,在为任何类型的组织设置 IT 环境时,必须将高可用性视为第一要务,企业一般都期望系统可用且可运行而不会出现任何中断。
如果系统因计划外停机和中断而无法使用,则对组织或用户的影响可能是巨大的,例如,Facebook 服务在 2021 年 10 月 4 日中断了近 6 个小时,意外中断影响了全球超过 35 亿用户,估计损失了 60 亿美元。
可用性的计算方法是将总正常运行时间除以系统周期(正常运行时间和停机时间的总和),结果乘以 100 得到一个百分比。
可用性 =(总正常运行时间系统周期)×100
可用性百分比有时用数字中的 9 数表示。
高可用性系统和服务的设计预期在计划内和计划外中断期间的可用性为 99.999%,称为五个九的可靠性,作为参考,四个 9 (99.99%) 的可用性被视为行业标准,请注意,这可能因系统及其应用程序而异。
可用性 | 每天停机时间 | 每月停机时间 | 每年停机时间 |
---|---|---|---|
一个九 (90%) | 2.40 小时 | 73.05 小时 | 36.53 天 |
两个九(99%) | 14.40 分钟 | 7.31 小时 | 3.65 天 |
三个九 (99.9%) | 1.44 分钟 | 43.83 分钟 | 8.77 小时 |
四个九 (99.99%) | 8.64 秒 | 4.38 分钟 | 52.60 分钟 |
五个九 (99.999%) | 864.00 毫秒 | 26.30 秒 | 5.26 分钟 |
六个九 (99.9999%) | 86.40 毫秒 | 2.63 秒 | 31.56 秒 |
有多种步骤可以确保高可用性,这些最佳实践有助于在整个企业中部署高度可用的架构。
集群可以针对服务中的故障事件立即采取行动,具有集群感知的应用服务可以调用其他服务器的资源,当主服务器出现故障时,辅助服务器会提供支持,高可用性集群可能包括多个共享信息的节点。
高可用性架构最重要的特征之一是保护数据免受系统故障的影响,备份和恢复策略可确保通过适当的备份、复制和重新创建功能存储有价值和敏感的数据。
设置数据同步有助于满足系统的恢复点目标 (RPO),或“在中断期间丢失的数据量超过业务连续性计划的最大允许阈值之前可能经过的时间间隔”。
数据同步是在系统内建立一致数据的过程,然后在整个系统中不断更新该数据,始终保持数据完整性,为实现最高可用性,RPO 应设置为 60 秒或更短。
恢复时间目标 (RTO) 是指在发生任何中断或灾难后,将业务流程恢复到特定服务水平的既定最长时间,要实现五个九 (99.999%) 的可用性,RTO 应设置为 30 秒或更短,测试目标系统并确保它已准备好切换到此模型非常重要。
系统的监控工具集成了这些服务并提供性能报告,这些工具可以轻松检测正在进行或即将发生的中断或灾难,故障计划可帮助组织采取行动,以加强对系统故障事件的准备,因此,对故障进行规划对于应用高可用性的最佳实践至关重要。
高可用性是许多服务的期望,但有时公司很难实现,也就是说,有许多提供商支持高可用性架构,每家公司都需要确保其服务具有尽可能高的可用性,并将故障和停机时间降至最低。