有奖捉虫:行业应用 & 管理与支持文档专题 HOT

应用基本概念

应用(Application)通常指的是托管在云平台上的、用于提供特定功能或服务的一组软件组件。一个应用可能包含前端界面、后端逻辑、数据库和存储等多个组件,这些组件共同协同工作以实现特定的业务功能和目标。应用通常部署在一组实例资源上,如服务器、数据库、网络设备、存储设备等,它们可能分布在不同的可用区,运行在不同的操作系统和平台。

应用可用性管理

应用可用性管理(Application Availability Management)是一种确保应用程序在云计算环境中正常运行、满足用户需求和达到预期性能的解决方案。应用可用性管理的目标是及时发现和消除应用程序的潜在可靠性隐患,让业务保持高可用性、高性能和低故障率。随着云技术系统日益复杂,单一实例的混沌工程演练有时已无法满足整体应用可用性常态化治理的需求。而应用可用性管理的作用就是提供一个全面的一站式解决方案,可以让运维团队以自动化的方式在整个组织内实施可靠性管理。
一个完整的应用可用性管理流程包含以下几个步骤:
1. 应用创建:定义一个应用的实例范围,并关联对应的应用可观测指标,包括云产品监控、应用性能监控、告警指标等;
2. 隐患扫描:对应用中的所有实例资源进行定期隐患巡检,及时暴露应用可用性问题;
3. 隐患治理:对存在的隐患项进行治理,如多进行可用区部署、实例版本升级、完善故障告警配置等;
4. 故障演练:对于已经完成治理的隐患项,设计对应的混沌演练方案,对应用实例实施故障演练,从而验证治理效果;
5. 可用性评估:将“可用性分数”作为应用的可用性量化评估结果,分数包含部署得分和混沌演练验证得分。

应用可用性管理的价值

高效的一站式解决方案:应用可用性管理遵循一套完整的 SRE 流程,标准化的 SOP 使得组织内每位成员都能以规范的方式去评估应用服务的可靠性,及时识别潜在风险,可进行快速响应并有依据的治理。这将提升 SRE 和 DevOps 团队在运维工作中的效率。
明确的可用性量化方法:通过可用性评分直观地衡量应用或组织的整体可靠性情况,通过观察可用性分数的变化,可以展示出团队成员的工作进展和可用性治理效果。同时明确的可用性评分机制有助于激励团队成员主动、频繁地进行可靠性实践。
更高质量的客户体验:通过常态化可用性治理,确保服务更可靠、发布周期更快速,提升产品口碑和客户体验。