通过不断地失败来避免失败,携程混沌工程实践
混沌工程的核心思想是通过不断地失败来避免失败,以主动制造故障的方法来宏观地验证业务的容灾和恢复能力。本文讨论了携程在实践混沌工程以来的想法和方案,希望能带来一些参考和启发。
我们对故障何时会发生一无所知,而故障也无可避免地一定会发生。
一、我们为什么要做混沌工程
这几年,携程业务和技术架构在不断地快速演进,给服务可用性提出了很大的挑战:系统的宕机成本越来越高,用户对故障的容忍度越来越低。在这样的背景下,我们该如何保持稳定的用户体验,如何降低重大故障带来的各种有形和无形的损失,如何提高团队的整体应...