亚马逊能够快速定位故障源,被影响的团队做处理 控制故障的范围不被扩散
出现故障时,最重要的不是 debug 故障,而是尽可能地减少故障的影响范围, 并尽可能快地修复问题。
恢复系统的手段
运维团队通常只能处理一些基础设施方面的问题,或是非功能性的问题。对于一些功能性的问题,运维团队是完全 没有能力处理的,只能通过相应的联系人,把相关的开发人员叫到线上来看。
解决一个故障可以通过 技术和管理两个方面入手
亚马逊会编写 COE(Correction of Errors)文档
不认同 阿里 惩罚故障责任人 的机制
慢 SQL 的故障复盘
第一,优化故障获知和故障定位的时间。
第二,优化故障的处理方式。
技术问题 隐藏着工程能力的问题 工程能力的问题背后是 公司管理的问题 公司管理问题 隐藏着 公司文化 创始人的问题
三条原则
要想本质解决问题 就需要 大扫除 但要想做到简化 非常难 在烂摊子中解决问题 几乎不可能
笔记源于课程 左耳听风 :故障处理最佳实践:应对故障 和 18 | 故障处理最佳实践:故障改进 2017-11-28 陈皓