我们需要讨论一些事情。关于 SRE 职业道路的很多事情我们不会在欢乐时光中高谈谈论。让我分享我对这份工作的 5 条自白。
防止中断是公司雇用 SRE 的原因,但我们中也有一小部分人生活在发生问题时的兴奋之中。当手机响起时,我们会心跳加速、手心出汗,并疯狂地查明根本原因并解决问题。我们永远不会承认这一点,但在找到根本原因时,我们会暗自享受中断带来的肾上腺素激增和多巴胺的刺激。
不要误会我的意思,SRE 工作是有回报的。但有时我们会看到开发人员整天幸福地编码,没有寻呼机职责,也没有凌晨 3 点的警报。我们希望我们可以用保持工作的压力来换取编写功能和修复错误。
我们喜欢复杂的分布式系统 - 如此多的移动部件,如此有弹性!然而,无论我们将其设计得多么坚固,人为错误都会导致一切崩溃。一个无意的点击就会造成玄学问题,6 小时后,中断问题解决,你开始怀疑你的职业选择。
我们可以轻松地针对配置错误或轻微中断等小事件进行消防演习。但我们回避真正的战争游戏灾难场景,例如数据中心断电、网络分区或数据库备份恢复。我们告诉自己这些灾难根本不用担心。事实上,我们应该做好更多准备,但通常其他事情具有更高的优先级。
站点更改是中断的第一大原因。尽管我们试图预测问题,但我们知道大多数中断都归结为某些被推送的代码或配置。在没有部署代码的期间(例如假期、公司关闭等),我公司的中断和警报下降了 70-90% - 您不能忽视的统计数据。
这就是为什么 SRE 通常被视为“看门人”。我们需要变更审查、回滚计划和测试是有原因的——因为没有什么比变更对可靠性造成严重破坏的了。
随手关注或者”在看“,诚挚感谢!