前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一个SRE工作10年后的自白

一个SRE工作10年后的自白

作者头像
用户5166556
发布2023-12-26 11:59:01
1240
发布2023-12-26 11:59:01
举报

我们需要讨论一些事情。关于 SRE 职业道路的很多事情我们不会在欢乐时光中高谈谈论。让我分享我对这份工作的 5 条自白。

⚡我们暗自渴望中断带来的肾上腺素激增

防止中断是公司雇用 SRE 的原因,但我们中也有一小部分人生活在发生问题时的兴奋之中。当手机响起时,我们会心跳加速、手心出汗,并疯狂地查明根本原因并解决问题。我们永远不会承认这一点,但在找到根本原因时,我们会暗自享受中断带来的肾上腺素激增和多巴胺的刺激。

😇我们羡慕那些不用随叫随到的开发者

不要误会我的意思,SRE 工作是有回报的。但有时我们会看到开发人员整天幸福地编码,没有寻呼机职责,也没有凌晨 3 点的警报。我们希望我们可以用保持工作的压力来换取编写功能和修复错误。

👨‍💻团队低估了中断概率中的人为因素

我们喜欢复杂的分布式系统 - 如此多的移动部件,如此有弹性!然而,无论我们将其设计得多么坚固,人为错误都会导致一切崩溃。一个无意的点击就会造成玄学问题,6 小时后,中断问题解决,你开始怀疑你的职业选择。

🚫我们忽视了真正的灾难准备

我们可以轻松地针对配置错误或轻微中断等小事件进行消防演习。但我们回避真正的战争游戏灾难场景,例如数据中心断电、网络分区或数据库备份恢复。我们告诉自己这些灾难根本不用担心。事实上,我们应该做好更多准备,但通常其他事情具有更高的优先级。

👻我们害怕变更

站点更改是中断的第一大原因。尽管我们试图预测问题,但我们知道大多数中断都归结为某些被推送的代码或配置。在没有部署代码的期间(例如假期、公司关闭等),我公司的中断和警报下降了 70-90% - 您不能忽视的统计数据。

这就是为什么 SRE 通常被视为“看门人”。我们需要变更审查、回滚计划和测试是有原因的——因为没有什么比变更对可靠性造成严重破坏的了。


随手关注或者”在看“,诚挚感谢!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-12-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云原生技术爱好者社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ⚡我们暗自渴望中断带来的肾上腺素激增
  • 😇我们羡慕那些不用随叫随到的开发者
  • 👨‍💻团队低估了中断概率中的人为因素
  • 🚫我们忽视了真正的灾难准备
  • 👻我们害怕变更
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档