Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >「译文」Google SRE 二十年的经验教训

「译文」Google SRE 二十年的经验教训

作者头像
东风微鸣
发布于 2023-11-06 08:01:05
发布于 2023-11-06 08:01:05
3010
举报

👉️URL: https://sre.google/resources/practices-and-processes/twenty-years-of-sre-lessons-learned/ ✍️Authors: Adrienne Walcer, Kavita Guliani, Mikel Ward, Sunny Hsiao, and Vrai Stacey Contributors: Ali Biber, Guy Nadler, Luisa Fearnside, Thomas Holdschick, and Trevor Mattson-Hamilton 📝Description: Site Reliability Engineering, incident management, learning, lessons learned, SRE

前言

二十年可以发生很多事情,尤其是当你忙于发展的时候。

二十年前,谷歌有一对数据中心,每个中心有几千台服务器,通过一对 2.4G 网络链路环形连接。我们使用 Python 脚本(如 "Assigner"、"Autoreplacer "和 "Babysitter")运行我们的私有云(虽然当时我们并不这么称呼它),这些脚本在包含单个服务器名称的配置文件上运行。我们有一个小型的机器数据库(MDB),可以帮助整理和保存单个服务器的信息。我们的工程师小团队使用脚本和配置文件自动解决一些常见问题,并减少了管理服务器小舰队所需的人工劳动。

时光荏苒,Google 的用户为搜索而来,为免费的 GB Gmail 而去,我们的机群和网络也随之发展壮大。如今,就计算能力而言,我们的规模是 20 年前的 1000 多倍;就网络而言,我们的规模是 20 年前的 10000 多倍,而且我们在每台服务器上花费的精力比以前少得多,同时我们的服务堆栈也具有更好的可靠性。我们的工具已经从一系列 Python 脚本发展到集成的服务生态系统,再到默认提供可靠性的统一平台。我们对分布式系统的问题和故障模式的理解也在不断发展,因为我们遇到了新的故障类型。我们创建了 不幸之轮 ("Wheel of Misfortune")[1],我们编写了 服务最佳实践指南 ("Service Best Practices guides")[2],我们出版了《Google's Greatest Hits》,今天,我们非常高兴地向大家介绍:

•本杰明-特雷纳-斯洛斯,谷歌 SRE 的创建者

网站可靠性工程二十年的经验教训

让我们从 2016 年说起,那时候 YouTube 还在提供 "阿黛尔的拼车卡拉 OK "和永远吸引人的 "Pen-Pineapple-Apple-Pen"等您最喜爱的视频。由于 YouTube 的分布式内存缓存系统出现错误,YouTube 经历了长达 15 分钟的全球中断,导致 YouTube 服务视频的能力中断。以下是我们从这次事件中学到的三个教训。

1 缓解事故的程度应与事故的严重程度成正比 (The riskiness of a mitigation should scale with the severity of the outage)

有这样一个笑话:一个人在网上发布了一张在自己家里看到蜘蛛的照片,The Captain 说:"是时候搬到新房子了!"。这个笑话的意思是,对这一事件(看到一只可怕的蜘蛛)将采取严厉的缓解措施(放弃你现在的家,搬到新家)。我们在 SRE 中也有过一些有趣的经历,那就是选择一种风险大于其所要解决的故障的缓解措施。在前面提到的 YouTube 故障事件中,一个冒险的负载削减过程并没有解决故障问题。..... 反而造成了连锁故障。

我们深刻地认识到,在事故发生期间,我们应该监控和评估情况的严重性,并选择与严重性相适应的故障缓解途径。在最好的情况下,有风险的缓解措施可以解决故障。而在最坏的情况下,故障缓解措施会失灵,导致中断时间延长。此外,如果一切正常,您可以做出绕过标准程序的明智决定。

2 应在紧急情况发生前对恢复机制进行全面测试 (Recovery mechanisms should be fully tested before an emergency)

在高大的城市建筑中进行紧急消防疏散,是第一次使用梯子的绝佳机会。同样,中断也是第一次尝试危险的负载下降过程的绝佳机会。为了在高风险、高压力的情况下保持冷静,事先练习恢复机制和缓解措施并验证以下几点非常重要:

•它们能满足您的需求•你知道如何去做

测试恢复机制还有一个有趣的副作用,就是可以降低执行其中某些操作的风险。自从下面这次混乱的故障后,我们加倍努力进行测试。

3 金丝雀所有变更 (Canary all changes)

有一次,我们想推送缓存配置变更。我们非常确定这不会导致任何不良后果。但 "非常确定" 并不是百分之百的确定。结果发现,缓存对 YouTube 来说是一个相当关键的功能,而配置更改带来了一些意想不到的后果,使服务完全瘫痪了 13 分钟。如果我们采用渐进式发布策略 金丝雀所有变更 (canaried those global changes)[3],这次故障本可以在对全球造成影响之前得到遏制。在这里阅读有关金丝雀策略的更多信息[4],以及 在视频中了解更多信息[5]。

大约在同一时期,YouTube 稍微年轻一些的兄弟公司 Google Calendar 也经历了一次故障,这也是接下来两节课的背景。

4 有一个 "大红色(急停)按钮"(Have a "Big Red Button")

"急停按钮"是一种独特但非常实用的安全功能:它应该启动一个简单、易于触发的操作,将触发不良状态的因素还原为(理想情况下)关闭正在发生的一切。"急停按钮" 有很多种形状和大小--在提交潜在的危险操作之前,确定这些红色按钮可能是什么非常重要。我们曾险些触发一次重大故障,还好提交可能触发变更的工程师在变更传播之前拔掉了台式电脑的电源。因此,在计划重大部署时,请考虑什么是我的 "红色按钮"?确保每个服务依赖项都有一个 "红色按钮",以便在紧急情况下使用。更多信息,请参阅 "通用缓解措施"[6]!

5 仅有单元测试是不够的,还需要集成测试 (Unit tests alone are not enough - integration testing is also needed)

啊。... 单元测试。它们验证单个组件是否能按照我们的要求执行。单元测试有意限制了测试范围,而且非常有用,但它们也无法完全复制运行时环境和可能存在的生产需求。因此,我们大力提倡集成测试!我们可以使用集成测试来验证作业和任务是否可以执行冷启动。事情是否能按我们希望的方式运行?各组件能否按照我们的要求协同工作?这些组件能否成功创建我们想要的系统?我们在一次 Calendar 故障中吸取了这一教训,在这次故障中,我们的测试并没有遵循与实际使用相同的路径,结果导致大量的测试。..... 这并不能帮助我们评估变更在现实中的表现。

转到 2017 年 2 月发生的一起事件,我们找到了下两个教训。

首先,不可用的 OAuth 令牌导致数百万用户注销了设备和服务,32000 台 OnHub 和 Google WiFi 设备执行了出厂重置。由于登录失败,手动恢复账户的要求增加了 10 倍。谷歌花了大约 12 个小时才完全从故障中恢复过来。

6 通信渠道!和备份渠道!! 以及这些备份渠道的备份!!!(COMMUNICATION CHANNELS! AND BACKUP CHANNELS!! AND BACKUPS FOR THOSE BACKUP CHANNELS!!!)

是的,那是一段糟糕的时光。你想知道是什么让情况变得更糟吗?各团队都希望能够使用 Google Hangouts 和 Google Meet 来管理事件。但是,当 3.5 亿用户注销了他们的设备和服务时。..... 回过头来看,依赖这些谷歌服务是一个错误的决定。请确保您拥有非依赖性的备份通信渠道,并对其进行过测试。

然后,2017 年的同一事件让我们更好地理解了 优雅降级 (graceful degradation):[7]

7 刻意降级性能模式 (Intentionally degrade performance modes)

人们很容易将可用性理解为 "完全正常 "或 "一切正常"...... 但是,通过降级性能模式持续提供最低限度的功能,有助于提供更加一致的用户体验。因此,我们谨慎而有意地构建了性能降级模式--因此在不稳定的情况下,用户可能根本无法看到它(可能现在就在发生!)。服务应优雅地降级,并在特殊情况下继续运行。

下一课是一项建议,旨在确保您的最后一道防线系统在极端情况下(如自然灾害或网络攻击)如期运行,从而导致生产力或服务可用性的损失。

8 测试抗灾能力 (Test for Disaster resilience)

除了单元测试和集成测试,还有其他类型的重要测试:灾难应急和恢复测试 (disaster resilience and recovery testing)。灾难应急 (disaster resilience) 测试验证您的服务或系统在发生故障、延迟或中断时能否继续运行,而恢复测试 (recovery testing) 则验证您的服务能否在完全关闭后恢复到正常状态。正如 "经受住意外"[8] 中所述,两者都应成为业务连续性战略的关键部分。一项有用的活动还可以是让团队坐下来,以桌面游戏的方式讨论其中一些情景在理论上是如何发生的。这也是一个探索那些可怕的 "如果"的有趣机会,例如,"如果您的部分网络连接意外关闭怎么办?

9 自动化您的缓解措施 (Automate your mitigations)

2023 年 3 月,几个数据中心的多台网络设备几乎同时发生故障,导致大面积数据包丢失。在这次为期 6 天的故障中,根据网络故障发生时的位置、服务负载和配置,估计有 70% 的服务受到了不同程度的影响。

在这种情况下,您可以通过自动采取缓解措施来缩短平均解决时间(MTTR)。如果有一个明确的信号表明某个故障正在发生,那么为什么不能自动启动缓解措施呢?有时,最好先使用自动缓解措施,而将根本原因留待避免对用户造成影响之后再处理。

10 缩短两次发布之间的间隔时间,降低发布出错的可能性 (Reduce the time between rollouts, to decrease the likelihood of the rollout going wrong)

2022 年 3 月,支付系统发生大面积故障,客户无法完成交易,导致《口袋妖怪 GO》社区日被推迟。原因是删除了一个单一的数据库字段,由于事先已从代码中删除了该字段的所有用途,因此本应是安全的。不幸的是,由于系统的一部分发布速度较慢,这意味着实时系统仍在使用该字段。

由于发布之间的延迟时间较长,尤其是在复杂的多组件系统中,因此很难推段发布特定变更的安全性。频繁发布[9]--在适当测试的情况下--可减少此类故障的意外发生。

11 单一的全局硬件版本就是单点故障 (A single global hardware version is a single point of failure)

只用一种特定型号的设备来执行关键功能可以简化操作和维护。然而,这意味着如果该型号出现问题,则不再执行该关键功能。

这种情况发生在 2020 年 3 月,当时一台存在未被发现的零日漏洞的网络设备遇到了触发该漏洞的流量模式变化。由于整个网络使用的是同一型号和版本的设备,因此出现了严重的区域性故障。幸亏有多条网络主干线,高优先级流量才得以通过仍可正常工作的替代设备进行传输,才避免了全面中断。

关键基础设施中的潜在漏洞可能潜伏未被发现,直到一个看似无害的事件触发它们。维护多样化的基础设施虽然会产生成本,但却意味着故障与完全故障之间的差别。

就是这样!从谷歌二十年的网站可靠性工程中汲取的 11 条经验。为什么是 11 条经验?嗯,你看,谷歌网站可靠性部门拥有悠久的历史,但仍处于鼎盛时期。

References

[1] 不幸之轮 ("Wheel of Misfortune"): https://sre.google/sre-book/accelerating-sre-on-call/ [2] 服务最佳实践指南 ("Service Best Practices guides"): https://sre.google/sre-book/service-best-practices/ [3] 金丝雀所有变更 (canaried those global changes): https://sre.google/workbook/canarying-releases/ [4] 在这里阅读有关金丝雀策略的更多信息: https://storage.googleapis.com/pub-tools-public-publication-data/pdf/24017e52c907294589604a29a86f158828eda078.pdf [5] 在视频中了解更多信息: https://www.usenix.org/conference/srecon18europe/presentation/davidovic [6] "通用缓解措施": https://www.oreilly.com/content/generic-mitigations/ [7] 优雅降级 (graceful degradation):: . [8] "经受住意外": https://queue.acm.org/detail.cfm?id=2371516 [9] 频繁发布: https://cloud.google.com/blog/products/devops-sre/using-the-four-keys-to-measure-your-devops-performance

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 东风微鸣技术博客 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从谷歌 20 年的站点可靠性工程(SRE)中学到的 11 个经验教训
作者 | Adrienne Walcer, Kavita Guliani, Mikel Ward, Sunny Hsiao, and Vrai Stacey
深度学习与Python
2023/11/16
2980
从谷歌 20 年的站点可靠性工程(SRE)中学到的 11 个经验教训
《Google SRE》读后感
这是16年国庆时的一篇读书笔记,最近线上故障频繁,重新读了下这篇读书笔记,觉得《Google SRE》非常棒,遂从简书再搬家到博客园,希望大家受益。
嘉为蓝鲸
2018/12/21
2.8K0
CrowdStrike灾难中的7个教训
本周的软件更新让全世界陷入瘫痪,IT 机构能从中吸取什么教训?剧透:很多他们应该已经知道的知识。
云云众生s
2024/07/22
1470
Google SRE 读书笔记 扒一扒SRE用的那些工具
最近花了一点时间阅读了《SRE Goolge运维解密》这本书,对于书的内容大家可以看看豆瓣上的介绍。总体而言,这本书是首次比较系统的披露Google内部SRE运作的一些指导思想、实践以及相关的问题,对于我们运维乃至开发人员都有一定的借鉴意义。
大江小浪
2018/07/24
1.1K0
Google SRE 读书笔记 扒一扒SRE用的那些工具
《SRE实战手册》学习笔记之SRE落地实践
前面介绍了SRE的基础,包括SLI和SLO以及Error Budget(错误预算)。其中:
老_张
2022/04/01
2.7K0
《SRE实战手册》学习笔记之SRE落地实践
事件的事后调查
失败是不可避免的。作为科学家和工程师,你会着眼于长期问题,并将系统设计为最具可持续性、可扩展性、可靠性和安全性。但你设计的系统只是基于现有的知识。在实现方案时,并不会知道未来会发生什么。你不能总是参与下一个zero-day事件、病毒式媒体、气候灾难、配置管理错误或技术转换等。因此你需要准备好迎合应对这些事情,以及这些事情对系统造成的影响。
charlieroro
2022/10/05
8880
事件的事后调查
《SRE google 运维解密》读书笔记 (五)
每个测试都有成本,通常来说单元测试时间成本低 如果要将完整的功能架设起来测试,通常需要几个小时。关注测试成本,是软件提升效率的重要因素。
用户2060079
2022/05/25
2010
构建安全可靠的系统:第二十一章到附录 A
与 Peter Valchev,Felix Gröbert,Ana Oprea,Sergey Simakov,Douglas Colish 和 Betsy Beyer 一起
ApacheCN_飞龙
2024/01/11
1390
构建安全可靠的系统:第二十一章到附录 A
构建安全可靠的系统:第六章到第十章
由 Julien Boeuf‎、Christoph Kern‎和 John Reese‎
ApacheCN_飞龙
2024/01/11
2810
构建安全可靠的系统:第六章到第十章
SRE生存之道:如何写事后回顾报告
在文档的顶部,添加相关人员的姓名、事件发生日期,以及文档最后一次修改的时间。如果你将事后回顾报告存储在云端,则可以添加关键字或标记来帮助组织文档。
博文视点Broadview
2020/06/11
1.3K0
得物容器SRE探索与实践
关于什么是SRE,以及在业务上有哪些具体的输出,网上资料众多但都只是对基本概念做描述。那容器SRE究竟要怎么结合业务,得物容器SRE又有哪些最佳实践,本文就得物容器SRE的一些事情向大家做介绍。
得物技术
2023/03/22
6510
得物容器SRE探索与实践
《SRE google 运维解密》读书笔记 (一)
新财年换了领导,管理风格也有一些区别。在团队内增加了一个 SRE 的职位。这一财年我将会承担一部分 SRE 的工作。
用户2060079
2022/05/25
1.6K0
Facebook Sigcomm 2018 论文翻译 – 对白盒交换机操作系统开发/运维的5年经验总结
作者简介:郑敏先,任职于诺云信息系统(上海)有限公司,担任售前工程师。从事SDN、白盒交换机等开放网络关产品的推广工作。
SDNLAB
2018/11/08
1.2K0
The Tail at Scale
The Tail at Scale[1],是 Google 2013 年发布的一篇论文,大规模在线服务的长尾延迟问题。
梦醒人间
2021/05/11
1.2K0
The Tail at Scale
SRE最佳实践
站点可靠性工程(SRE)的概念起源于谷歌。这个想法与DevOps的原则密切相关。它是It运营的一种方法。SRE团队使用软件来管理系统、解决问题和自动化操作任务。
用户5166556
2023/03/18
1.2K0
SRE最佳实践
我从10次停机中学到的几个经验
作者 | Tom Kleinpeter and Jamie Turner 译者 | 王强 策划 | 万佳 1宕机事件总结 本文总结了过去遇到的许多次宕机事件中反复出现的问题。工程团队在处理这些事件时,某些模式(无论是作为风险还是作为资产)几乎次次都能遇到。 从这些反复出现的模式中,我们提取出了一些工程团队准备采纳的经验教训,希望你也能从中学到有用的知识并做好准备。 2第 1 课:循环依赖会破坏你的运维工具 使用自己做出来的东西是一种很好的做法——毕竟,如果你都不这样做,你怎么能指望客户使用你的产品和服务呢
深度学习与Python
2023/04/01
7980
我从10次停机中学到的几个经验
一文帮你理解整个 SRE 运维体系!
在任何有一定规模的企业内部,一旦推行起来整个SRE的运维模式,那么对于可观测性系统的建设将变得尤为重要,而在整个可观测性系统中,通常我们会分为如下三个方面:
杰哥的IT之旅
2020/09/04
1.8K0
一文帮你理解整个 SRE 运维体系!
谷歌可靠性工程的设计经验
如今,随着Cloud Native,SRE,以及DevOps的发展,大规模软件系统的高可用、可扩展、可伸缩、系统管理、高效运维等似乎正在被一个新的词汇所代替,那就是:可靠性工程。
用户9624935
2022/04/02
5540
谷歌可靠性工程的设计经验
改善十年应用的部署体验
在 2018 年,Etsy 将它的服务基础设施从自我管理的数据中心迁移到云端配置(我们当时在博客上写了这件事)。这种改变提供了改善整个公司技术流程的机会。对于 Search 团队而言,云环境所带来的灵活扩展让我们可以完全重新评估一个有些繁琐的部署流程。在已有的金丝雀发布架构模式的启发下,我们编写了一个新的自定义工具来补充现有的部署基础设施。
用户2781897
2021/10/26
3390
改善十年应用的部署体验
SRE 学习路线
SRE(Site Reliability Engineering)站点可靠性工程是一种结合软件工程和运维运营原则的角色和方法论,旨在在系统、服务或产品的设计、开发、部署和运维过程中,采取一系列措施来确保其持续稳定运行、可靠性和可用性。
SRE运维进阶之路
2024/04/23
3520
SRE 学习路线
相关推荐
从谷歌 20 年的站点可靠性工程(SRE)中学到的 11 个经验教训
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档