前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SRE生存指南:系统中断响应与正常运行时间最大化

SRE生存指南:系统中断响应与正常运行时间最大化

作者头像
博文视点Broadview
发布2020-06-10 16:27:47
9850
发布2020-06-10 16:27:47
举报

近20年是互联网技术飞速发展的20年。互联网业务的快速发展不仅直接带来了流量、安全等方面的不确定性,同时也促进了技术架构的快速演进——技术架构变得越来越复杂,而这些因素都将导致系统不可用发生概率的大幅度提升。当人类的工作、生活变得越来越依赖互联网时,一旦网站系统不可用,其造成的影响和损失就将难以想象。

互联网正在逐步演变成像供水、供电设施那样的基础设施,网站系统的可用性变得至关重要。在这样的大背景下,SRE的概念被提了出来,随着互联网在各行各业的深度渗透,SRE快速发展成了一个热门领域。

Google首次创造了 SRE这个职业,负责运维Google 的大部分商业应用。谷歌的Benjamin Treynor Sloss曾说“当要求软件工程师规划一个运维团队时,SRE就诞生了。”(引用自《SRE:Google 运维解密》)他经常被提及的观点是,运维工作现在只是软件工程的一个方面。鉴于谷歌在可靠性方面取得的成功,这个观点已经在许多公司中流行起来。

运维人员常常熬夜甚至通宵工作,天天救“火”,却只能作为执行者,无法真正从“火灾”隐患中走出来。在这样的情况下,研发自动化工具,对内提供服务平台来应对业务的飞速增长;关注有效监控与有效警报,将业务系统白盒化、透明化,甚至达到故障自愈、无人运维的状态。这样运维人员才能解放出更多的精力,从而去关注更高层次的系统性能架构调优、容量的规划与制备等。

虽然大多数企业的业务类型及业务规模与Google相差巨大,但是 SRE的很多指导原则,却适用于不同的企业和业务场景。

这其中服务水平目标(SLO)和事后回顾是核心内容,SLO可以帮助我们设定开发和运维人员需要共同遵守的指标,包括围绕SLO应该如何设定相应的流程、机制和决策原则等。事后回顾告诉我们,“故障是常态,正常才是异常”,所以面对故障,我们更多的应该是从中进行学习和改进,把故障作为提升系统性能的切入点,而不是故障之后的相互指责和推诿扯皮。

作为Google对业务运维体系的反思与整理,SRE理念不仅梳理了在新业务形态下运维人员应该承担的责任,更给运维人员指明了一条职业发展路线。

不同于几年前大家对SRE的认识,如今,国内的一大批互联网企业都在尝试构建自己的SRE体系,SRE逐渐成为互联网企业的标配,该领域也迎来了百花齐放的盛况。

《SRE生存指南:系统中断响应与正常运行时间最大化》是一本SRE指南手册,它不仅完善地介绍了与SRE相关的理论体系,还从实践的维度阐述了SRE的技术体系应该如何构建。对于关注网站可靠性的研发和运维人员,或者其他想深度了解SRE的技术人员来说,这是一本非常值得阅读的参考书。

本书给出了指导原则之外的更多细节介绍和实践方法,可以说是在现有的SRE知识体系下,针对SRE内容的非常好的补充。

本书面向希望提高公司软件可靠性的软件开发人员和运维人员。本书将向你介绍一个致力于提高软件可靠性的基本框架,并使你深入了解站点可靠性工程这个领域。对于已经经历过重大系统服务中断的工程师和开发人员来说,这是你希望拥有的书。对于那些幸运地没有经历过服务中断噩梦的工程师和开发人员,现在就买这本书吧!

第1章-简介

探讨了SRE领域相对较新的发展状况,并概述了用于本书的可供上手实践的框架。

第2章-监控

讨论了在监控时使用的工具和方法。在本章之后,一个很好的实验就是设置对服务的监控,即使它们只是为测试而编写的虚假服务,你也应该去监控它们随着时间是否有所变化。

第3章-事故响应

解释了该如何应对中断,并让团队为最坏的情况做好准备。本章还专注于围绕团队协作建立即时响应与轮换的最佳实践系统,以及构建流程以尽量减轻由生产事故造成的压力。

第4章-事后回顾

让你能为自己、你的团队和你的组织撰写事后回顾报告,以促进事后回顾。本章还讨论了要收集的数据,以及如何借助通信跟踪未来的工作。

第5章-测试和发布

回顾了有关测试和发布的常见实践方案。

第6章-容量规划

介绍了一些有关预算的基础知识,并讨论了如何为基础架构的扩容制订计划。

第7章-构建工具

讨论了如何从提高响应力的角度来编写软件,还探讨了如何发现新项目,如何定义这些项目及如何规划它们。然后,讨论了如何实施这些项目并进行软件的长期维护,以及如何反思自己所做的工作。

第8章-用户体验

概述了有关用户体验和用户测试的基础知识,并讨论了安全性和性能预算问题。

第9章-网络基础

帮助你深入了解网络基础知识。

第10章- Linux和云基础

介绍了Linux和常见云服务的基础知识。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 博文视点Broadview 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
Prowork 团队协同
ProWork 团队协同(以下简称 ProWork )是便捷高效的协同平台,为团队中的不同角色提供支持。团队成员可以通过日历、清单来规划每⽇的工作,同时管理者也可以通过统计报表随时掌握团队状况。ProWork 摒弃了僵化的流程,通过灵活轻量的任务管理体系,满足不同团队的实际情况,目前 ProWork 所有功能均可免费使用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档