首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DevOps和SRE

之前总是把SRE和DevOps混为一谈,总觉得这两个是同一种东西在不同公司的叫法,知道前两天google又放出了《The Site Reliability Workbook》 ,书中对比了SRE和DevOps...无论是实践还是理论,SRE和DevOps都得用数据说话。 - 在管理生产服务的过程中总是免不了出问题,SRE和DevOps都实行不问责的事故处理方式。...- 归根到底,DevOps或SRE是一种全局工作,两者都希望通过某种特定的方式使得分散的部分组织协同的更好。 速度是SRE和DevOps都想要的结果。   ...或者,换句话说,SRE相信与DevOps相同的东西,但原因略有不同。 作为一个具体的职业,SRE对他们产生的影响高度敏感,反而对信息壁垒不太关注。...SRE支持持续集成和持续交付不是因为商业需求,而是因为持续集成和持续交付涉及到运维。 换句话说,SRE和DevOps相信同样的事,但不是因为同样的原因。

69320

SRE实战手册》学习笔记之切入SRE

极客时间上赵成老师的《SRE实战手册》是线上稳定性保障领域很好的一门技术课程。 这篇文章是学习笔记的第二篇,理解SRE之后,就要找到切入点来落地。...理解SRE中的指标和目标 SRE强调稳定性,一般是看整体的系统情况,也就是常说的"3个9"、"4个9"这样可量化的数字。...这个“确定成功请求条件,设定达成占比目标”的过程,在SRE中就是设定稳定性衡量标准的SLI和SLO的过程。...这么做是为了确保SRE精力能够更多地关注在核心业务上; 2.2强依赖之间的核心应用,SLO要一致。...混沌工程是 SRE 稳定性体系建设的高级阶段,一定是 SRE 体系在服务治理、容量压测、链路跟踪、监控告警、运维自动化等相对基础和必需的部分非常完善的情况下才能考虑。

1.3K10
您找到你想要的搜索结果了吗?
是的
没有找到

SRE实战手册》学习笔记之认识SRE

; 最佳实践:业内稳定性领域的最佳实践是Google SRE; 1、SRE包含哪些工作事项 稳定性规范制定,监控、压测、服务治理、大促稳定性保障、故障应急管理、组织架构建设; 2、SRE常见的问题与困惑...3、我们所看到的SRE 理念:SRE 到底是什么?...5、DevOps和SRE的区别 DevOps核心是做全栈交付,SRE核心是稳定性保障,关注业务所有活动,两者共性是:都使用软件工程解决问题。...如何理解SRE 1、SRE的定义 定义:SRE是一整套稳定性保障的最佳实践体系!...; 其他的角度:SRE传统运维的升级版,把运维自动化做好就行; 3、如何理解SRE SRE稳定性保障规划图: SRE是一整套稳定性保障的最佳实践体系,需要高效的跨团队组织协作才能完成。

1.2K10

SRE最佳实践

什么是站点可靠性工程(SRE)? 站点可靠性工程(SRE)的概念起源于谷歌。这个想法与DevOps的原则密切相关。它是It运营的一种方法。SRE团队使用软件来管理系统、解决问题和自动化操作任务。...为什么SRE很重要?好的SRE团队需要具备哪些条件? SRE就像是软件工程和IT操作之间的桥梁,填补了它们之间的空白。在几乎所有地方,SRE都在为生产系统中的故障做准备时发挥作用。...SRE的主要目标是提高性能和运行效率。 所以,SRE不仅仅是负责编码的行动人员。另外,SRE是开发团队中拥有不同技能集的成员,特别是在部署、配置管理、监视、度量等方面。...既然我们知道了为什么SRE很重要,那么让我们继续讨论在拥抱SRE文化时必须遵循的SRE最佳实践。 SRE最佳实践 在实现SRE时,您可能需要一些时间来改进您的策略和定制实践,以满足您的操作需求。...引用 https://sre.google/sre-book/service-best-practices/ https://opensource.com/article/18/10/sre-startup

96820

SRE食用指南

作者:乔克 博客:www.jokerbai.com SRE,多么美妙的一个词,它就像黑暗中的一盏明灯,为运维指出了前进的路。...但是,国内大部分企业的运维人员对 SRE 都不感冒,觉得它就是理论的巨人,根本无法落地实践。...SRE 是谷歌提出的理念,旨在做到以应用为中心,以稳定为前提,做到自动化、智能化、平台化,需要工程师的技术能力拉满: 会产品 会开发 会测试 会运维 会架构 ‍ 大家一看到这,就直接把 SRE 拉黑了,...在我看来,SRE 并非一定特指某个人,而是一群人,如果一个公司只招一个 SRE,要么公司不知道 SRE 是什么,要么公司是傻逼中的战斗机。 ‍...目前国内玩 SRE 玩的比较好的都是大厂,比如百度、蚂蚁、腾讯等,他们的团队规模都很大,这么大团队,如果每个人都会上面的技能,那会是什么场面?

22330

SRE 学习路线

SRE 工作职责 要制定学习路线,首先我们要搞情况 SRE 的工作职责。...SRE(Site Reliability Engineering)站点可靠性工程是一种结合软件工程和运维运营原则的角色和方法论,旨在在系统、服务或产品的设计、开发、部署和运维过程中,采取一系列措施来确保其持续稳定运行...SRE/稳定性保障具体措施包括但不限于: 高可用性: 确保系统能够在大部分时间内持续提供服务,即使在出现故障或意外情况下也能够快速恢复。常见的高可用性措施包括冗余设计、故障转移、负载均衡和容错机制。...SRE 稳定性保障体系 SRE 主要工作是保障稳定性,稳定性就是不出故障,围绕着故障周期,整理出 SRE 稳定性保障体系。 SRE RoadMap 根据工作职责和稳定性保障体系,整理出学习路线。

15610

Google SRE 读书笔记 扒一扒SRE用的那些工具

写在前面 最近花了一点时间阅读了《SRE Goolge运维解密》这本书,对于书的内容大家可以看看豆瓣上的介绍。...总体而言,这本书是首次比较系统的披露Google内部SRE运作的一些指导思想、实践以及相关的问题,对于我们运维乃至开发人员都有一定的借鉴意义。...书中的一些思想也令我印象深刻,例如SRE工程师要保证投入50%的时间在项目上、错误预算、命运之轮、事故总结等等,对于从业者有很大的启发。...全书各章节及小评 章节及名称 感想 1 介绍 2 Google 生产环境:SRE视角 3 拥抱风险 4 服务质量目标 5 减少琐事 6 分布式系统的监控 7 Google 的自动化系统演进...加入on-call 29 处理中断性任务 30 通过嵌入SRE的方式帮助团队从运维过载中恢复 31 SRE与其它团队的沟通与协作 32 SRE参与模式的演进历史 33 其他行业的实践经验 34

1K20

《Google SRE》读后感

SRE是个全能手,DevOps的实践者 SRE全称:Site Reliability Engineering,翻译过来就是:站点可靠性工程师。...SRE的工作是Develop+Operate的结合,SRE是DevOps的实践者,他们的工作内容和职责和传统运维工程师差不多:发布、部署、监控、排障,目标一致。...监控是SRE眼睛的延伸。 监控系统应当解决两个问题:现象(什么东西出故障了?),原因(为什么出故障?)...反思 and 总结 这两个优点对于SRE很是重要,反思使得SRE从失败中学习教训,总结使SRE从时间中获得经验,个人和团队需要学习和践行这种精神,但是对事不对人。...追本溯源、怀疑一切 SRE是天生怀疑论者,怀疑一切,眼见为实,追本溯源是本性,感觉自己的性格还蛮适合的~ 09.

2.3K40

我们离Google SRE还有多远?

A SRE 3:5 G SRE 1.3.6 GSLB A SRE 3:6 G SRE 1.3.7 结束 我相信G SRE的成功之一源于G基础软件服务成功,正如蒸汽火车和磁悬浮列车最高时速的差距并不在于“...G SRE PRR模型是非常值得借鉴的一种接管服务的方式,G SRE的这套方法论更坚定了A SRE的未来改进的方向。...A SRE相比G SRE是一个更为动态的团队,团队内部比较来说,只有数据分析/运营的职责(技能)的SRE技能切换不太频繁。...A SRE 2:3 G SRE 四、结束语 通读《SRE》全书,不禁赞叹!...No A SRE G SRE SRE的土壤 3 6 SRE的能力 1 4 SRE的思想 2 3 一千个人眼中有一千个哈姆雷特,在意识到差距的同时更不必妄自菲薄,更重要的是思考这些差距的所欠缺是努力还是思想

1.8K20

SRE和DevOps的关系:把SRE看作是DevOps接口的实现

那么SRE和DevOps之间是什么关系呢?...(当然,这并不意味着在任意组织中进行SRE没有必要进行文化重塑。) SRE由以下具体原则定义。 2.1. 运维是一个关于软件的问题 SRE的基本原则是做好运维是一个关于软件的问题。...SRE既没有也不能保证大部分服务,尽管SRE的原则仍然包括告知整个Google如何管理服务(注12)。SRE团队与产品开发团队合作的所有权模式最终其实是一个共享模型。 2.7....量化对DevOps和SRE两者的工作方式都至关重要。对于SRE,SLO在确定改进服务所采取的行动方面占主导地位。...然而,当产品成功时,产品开发团队为SRE团队人员的扩充提供了高水平的人才库。通过这种方式,产品开发与SRE团队的成功息息相关,就像SRE的成功与产品开发团队密切相关一样。

1.3K10

How Google SRE and developers work together

下面具体分享: 题目是SRE和开发如何一起工作,其实后面具体内容更多的是讲SRE在不同的项目或产品中的参与度应该怎样的。...SRE与Dev组织架构的对应组织,这里有两个关键点,一个是funding,一个就是SRE和Dev必须是紧密合作共同达成稳定性的目标。...近几年,业内有点把SRE当成稳定性领域的银弹的趋势,好像有了SRE这样的组织、角色和人,稳定性就不是问题了,其实这里是有很大的理解偏差的。...当然,这里是不是可以在先期投入或者靠前参与,这个也不是SRE单方面介入就可以达成的,还是需要有机制和约束保障。 比如,没有SRE参与评审的架构或方案不允许通过,甚至上线后,SRE可以不参与保障。...但是这个阶段,项目或产品的Owner职责仍然是开发,而不是SRE,不过上线后,SRE要开始参与Oncall和问题处理了。

48010

Google《SRE》读后感

SRE》这本书英文版已面世半年后,中文版终于面世。...看过原版,再对照中文版,从内容上,并不比原版少什么,所以各位读者不必担心内容相对原版是否缺失,如果各位英语不好、但又想了解Google的SRE,放心大胆的买中文版吧,因为译者也是Google的前SRE,...SRE的诞生 Google内部软硬件环境 SRE和Dev的协作 SRE自己是如何做事的 SRE是为了解决op和dev相互之间的矛盾和割裂的问题,用一些工程和规范来让op和dev之间有个平衡,并且最优化系统的发展...书中举出大量dev和sre系统的方法和规范,比如错误预算、部分运维工作交还dev、SRE协助dev团队健康发展等…… 从我自己的经验来看,其实作为一个op,一天到晚有一堆乱七八糟的事,曾经因为这些事,搞的我情绪都不太好...这么多年,SRE总结出了一套完善的方法论,比如和Dev团队的协作沟通,SRE在风险管理、on-call、故障排查、问题处理、故障后总结……,google都总结出了想当好的经验。

77220

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券