专栏首页Forrest随想录故障处理为什么要以人为本?

故障处理为什么要以人为本?

周六下午处理了个故障,我发现,真的故障了,就说明那些所谓稳定性保障措施,已经不work了,已经失效了,因为真的work,就不会故障。

既然既有手段已经失效,咋办?唯一的办法,就是靠人,靠有经验的人。

在最短的时间,找到最正确的那个人或那几个人,才是最关键的。

为什么这么说?昨天我大致统计了下,25分钟在讨论该找谁协调和推进,找到了(因为是云的技术同学),花了15分钟授权,并从外网登上来,然后10分钟确认问题,5分钟解决问题,20分钟打电话找各个业务方确认问题是否解决。

你看,其实整个环节里面,真正靠技术解决的环节只占了很少一部分,而找到正确的人之后,往往比工具更好使,真正解决问题的时间也很短。

但是从整体上讲,如果真的想缩短故障时间,整个响应处理的环节上都有很大的改进空间,不要老想着一定要通过那些高大上的技术手段才能解决问题。

为了保障系统在线,建设确保关键角色能够随时在线的机制,或许跟技术层面的稳定性建设是一样重要的。

其实从SRE的角度,国外大厂即使已经那么牛了,还要建立起严格的为什么要建设严格的oncall机制?

这说明,即使有再完善的稳定性保障性技术体系,仍然都是辅助手段,其实核心还是人,靠有经验的人。我觉得这个短期内,各种AIOps,或者什么智能手段,短期内替代不了人的作用的。

我再说两个国内的例子,也可以从侧面印证这个逻辑:

我之前给运营商服务的时候,也是三天两头被诟病,甚至被喷处理问题效率慢,故障时间长等等,后来为了提升响应效率,PE和开发同学,到了家马上打开电脑,拨上V**,甚至直接登录到某些经常出问题的系统主机上,为了保证超时不断,还要自动执行些任务,或者通过terminal的防中断功能,就是为了半夜有问题,接了电话马上就能上去处理,效率确实提升很多。

前几天,我跟团队前阿里的同学聊,也就几年前,阿里的PE和开发也是这么干的,没办法,出问题了真的要争分多秒。

第二个例子是钉钉,钉钉在每天早上会有一波使用高峰,因为很多政府或事业单位上班比较早,8-9点就工作了,而这个点正好是互联网公司员工上班路途上,之前就出现过,出了故障,客户不能用钉钉,但是人都在路上没法处理问题,导致故障时间过长。

所以后来,为了保证及时响应,大家都是分批上班,有一批人就是从早上6、7点开始盯在电脑前面,有问题第一时间响应,然后另外一批就准时上班,到了公司,在家值守的同学开始陆续从家里出发,可能是10点或11点等等。

这种错时保障机制,我们自己在大促期间也经常用,就是确保关键角色必须在线,随时应急响应。

所以,可以更深刻的理解一下oncall机制,背后核心是人,且有高效的流程机制保障人员在线(能找到且快速上线),再辅以高效和完善的技术体系和工具支撑,整个机制体系要经过不断的演练磨合改进。

现在很多情况是,大家都去搞工具了搞技术,反而忘了人这个关键因素,既没有流程机制保障,也没有演练磨合,出了问题,任你技术再完善,还是两眼一抹黑~


建了个SRE群,第一个已经满了,没法再加人,开了第二个,大家如果有兴趣可以加我微信,我邀请进群,我的微信号,关注公众号就可以看到,或者回复“微信”关键字。

本文分享自微信公众号 - 聊聊SRE(forrest_thinking),作者:赵成

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 云计算:拼的就是运维

    有点长,有些内容可能略显陈旧,与当前的现状已经有了很大不同,但是其中传递的思想和观点并不过时,耐心看完一定大有收获。

    赵成
  • 关于故障复盘、容忍度和SLO

    原因就在于我们把故障复盘的目的搞错了,总想着找人背锅,把自己的责任撇清楚,而不是聚焦在如何改进上。

    赵成
  • 云游戏全景分析

    从2019年开始,IT行业普遍焦虑,大家都讲不出4G的新故事,只能寄希望于5G应用。更多人对云游戏的“火爆”,是对所有和5G沾边的新闻一样盲目的狂热,至少不能显...

    赵成
  • 亚马逊Web服务是如何成功的

    据说商业就是一种买卖双方之间的公允价值交换。在我们看到一如云计算这样令人兴奋且具备变个性的产物时,很容易忘了这一点,然而它仍旧遵循商业逻辑的规则。基础架构...

    静一
  • Nginx 教程(1):基本概念

    英文:netguru,翻译:开源中国 www.oschina.net/translate/nginx-tutorial-basics-concepts 简介 嗨...

    企鹅号小编
  • Android系统启动流程(四)Launcher启动过程与系统启动流程

    前言 此前的文章我们学习了init进程、Zygote进程和SyetemServer进程的启动过程,这一篇文章我们就来学习Android系统启动流程的最后一步:L...

    用户1269200
  • 埋伏下一个百倍币洼地——应用落地潮即将来临

    2016-2017年,是区块链信仰者们的应许之年。经历过2014年矿难依然坚守的区块链从业者们,大部分已经从矿工转变为公链或应用技术的发起人,大部分身为极客的他...

    区块链领域
  • 接入游密SDK,即可享受“全天候陪伴式”服务

    近日,游密科技就服务做了全新的定义和规划,提出“全天候实时陪伴式”服务概念,坚持优化服务流程、提高服务质量、提升服务时效,旨在为每一位客户开辟无忧、专属、极速的...

    BestSDK
  • 学校整个渗透过程

    学校整个渗透过程,毕业了,文章可以整理一下发出来了。因时间原因,一些漏洞已经被修复、网站系统更换,图无法补全,文字描述尽量详细,见谅。至于一共搞了多久?断断续续...

    Jumbo
  • 网站的PV、访问次数、浏览量,这三个分别代表什么,有什么不同?

    访问次数(VV):记录所有访客1天内访问了多少次您的网站,相同的访客有可能多次访问您的网站。

    数据通

扫码关注云+社区

领取腾讯云代金券