鹅厂内部分享 | 如何优雅的完成一次事故复盘

今天邀请了腾讯社交网络质量部的高级工程师给大家做个分享,一起来看看我鹅内部对事故复盘的切身体会。

事故复盘(前、中、后)应该怎么做?

作者:lu 姐

-----------------/ BEGIN /---------------

拉起现网事故复盘对于互联网公司来说是家常便饭,但是如何做一次漂亮的复盘?通过复盘发掘产品或者项目真正的问题,并通过制定改进措施,促进各个角色配合起来解决问题,避免类似的事故重复出现。

尤其是一些影响面广、涉及部门和角色众多的事故复盘,怎样才能搞清楚,搞明白,搞的漂亮?

对于如何主导一次事故复盘很有讲究和方法。对于主导事故复盘的人我们这里称其为“复盘 owner”:有的公司是 QA,有的公司是测试、开发或者其他角色来承担。

复盘的几个误区

  1. 复盘 owner 仅仅是个会议记录仪:参会的各个角色讨论,owner 无法发表任何意见。
  2. 复盘到的原因不是根本原因:表面原因,解决不了问题。
  3. 主体责任方搞错了:后面又要拉起第二次复盘。或者一味的去追责任方的责任,而忽略了事故本身的原因分析。
  4. 改进措施非常难以落地:比如改进措施严重依赖人的自觉,或者实施高复杂度的流程。

走入误区的原因

  1. 复盘 owner 对这个产品或项目非常不熟悉。
  2. 复盘前对情况一无所知,完全不知道是什么影响,什么问题。
  3. 对原因没有刨根究底,或者被参加复盘的某个角色单方面误导了,导致没有挖掘到根本原因。
  4. 没有拉对人参会,比如有时候要拉入当事人的直接领导,甚至更高层的领导。
  5. 设计改进措施的时候,过度依赖人本身的自觉性或能力,没有考虑自动化。

事故复盘的正确打开姿势

复盘前:对事故过程和原因心中有数

是否有录单事故单,先要求录单责任人(运维、客服:不同公司有不同的要求)把事情发生经过写清楚。

找客服或产品运营同事确认具体的影响(事故越大,越要确认清楚,参见“了解事故影响小贴士”),找运维和涉及的开发问原因,根据原因涉及到的干系人及其部门,来定确定需要拉的非本产品或项目的人员和对应的复盘负责人。

对事故的关键原因做个初步判断,便于会上引导原因分析。 

复盘会要拉上的人有(根据实际情况裁剪): 责任方人员(可能是:产品、测试、开发、运维等),责任方人员的直接领导,产品受影响方的开发(产品、测试等),产品受影响方的开发(产品、测试等)的领导,产品受影响方的“事故接口人”,根据严重情况有可能要拉上部门经理。

了解事故影响小贴士

  • 影响的表现是什么:在用户端表现出来是什么操作或什么服务受到了什么影响。
  • 影响的范围是什么:是所有用户还是特定用户,是必现还是有几率出现。
  • 影响是如何恢复的:用户不需要任何操作直接恢复,还是需要一定的操作后才能恢复,例如重启,清缓存操作等。
  • 事故恢复后是否还可能存在其他服务的受损:例如历史记录被清空,信息或列表被清空等。

复盘中:控场复盘会议

会议现场:引导大家按照顺序进行复盘。顺序如下:

review 事故发生过程——> 事故原因讨论——>改进措施讨论——>定级定责——>总结陈词。

注意对以下事项的把控和确认:check 影响范围和时长,定级,原因是否ok,改进措施是否可以落地,改进措施落地时间。

原因的追溯:多问几个为什么,尤其对一些明显看起来打太极的人。

会议结束:记得简单清晰概括原因、责任人、改进措施等,不要留存模糊的地方。

复盘后:事故报告和改进措施落地

跟进开发在事故单系统(如果没有系统,则通过邮件方式提供)里面把改进措施写清楚。

两天内出具事故报告,发送给参会人员,并抄送与这个事件相关的人,或者关注这事件的领导。

跟进改进措施是否按时落地,并进行记录和定期更新完成状态。

Tips 碎碎念

  1. 对于跨部门的事故,由事故的责任方主导事故复盘,如果你负责的产品或项目团队不是责任方,那么催促对方团队的事故接口人尽快拉起,并提供自己方的干系人,并积极参加复盘会。
  2. 要确认的信息在会上都确认清楚,不要等会下再来重复确认。
  3. 注意控制会议时间,不要太长。另外,说话语气要肯定。
  4. 对跨部门的事件复盘注意引起共鸣,复盘会上还在注意氛围与节奏的把控,不要让复盘会变成追责讨论会。
  5. 发出复盘报告要检查的几个点:检查标题 ,检查正文是否通畅,是否有错别字。

无论如何,能否有效复盘,并且通过复盘能挖掘出产品或项目的真实问题,“复盘 owner” 起到重要作用。

要做好事故复盘,“复盘 owner” 要做到的关键点:复盘前心中有数,拉到合适的人参加复盘会,复盘中按照步骤引导复盘,复盘后跟进措施落地。

可在文章下方留言

我们共同探讨质量相关的话题

-----------------/ END /----------------

作者:lu 姐

本文由原创发布于腾讯小 Q 聊质量

如需转载请联系我们

原文发布于微信公众号 - 腾讯云安全(TencentCloudSecurity)

原文发表时间:2017-12-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

让你远离云计算安全问题的18个小贴士

云应用的普遍使用给负责管理企业云平台的IT和安全人员带来了很多阻碍和挑战。据Ponemon Institute所做的调查显示超过半数受访者所在企业正在向云端转移...

3675
来自专栏人称T客

千呼万唤微信企业号发布公测 毁坏时代已来哪些行业会被颠覆?

早前T哥发布关于微信企业号报道的时候,受到过很多的质疑,也收到过腾迅的警告,微信企业号原定本月15号发布,也改成18号发布公测版,首批开放50个注册号,我想得到...

3725
来自专栏云计算D1net

云计算虚拟化等助力“中国制造2025”

新一代信息技术与制造业深度融合,正在引发影响深远的产业变革。今年中央政府工作报告中提出,要推动互联网、云计算大数据等与现代制造业结合。《中国制造2025》提出,...

3285
来自专栏钱塘大数据

【推荐好文】工业4.0落地战略:一个网络、两大主题、三项集成

导读:工业4.0是什么?每个人站在不同的角度会有不同的理解,是互联、集成(纵向、横向、端到端)、数据、创新、服务、转型或是CPS、是智能工厂、是智能制造亦或是国...

3726
来自专栏人称T客

企业移动OS三国鼎立 国产OS或成搅局者

伴随着硬件的发展,多数的硬件厂商也开发相应的移动操作系统,由此而来产生了另一个市场,移动操作系统的激烈竞争。目前在全球范围内可以数得上的移动操作系统有iOS、A...

3336
来自专栏CDA数据分析师

使用大数据分析的十大行业

原作者 Maruti Techlabs 编译 CDA 编译团队 本文为 CDA 数据分析师原创作品,转载需授权 大数据每天都在发展,并成为科技界的热门词汇。我...

2786
来自专栏BestSDK

个推SDK:运用地理围栏技术,为客户推送无打扰的智能信息

虽说语音驱动的人工智能技术可以改善客户体验,促成更多销售业务,但目前这方面的技术并未成熟到能为每一家公司定制解决方案。位于爱尔兰都柏林的 Voysis 公司希望...

2983
来自专栏罗超频道

一点资讯拿证了!“无证裸奔”的新闻客户端们何去何从?

近日,以个性化推荐起家的资讯平台一点资讯刚刚拿到《互联网新闻信息服务许可证》,这是在今年5月,国家网信办发布《互联网新闻信息服务许可管理实施细则》以来,第一批发...

3556
来自专栏数据和云

打造运维大脑:翼支付高速发展背后,甜橙金融的云化智能演进

不久前,在由ACOUG与云和恩墨主办的2018数据技术嘉年华的金融科技实战分论坛上,甜橙金融分享了其云化变革的成功经验。

863
来自专栏BestSDK

国庆休假回来产品经理和开发者需要知道的几件大事

image.png 智选SDK一周资讯大事记,将会为您呈现过去一周最受欢迎的SDK资讯、投融资、企业活动、人物访谈和创业故事等信息。让您在最短的时间内了解最火爆...

2619

扫码关注云+社区