前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >比故障定位更重要的是:故障定界

比故障定位更重要的是:故障定界

作者头像
赵成
发布2022-04-27 12:42:40
1.1K0
发布2022-04-27 12:42:40
举报
文章被收录于专栏:Forrest随想录Forrest随想录

前面发的Observability的文章,引起了不少的共鸣,在群里或私聊时很多朋友提到一个点:

故障处理时,运维的逻辑是快速恢复,所以根因是什么不重要,但是不知道根因发生的位置在哪儿,怎么做应急处置呢?

这是个非常好的问题,这里我们就要区分两个经常挂在嘴边,但是确很少有人去能理解透彻的概念:定界和定位

我们讲故障时可以不用定位,指的是在故障时,不用去定位故障原因是什么,但是不能不做定界。

重要的事情讲三遍:

定界和定位是两回事。

定界和定位是两回事。

定界和定位是两回事。

定界不做,那接下来的恢复就无从谈起了。

举个简单的场景案例:

当一次故障发生,业务指标受影响,硬件层面、网络层面、数据库层面,分布式组件层面、存储层面、应用层面,可能都会有告警。

我们不管是通过AIOps的手段,还是Observability去观察,还是依赖运维专家的经验,总会能做出一些问题所在位置的基本判断。

有了定界,其实就可以指导后面的应急手段执行了。

针对有问题的点,能自愈最好,不行就重启、切换、降级限流或者回滚这种三板斧套路怼上去用起来。

假设当我们确认了是数据库有宕机,主备切换没成功,这时候没必要去翻数据库的日志,或者分析报告之类去分析原因。人工介入,手动切换,不行就降级,抓紧重启。

如果是应用内存出问题,也没必要去打个堆栈,然后分析下哪个对象没释放,那段代码逻辑是怎么写的,为什么会占用这么多内存。能先重启就重启,如果刚才做了发布就先回滚等等。

所以,定界的能力,其实比定位更重要,定界必须要高效,定位在绝大多数情况下是可以在事后做的。

一定一定要区分开看,不能混为一谈。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-04-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 聊聊SRE 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档