首页
学习
活动
专区
工具
TVP
发布

Forrest随想录

专栏作者
77
文章
82800
阅读量
57
订阅数
比故障定位更重要的是:故障定界
前面发的Observability的文章,引起了不少的共鸣,在群里或私聊时很多朋友提到一个点: 故障处理时,运维的逻辑是快速恢复,所以根因是什么不重要,但是不知道根因发生的位置在哪儿,怎么做应急处置呢? 这是个非常好的问题,这里我们就要区分两个经常挂在嘴边,但是确很少有人去能理解透彻的概念:定界和定位。 我们讲故障时可以不用定位,指的是在故障时,不用去定位故障原因是什么,但是不能不做定界。 重要的事情讲三遍: 定界和定位是两回事。 定界和定位是两回事。 定界和定位是两回事。 定界不做,那接下来的恢复就无
赵成
2022-04-27
1.1K0
故障没有根因,别再找了
在《故障复盘的简洁框架-黄金三问》这篇文章里,我把故障原因分为了两类:触发原因和深层原因。 这里我并没有提到根因或根本原因,理由就是我们原本所认为的根因可能往往不止一个,可能会有多个。 这个怎么理解呢?我举个比较容易理解的例子: 比如我们有一台服务器宕机了,上面跑的的MySQL服务也挂了,影响了上层业务访问,花了30分钟才解决,被定性为故障。 那这个故障的根因是什么呢? 有的人可能会说是服务器宕机引起的,服务器问题是根因。 有人会说上层数据库没做高可用,数据库问题是根因。 也有人会说业务层面没做功能降级,
赵成
2022-04-14
5340
从微盟36小时故障,谈谈数据安全和备份这个事
早上被微盟运维人员删库的事件刷屏了,超过36小时,仍未完全恢复,我花了点时间从通告的信息中做了一些深入地分析解读,分享给大家。
赵成
2020-02-26
6990
重新认识容量评估,用压测抠住生产命门
以下内容是摘自我知识星球前几天的一个讨论,经过整理发出来分享一下,标题也是群里的同事写的,认识很深刻。
赵成
2019-06-17
9490
谈谈技术和成本(二)
“技术是很重要的因素,但不是唯一的手段,而且用不好会越管越乱,起不到优化成本的作用,还会带来更多的成本损耗。”
赵成
2018-08-09
2650
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档