腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
Forrest随想录
专栏成员
举报
77
文章
85993
阅读量
57
订阅数
订阅专栏
申请加入专栏
全部文章(77)
运维(29)
其他(14)
分布式(9)
自动化(9)
数据库(8)
devops(8)
云计算(8)
微服务(7)
sql(5)
缓存(5)
api(3)
编程算法(3)
开源(3)
lnmp(3)
微信(3)
机器学习(2)
java(2)
php(2)
云数据库 SQL Server(2)
linux(2)
企业(2)
容器(2)
架构设计(2)
google(2)
费用中心(1)
负载均衡(1)
自动驾驶(1)
oracle(1)
容器镜像服务(1)
spring(1)
神经网络(1)
深度学习(1)
VPN 连接(1)
腾讯云测试服务(1)
人工智能(1)
医疗(1)
存储(1)
游戏(1)
网络安全(1)
无人驾驶(1)
面向对象编程(1)
ddos(1)
udp(1)
kernel(1)
大数据(1)
安全(1)
windows(1)
腾讯云开发者社区(1)
amazon(1)
aws(1)
bat(1)
implementation(1)
it(1)
model(1)
project(1)
server(1)
shift(1)
产品运营(1)
工作(1)
管理(1)
搜索文章
搜索
搜索
关闭
比故障定位更重要的是:故障定界
数据库
sql
运维
前面发的Observability的文章,引起了不少的共鸣,在群里或私聊时很多朋友提到一个点: 故障处理时,运维的逻辑是快速恢复,所以根因是什么不重要,但是不知道根因发生的位置在哪儿,怎么做应急处置呢? 这是个非常好的问题,这里我们就要区分两个经常挂在嘴边,但是确很少有人去能理解透彻的概念:定界和定位。 我们讲故障时可以不用定位,指的是在故障时,不用去定位故障原因是什么,但是不能不做定界。 重要的事情讲三遍: 定界和定位是两回事。 定界和定位是两回事。 定界和定位是两回事。 定界不做,那接下来的恢复就无
赵成
2022-04-27
1.4K
0
故障没有根因,别再找了
云数据库 SQL Server
VPN 连接
数据库
sql
分布式
在《故障复盘的简洁框架-黄金三问》这篇文章里,我把故障原因分为了两类:触发原因和深层原因。 这里我并没有提到根因或根本原因,理由就是我们原本所认为的根因可能往往不止一个,可能会有多个。 这个怎么理解呢?我举个比较容易理解的例子: 比如我们有一台服务器宕机了,上面跑的的MySQL服务也挂了,影响了上层业务访问,花了30分钟才解决,被定性为故障。 那这个故障的根因是什么呢? 有的人可能会说是服务器宕机引起的,服务器问题是根因。 有人会说上层数据库没做高可用,数据库问题是根因。 也有人会说业务层面没做功能降级,
赵成
2022-04-14
570
0
从微盟36小时故障,谈谈数据安全和备份这个事
运维
数据库
sql
早上被微盟运维人员删库的事件刷屏了,超过36小时,仍未完全恢复,我花了点时间从通告的信息中做了一些深入地分析解读,分享给大家。
赵成
2020-02-26
728
0
重新认识容量评估,用压测抠住生产命门
数据库
sql
以下内容是摘自我知识星球前几天的一个讨论,经过整理发出来分享一下,标题也是群里的同事写的,认识很深刻。
赵成
2019-06-17
1K
0
谈谈技术和成本(二)
数据库
sql
“技术是很重要的因素,但不是唯一的手段,而且用不好会越管越乱,起不到优化成本的作用,还会带来更多的成本损耗。”
赵成
2018-08-09
286
0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
立即查看
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档