首页
学习
活动
专区
工具
TVP
发布

Forrest随想录

专栏作者
77
文章
82908
阅读量
57
订阅数
故障没有根因,别再找了
在《故障复盘的简洁框架-黄金三问》这篇文章里,我把故障原因分为了两类:触发原因和深层原因。 这里我并没有提到根因或根本原因,理由就是我们原本所认为的根因可能往往不止一个,可能会有多个。 这个怎么理解呢?我举个比较容易理解的例子: 比如我们有一台服务器宕机了,上面跑的的MySQL服务也挂了,影响了上层业务访问,花了30分钟才解决,被定性为故障。 那这个故障的根因是什么呢? 有的人可能会说是服务器宕机引起的,服务器问题是根因。 有人会说上层数据库没做高可用,数据库问题是根因。 也有人会说业务层面没做功能降级,
赵成
2022-04-14
5370
两个有意思的类比
今天在群里闲聊当前疫情的情况,看到两个以技术思路做的类比,挺有意思的,不长,或许有些帮助。
赵成
2020-02-12
3660
做容灾,双活、多活、同城、异地、多云,到底应该怎么选?
去年写过一篇《做容灾,冷备是不是个好方案?》,当时提出来,冷备或者主备,其实并不是一个理想的方案,而且绝大多数情况下,只能是一个心理安慰,真正发生故障的情况下,这样的容灾模式根本起不到作用。
赵成
2019-03-18
2.8K0
做容灾,冷备是不是个好方案?
主备、冷备、热备、双活、多活、同城、异地、多云,等等等等,这些保证业务高可用和容灾名词,我们经常会听到,不绝于耳。
赵成
2018-10-18
2.4K0
运维架构是全站技术架构中不可分割的一部分
从这篇文章开始,准备从架构设计层面谈谈Dev和Ops的关系,而不是单纯从组织架构和协作模式上的Dev和Ops关系。
赵成
2018-08-09
3090
避免非黑即白的思维模式
举个实际案例,我们做运维的套路,第一步就是先定标准和规范,我们定了资源标准、网络标准、应用标准、DB标准、架构标准等等一系列的标准和规范,然后就是基于这一套的标准去做相应的自动化平台开发,平台开发出来再去推广落地,以解脱对人和人力的依赖和消耗,提升效率,减少人为故障等等。这个过程中,就要求每个研发团队在开发过程中就要必须遵守我们的标准和规范,要做出一定的调整。
赵成
2018-08-09
3430
技术标准化—纷繁复杂趋势背后的规律
本来这篇是假期里整理出来,假期后准备发的一篇长文,但是因为出了个鹿晗事件,再加上,其实10.8日下午开始我也在参与处理线上的一个紧急问题,处理完也要21点多了,所以稍微感触了一下,就整了篇文章出来,没想到热点的力量是如此巨大,单篇阅读达到接近2.5w,我想最重要的是从中学习到些什么,而不是仅仅看热闹。
赵成
2018-08-09
5380
如何打造一个以应用为核心的运维体系
在前面《有了CMDB,为什么还要应用配置管理》一文中,描述了CMDB和应用配置管理的关系,这里面提到了非常核心的一个概念:应用,。但是,上篇中更多的是从运维的角度看待这两个概念,不过从根源本质上,这个应该是分布式架构中的核心概念才对,只不过是我们在运维过程中整天要面对它,管理它,所以貌似感觉好像这个概念只跟运维相关一样,其实不然,本文详细描述下。
赵成
2018-08-09
6070
谈谈架构标准化的问题(跟运维有关系?)
接上篇《运维架构是全站技术架构中不可分割的一部分》,文中提到一个问题,运维架构和技术架构的脱节这个问题到底出在哪了?到底谁应该承担这个责任?
赵成
2018-08-09
1.1K0
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档