首页
学习
活动
专区
工具
TVP
发布

Forrest随想录

专栏作者
77
文章
81686
阅读量
57
订阅数
深入浅出地再聊聊可观测性
当下 BAT、美团、字节跳动等一线大厂都在加速推进业务的容器化、云原生化。打开这篇文章的你,应该或多或少跟云计算、容器、Kubernetes、云原生应用有过接触。 在这样的背景之下,很多问题成了开发、测试、运维同学的家常便饭: 某个新版本发布上线之后,发现主机的 CPU 使用率持续飙高,但不知道根本原因在哪,只能根据过往的经验一一排查; 新版本上线之后,很难判断功能是不是完全正常,只能等着用户找客服投诉之后,才知道哪个模块出现了报错; 基础设施方面,通过监控搞了一大堆稀奇古怪的仪表盘,看着花花绿绿一大片,可
赵成
2022-09-20
8090
技术带来的问题,得技术来解决
假期看得到的数字产业课程,看到如题的这么一句话,比较有共鸣,分享一下。 文章里讲的是自动驾驶,自这个概念诞生那天起,我们就一直在讨论的一个“电车难题”: 一列失控的电车,马上要撞上轨道上的5个人,但是你可以选择扳动道岔,让电车转到另一条铁轨上,那条铁轨上只有1个人,请问你扳还是不扳? 在现代社会,我们更经常遇到的场景是: 汽车失控,眼看就要撞上行人,如果紧急转向,车子可能冲进路边的悬崖。那么,自动驾驶会怎么选,是优先保护乘客而撞向行人,还是优先保护行人而让乘客陷入危险? 上述两个问题,其实都是伦理道德问题
赵成
2022-05-05
2620
比故障定位更重要的是:故障定界
前面发的Observability的文章,引起了不少的共鸣,在群里或私聊时很多朋友提到一个点: 故障处理时,运维的逻辑是快速恢复,所以根因是什么不重要,但是不知道根因发生的位置在哪儿,怎么做应急处置呢? 这是个非常好的问题,这里我们就要区分两个经常挂在嘴边,但是确很少有人去能理解透彻的概念:定界和定位。 我们讲故障时可以不用定位,指的是在故障时,不用去定位故障原因是什么,但是不能不做定界。 重要的事情讲三遍: 定界和定位是两回事。 定界和定位是两回事。 定界和定位是两回事。 定界不做,那接下来的恢复就无
赵成
2022-04-27
1.1K0
故障定责的“责”是什么责?
上篇文章《故障没有根因,别再找了》提到了定责与根因挂钩,其中有一段: “如果我们还把根因跟定责定性挂钩,不用我说,大家也能想象到,无尽的撕逼扯皮和甩锅推诿就该开始了,好好的氛围就会变得阳奉阴违,多做多错最后就是不做不错。” 没想到这段话得到了更多朋友的共鸣,转发和留言中都有人重点提到这个点。 所以能明显感觉到,大家苦故障久矣,苦的不是根因,苦的是定责,是定责过程中的撕逼扯皮和推诿甩锅,甚至是人身攻击。 其实遇到这种情况,我也见怪不怪了,一般认怂,没必要过多的争辩,尽快领了自己该改进的事项,尽早结束没有意义
赵成
2022-04-21
2600
故障没有根因,别再找了
在《故障复盘的简洁框架-黄金三问》这篇文章里,我把故障原因分为了两类:触发原因和深层原因。 这里我并没有提到根因或根本原因,理由就是我们原本所认为的根因可能往往不止一个,可能会有多个。 这个怎么理解呢?我举个比较容易理解的例子: 比如我们有一台服务器宕机了,上面跑的的MySQL服务也挂了,影响了上层业务访问,花了30分钟才解决,被定性为故障。 那这个故障的根因是什么呢? 有的人可能会说是服务器宕机引起的,服务器问题是根因。 有人会说上层数据库没做高可用,数据库问题是根因。 也有人会说业务层面没做功能降级,
赵成
2022-04-14
5160
为什么说可观测性Observability对运维没用?
本篇文章是跟浙江移动信息技术部总经理,中国移动首席专家的王晓征总交流探讨后形成。 首先,再复述下本文标题,Observabilty对运维没用,如果硬要说的精确点,exactly,对绝大多数的运维没用。 为啥呢? Observability的三个环节是什么? Detect发现—Trouble Shoot定位—Root Cause找到根因 而真正在出现问题的时候,对于运维也好,还是对于处理故障的人也好,最需要做的是什么? 是快速恢复,快速止损,这个时候定位和找根因很重要,但不是最重要的。 真正发生故障
赵成
2022-04-08
6170
聊聊可观测性Observability
自打去年以来,可观测性Observability这个概念又非常的火,按照我的感受,在运维领域,这个概念是近两年即AIOps之后,热度最高的一个了。 无论是国内还是海外的运维相关的公司,都给了自己一个新的定位,就是可观测性平台,或者叫做可观测云,相对应的产品也是层出不穷。 对于我来讲,我看一个趋势,往往会从落地的角度,从实际情况来分析,反向去看,而不是单纯地看技术多么酷炫。 所以,我观测了很久Observability之后,打算还是从实际情况入手来聊聊这个概念,看看可观测这个东西到底包含哪些内容?它们之间是
赵成
2022-03-25
8570
How Google SRE and developers work together
最近看到一个关于SRE与Dev如何协作的PPT,而且还是新鲜出炉的,这里分享给大家。对里面几页我觉得比较有启发性的内容做一下注解,或者说分享下我的理解。(分享部分在每张截图上面)
赵成
2021-10-28
4570
远望资本程浩:做To B,一定要避免9类错误!
大家好,我是浩哥。最近几年To C创业红利消失,很多人开始关注To B,特别很多从业者是从互联网的C端业务转去做To B。在这里我总结出,做To B业务最易犯的9类致命错误,希望能让大家在创业的路上少走弯路。
赵成
2020-08-02
4100
AWS之野望:All World Server
The future is already here, it’s just not evenly distributed.
赵成
2020-03-26
4240
手机活动轨迹查询,究竟是什么原理?
如何对人员流动加以管控,如何准确识别潜在的传染风险,成为摆在各地防控部门面前的难题。
赵成
2020-02-26
1.2K0
脱水又泼水--远程办公需求分析
疫情之下,在线办公突然火热,很多人都大呼小叫看到了新机遇。但是看到机遇就能抓住机遇吗,本文带大家分析远程办公这个需求。
赵成
2020-02-26
1.2K0
从微盟36小时故障,谈谈数据安全和备份这个事
早上被微盟运维人员删库的事件刷屏了,超过36小时,仍未完全恢复,我花了点时间从通告的信息中做了一些深入地分析解读,分享给大家。
赵成
2020-02-26
6880
两个有意思的类比
今天在群里闲聊当前疫情的情况,看到两个以技术思路做的类比,挺有意思的,不长,或许有些帮助。
赵成
2020-02-12
3600
云游戏全景分析
从2019年开始,IT行业普遍焦虑,大家都讲不出4G的新故事,只能寄希望于5G应用。更多人对云游戏的“火爆”,是对所有和5G沾边的新闻一样盲目的狂热,至少不能显得自己落伍了。
赵成
2020-02-12
2.2K0
问题定义概念-别被BuzzWord给带偏了
看到大家很多交流和探讨,整体感觉就是对于这些概念和BuzzWord,每个人,每个行业,每家公司都会有不同的理解,甚至在不同的阶段,大家也会有自己的理解。
赵成
2019-12-29
4030
云计算:拼的就是运维
有点长,有些内容可能略显陈旧,与当前的现状已经有了很大不同,但是其中传递的思想和观点并不过时,耐心看完一定大有收获。
赵成
2019-11-14
2.8K0
我们的CMDB模型是不是都错了?
CMDB模型最终是要实例化数据和关系的,正确的模型构建可以为多变的场景提供数据基础。
赵成
2019-11-12
1.2K0
关于故障复盘、容忍度和SLO
原因就在于我们把故障复盘的目的搞错了,总想着找人背锅,把自己的责任撇清楚,而不是聚焦在如何改进上。
赵成
2019-11-07
1K0
清华裴丹 | AIOps九大发展趋势
大家知道,运维是数字世界的的基础设施级别的技术。随着支撑数字世界的软硬件系统越来越庞大、越来越复杂,运维对智能化的要求就会越来越高。所以我们说,AIOps(智能运维)是运维技术发展必然的趋势。
赵成
2019-09-17
1.8K0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档