首页
学习
活动
专区
工具
TVP
发布

Forrest随想录

专栏作者
77
文章
82850
阅读量
57
订阅数
深入浅出地再聊聊可观测性
当下 BAT、美团、字节跳动等一线大厂都在加速推进业务的容器化、云原生化。打开这篇文章的你,应该或多或少跟云计算、容器、Kubernetes、云原生应用有过接触。 在这样的背景之下,很多问题成了开发、测试、运维同学的家常便饭: 某个新版本发布上线之后,发现主机的 CPU 使用率持续飙高,但不知道根本原因在哪,只能根据过往的经验一一排查; 新版本上线之后,很难判断功能是不是完全正常,只能等着用户找客服投诉之后,才知道哪个模块出现了报错; 基础设施方面,通过监控搞了一大堆稀奇古怪的仪表盘,看着花花绿绿一大片,可
赵成
2022-09-20
8390
比故障定位更重要的是:故障定界
前面发的Observability的文章,引起了不少的共鸣,在群里或私聊时很多朋友提到一个点: 故障处理时,运维的逻辑是快速恢复,所以根因是什么不重要,但是不知道根因发生的位置在哪儿,怎么做应急处置呢? 这是个非常好的问题,这里我们就要区分两个经常挂在嘴边,但是确很少有人去能理解透彻的概念:定界和定位。 我们讲故障时可以不用定位,指的是在故障时,不用去定位故障原因是什么,但是不能不做定界。 重要的事情讲三遍: 定界和定位是两回事。 定界和定位是两回事。 定界和定位是两回事。 定界不做,那接下来的恢复就无
赵成
2022-04-27
1.1K0
为什么说可观测性Observability对运维没用?
本篇文章是跟浙江移动信息技术部总经理,中国移动首席专家的王晓征总交流探讨后形成。 首先,再复述下本文标题,Observabilty对运维没用,如果硬要说的精确点,exactly,对绝大多数的运维没用。 为啥呢? Observability的三个环节是什么? Detect发现—Trouble Shoot定位—Root Cause找到根因 而真正在出现问题的时候,对于运维也好,还是对于处理故障的人也好,最需要做的是什么? 是快速恢复,快速止损,这个时候定位和找根因很重要,但不是最重要的。 真正发生故障
赵成
2022-04-08
6420
聊聊可观测性Observability
自打去年以来,可观测性Observability这个概念又非常的火,按照我的感受,在运维领域,这个概念是近两年即AIOps之后,热度最高的一个了。 无论是国内还是海外的运维相关的公司,都给了自己一个新的定位,就是可观测性平台,或者叫做可观测云,相对应的产品也是层出不穷。 对于我来讲,我看一个趋势,往往会从落地的角度,从实际情况来分析,反向去看,而不是单纯地看技术多么酷炫。 所以,我观测了很久Observability之后,打算还是从实际情况入手来聊聊这个概念,看看可观测这个东西到底包含哪些内容?它们之间是
赵成
2022-03-25
8910
从微盟36小时故障,谈谈数据安全和备份这个事
早上被微盟运维人员删库的事件刷屏了,超过36小时,仍未完全恢复,我花了点时间从通告的信息中做了一些深入地分析解读,分享给大家。
赵成
2020-02-26
6990
问题定义概念-别被BuzzWord给带偏了
看到大家很多交流和探讨,整体感觉就是对于这些概念和BuzzWord,每个人,每个行业,每家公司都会有不同的理解,甚至在不同的阶段,大家也会有自己的理解。
赵成
2019-12-29
4140
云计算:拼的就是运维
有点长,有些内容可能略显陈旧,与当前的现状已经有了很大不同,但是其中传递的思想和观点并不过时,耐心看完一定大有收获。
赵成
2019-11-14
2.8K0
清华裴丹 | AIOps九大发展趋势
大家知道,运维是数字世界的的基础设施级别的技术。随着支撑数字世界的软硬件系统越来越庞大、越来越复杂,运维对智能化的要求就会越来越高。所以我们说,AIOps(智能运维)是运维技术发展必然的趋势。
赵成
2019-09-17
1.8K0
DevOps、持续交付、运维到底难在哪儿?
DevOps也好,持续交付也罢,还是谈了这么多年的运维和CMDB,讲了这么多年,各种大会的分享和各大社区的经验文章如此之多,但是这些话题依然火爆,依然是各大企业的痛点。
赵成
2019-08-15
5660
与其说建设CMDB,不如说建设IT资源图谱
在运维人员看来,CMDB是一个绕不开的字眼。在ITIL时代,太多的CMDB落地项目,但鲜有成功。而我之前有一个观点,CMDB中的配置字眼要从这个里面去掉,重新给它设定一个边界。在这个边界划分上,我曾经提出过CMDB经历过三个阶段,资产管理、配置管理到今天我主张的IT资源管理。
赵成
2019-08-08
1.7K0
给运维同学的一个转型建议
新年开工之初,给大家一个观念上的冲击,就像我在专栏里写到的,思路上的转变,有时远比单纯技术上的提升要重要的多。当然,我这里写的是运维,其实跟绝大多数做技术的同学都相关。
赵成
2019-03-04
6160
未来到底还需不需要运维?
早上第一个观点碰撞,是因为晓征总看到我专栏图书上写的:“软件架构的目的是将构建和维护的成本降到最低,以及软件架构的大部分工作都是为后续运维服务”的观点,感觉形成了强烈的共鸣。
赵成
2018-12-05
6640
做容灾,冷备是不是个好方案?
主备、冷备、热备、双活、多活、同城、异地、多云,等等等等,这些保证业务高可用和容灾名词,我们经常会听到,不绝于耳。
赵成
2018-10-18
2.4K0
喜讯 | 用DevOps理念改变运维行业的优维科技再获B1轮数千万级融资
2018年7月,国内领先的一站式DevOps及运维解决方案提供商优维科技(UWinTech)完成数千万级人民币的B1轮融资,本轮融资由斯道资本领投,老股东祥峰资本参与跟投。此轮融资将主要用于新一代Devops及运维平台的建设。
赵成
2018-08-09
6710
谈谈技术和成本(四)
前面谈完技术不是唯一因素,但是技术却很重要,接下来就谈谈,成本管理这个事情,一定要把握好度,千万别搞的越管越乱,越管成本消耗越大。
赵成
2018-08-09
4800
选择哪家云厂商,决定因素到底是什么?
前两天在极客时间的专栏里发了一篇文章,主要讲了下蘑菇街业务为什么会选择从自运维的托管IDC模式,完全过渡到腾讯云上的混合云模式(文末“阅读原文”),文章发布后,其中有一位读者留言提了一个问题:
赵成
2018-08-09
5150
一个真实的DevOps演进过程是啥样的?
前几天听老王分享,提到关于DevOps在国内外的发展问题,其中就说到早期腾讯做运维时,那个时候也没什么意识是DevOps,其实就是在变态的业务体量下面一步步做出来的,后来国内DevOps的概念火起来了,才发现原来这个叫做DevOps。
赵成
2018-08-09
7260
运维架构是全站技术架构中不可分割的一部分
从这篇文章开始,准备从架构设计层面谈谈Dev和Ops的关系,而不是单纯从组织架构和协作模式上的Dev和Ops关系。
赵成
2018-08-09
3090
运维(技术)工作中的反模式
前面几篇主要讲了应该怎么做好运维,期间就会想到很多反模式,但是限于篇幅就没有多写。
赵成
2018-08-09
3610
谈谈技术和成本
因为最近我们内部也在实施成本优化和管控的事情,再加上之前写文章对一些技术和成本效率问题上的一些总结,发现这个事情还有点意思,是值得反复思考和玩味的一个问题,所以简单分享下感受。
赵成
2018-08-09
4030
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档