首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

3.3.4.1 复盘:向自己学习​

数智万物下,运维组织面临不断变化的内外部环境,不仅要应对每天海量信息轰炸,还需要对信息进行有效思考,沉淀经验转化为能力,推动学习型组织文化。通常来说,学习包括三种:一种是向前人学习,比如看书,吸收前人的归纳总结,获得知识;第二种是周边经验学习,比如向周围的朋友、领先的资讯知识、举一反三经验等学习;第三种是向自己(个人或组织)学习,通过自己的分析、讨论、思考,将自己经验转化为能力或知识。而“向自己学习”,最常见方法就是复盘,即对过去所做事情重新思考、分析,找出影响结果的因素,将好的行为或不足之处进行梳理,形成自己的经验知识,并最终转化为能力。

02

3.3.1 构建持续提升的故障管理能力

随着系统架构不断升级,功能持续迭代,系统运行复杂性越来越高,故障的发生不可避免,且发生场景愈发无法预测。从企业角度看,系统故障影响客户体验,降低访问流量,带来交易损失,引发监管问责等;从系统架构角度看,系统故障反映的问题代表系统未来扩展性与局限性;从IT资源角度看,故障(尤其是重复性故障)将占用大量IT人力资源,影响IT价值创造能力;从运维角度看,故障是一个常态化的存在,故障既是业务连续性大敌,也是推动组织架构、人员能力、协同机制、工具平台持续优化的驱动力,对待好故障管理有助于建立学习型的运维组织。本文要解释的故障管理,除了指尽快恢复正常的服务以降低故障影响的相关措施,还尝试探索建立一个闭环的故障管理能力的模式。

03

运维可用性能力建设

业务的不断演进,系统的数据量不断扩大,技术栈越来越复杂,系统模块越来越多,造成信息系统中断的事件的风险场景越来越多,中断事件的频率和种类持续增长,且有相当一部份事件会造成业务中断,可用性问题越来越严峻。一个严重的业务可用性问题通常是多个层面上的可用性保障均失效的结果,比如:架构的高可用能力,监控能力、自动化工具能力、应急能力等,所以说运维组织的事件管理能力特别的重要,应该本着“不浪费故障”的理念去深挖故障背后的问题,不断的完善每个环节的不足(当然,这里不提倡追责的方式分析故障)。可以用“海恩法则”来进一步解释可用性问题由量变向质变转变的过程:海恩法则:一起重大的飞行安全事故背后都会有29个事故征兆,每个征兆背后又有300个事故苗头,每个苗头背后还有1000个事故隐患。由此可见,对隐患、苗头、征兆的忽略,是导致意想不到的安全事故发生的罪魁祸首。《百度百科》

02

3.4 事中故障处理(3)故障定位

故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而非寻找问题根因,后者由问题管理负责。通常大部分可用性故障,要借助运维专家经验的假设判断或已知预案的执行得到解决,但仍有部分故障,尤其是性能、应用逻辑、数据故障需要多方协同与工具支持。故障定位的方法通常包括专家经验驱动的假设尝试、测试复现、预案启动、代码分析四种,这个过程涉及对日志、链路、监控、数据感知、知识管理五类工具。随着系统复杂性不断提升,依靠专家经验驱动的假设尝试准确率会下降,如何将数字化手段结合专家经验,融入到协同机制中,这考验故障定位场景的设计水平。

02

养兵千日,用兵一时——如何打造高可用柴发系统

养兵千日 用兵一时 柴发系统是数据中心在外市电异常时为设备提供应急电力供应的重要保障,其可靠性对于保证数据中心在极端情况下的业务稳定性和持续性有着重要意义。 由于完整的柴发系统由柴发机组、并机系统、供油系统、进排风系统、配电系统、接地系统和测试负载等组成,其可靠性会受到多方面因素的影响,除机组性能质量以外,其中尤以配电、并机、供油、进排风等四个子系统对整体可靠性影响较大。下文从架构设计、功能配置、维护保养等角度,对这四个子系统的可靠性影响因素进行了分析,并给出了一些相关的优化建议。 腾讯某数据中心集装

04
领券