前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >变更管理点滴分享

变更管理点滴分享

作者头像
鹅厂网事
发布2018-02-05 17:34:35
1.5K0
发布2018-02-05 17:34:35
举报
文章被收录于专栏:鹅厂网事鹅厂网事

"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网络与服务器领域,规划、运营、研发、服务等层面的实战干货,期待与您的共同成长。

变更管理工作贯穿在网平基础架构环境各种设备架构的整个生命周期,是ITIL管理中非常重要的一个流程环节,和其他流程关系非常紧密,稍有不慎就容易导致故障。笔者曾在金融企业做过变更经理一年多,发现互联网和金融行业变更管理存在很大不同,主要有两点:

变更管理最大难点就是只要变更就会存在风险,一旦出现故障,变更就会成为千夫所指目标。金融企业对流程的控制要求非常细致,因此会牺牲一定效率来严格把控风险,而互联网企业的变化节奏太快,流程和工作效率都需要兼顾,对变更活动潜在的风险无形中会放大,导致故障几率会成倍增长。根据互联网公司基础架构建设实际情况,与特殊业务需求,逐一展开了变更管理的各项优化提升工作,重点包括变更计划排期、变更模板梳理、变更沟通、变更时间和影响标准化等等。

一、变更计划性

在变更管理中有一项非常重要指标,就是紧急变更率,这个数据和成功率相反,越低越好

古语云,有备无患,首先,要把重点变更实施有序化,有了细致计划,一步一步的准备周全,这样变更风险才趋于最小化,这一点不管从用户角度还是自身角度考虑,都是很重要的。在变更管理初期变更计划性较差,没有良好的规划和控制,更谈不上提前通知用户。变更经理时常在当天晚上接到就要马上实施变更的申请审批,这个情况不是偶尔出现,是经常性的。运营一段时间后进行变更数据统计分析发现紧急变更比率竟超过了60%,而且百分之九十的紧急变更都不符合紧急变更特性,很显然当时变更管理流程规范没有发挥真正的作用。而金融企业紧急变更比率只在3%以内。对于变更来说,这是多么可怕的巨大潜在风险。

透过数据分析看原因,我与参加变更具体实施的同事深入了解和讨论,总结导致问题的根本原因是多数人对计划不够重视,抱着走一步是一步心态,最终演变成完全由客观因素去主导了变更实施时间。为了解决这个问题,首先主动把变更月度计划做起来,要求大家对每月变更有一定的计划安排,再把计划收集梳理汇总后,把不合适日期及规避业务要求的变更或者冲突性变更标识出来,提前和变更负责人沟通修改,既可以做好排期,又可以避免人力安排上冲突,从而保证变更顺利实施。

经过一段时间后,再回顾以往的变更紧急率,发现变更紧急率已经大幅下降,最近几年维持在10-20%之间波动,基本实现预期目标。而推出的月度变更排期也受到了很多业务接口人的欢迎,因为他们尽早了解我们变更计划和影响评估后,可以提前做好配合的准备,减少对自身业务的影响。个别业务还会提前安排值班人员检测业务是否异常,这对于变更实施期间提供了业务侧监控。

另外结合到互联网企业变化太快的特点,变更滚动变化也非常快,所以笔者每周都对变更排期计划做持续性滚动更新,使变更排期的效果发挥更大功效。

二、变更模板梳理

随着变更操作熟练化和基础架构整体环境变化,每年都需要对变更类型进行回顾梳理,梳理条目包括变更类型名称、级别、是否预授权模板等等。这样既可以顺应整体变更发展需要,也可以提升部分变更类型效率。变更模板梳理有两个主要目标:一是变更模板更适合当前使用的模式,二是变更级别定义合理规范化。

举个栗子

最初核心网络设备新增板卡类型设定为二级变更,主要是基于新增板卡时一旦出现异常最坏情况就是导致核心重启,经过几年变更操作都没有出现过异常情况,且目前网络核心设备的冗余性建设比以前大为提升,在技术方案操作相对简单和影响风险降低情况下,把此类变更级别逐步修订为三级,这样提交变更时间和审批流程会简化,在对变更风险可控情况下,达到提升变更操作效率效果。对于标准化变更类型方案模版,要求在方案操作步骤形成规范化,包括评估影响描述和风险,这样既可以控制变更风险,也避免同类变更评估影响不一致引发业务用户质疑。

三、重要变更沟通

在变更正常情况下会对业务影响较大的变更,是需要预留充足的时间与受影响业务进行沟通,对变更方案和变更时间点达成一致方可实施。一般情况下定义对业务影响较大的变更包括了内外网络中断(含短时间中断)、已知会对业务造成影响的网络波动、设备断电、首次对核心设备进行不成熟的变更(出现异常可能性较大)等。

在接到这类变更计划时,我们通常会跟变更负责人核对变更方案,评估方案中是否已经最优及影响最低。再要求变更负责人提供变更具体影响范围,例如具体影响的服务器信息。通过对影响数据的梳理分析,如果是影响多种业务的(很少影响单一业务),先与其中的重点业务沟通取得一致,制定出一个变更时间窗口,再以这个变更时间窗口为基础计划变更时间窗口和所有受影响的业务沟通。

经验谈:千万不要一下子抛给多个业务来提出变更时间窗口,很可能造成众口难调,增加变更窗口协调难度。

四、变更时间窗口、影响和风险

业务用户除了关注变更排期计划外,对变更时间窗口、影响和风险要求也很高。这就要求在制定变更方案时需要做到最优,尽量精确化把控变更时间窗口,同时把变更影响和风险降至最低。

在如何控制变更方案的质量,充分评估变更风险环节。我们采取了重点变更集中评审制度,另外对于特殊的变更提前发起影响评估,必要时单独召开变更评估会,业务接口人会做为参与者一起综合评定,最大程度综合考虑各方面风险,把考虑到异常出现的情况处理方法做为标准方案的必要部分。

现在的重点变更都已经形成了标准化的方案模板,对变更时间窗口、变更影响评估和变更公告通知发送时间有明确的要求,并通过不断的质量审计来回顾执行情况,定期讨论优化所存在的问题。

五、重点业务个性化服务

针对公司重点业务的要求和特点,我们提供了个性化的变更管控提醒服务,如每当游戏业务有重大推广或者暑期保障活动时,我们对于重点保障机房的变更做了特殊标识提醒和专人沟通知会,并按照业务的反馈做到充分沟通,必要时对变更安排做计划调整。

对于云平台和财付通这类特殊业务,我们采取了制定变更方案时提前知会沟通,按照业务需求和网平变更提供个性化服务并更新修订变更管理流程,在变更系统配套修改完善前,采用人工沟通知会方式,尽量做到该类变更实施前充分和相关业务沟通合作。在变更系统逐步修改完善后,在系统中设置提醒和增加业务审批步骤,对于涉及云平台和财付通的变更都必须得到业务审核方实施,业务也会同期根据情况安排人员做变更实施过程的检验测试,这样可以同步检验变更效果,一旦变更结果出现异常或者实施效果不理想,可以在尽量在不影响业务情况下,马上回退。

综上所述是笔者在以往工作的一些经验总结,实际工作中需要多考虑给用户带来实际价值的服务和细致的专业建设,提升整体运维能力。

注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利;

注2:本文图片部分来至互联网,如涉及相关版权问题,请联系judithliu@tencent.com

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-03-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鹅厂网事 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档