首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

未雨绸缪:做好运维服务的几点建议

南风,闯荡IT江湖二十余载,研读各派武林经典,与众高手相互切磋,功力见长。与众兄弟共同打拼,在应用系统开发、运维管理、绩效管理、人员外包、信息安全等领域颇有心得。特开设南风书院,以文会友,分享IT管理之道与术。

纵马狂歌江湖远,煮酒烹茶隐南山。南风书院,期待您的到来。

运维是指生产环境以及和生产环境相关的资源、服务的维护的整个过程,目标是通过相关的技术及流程手段确保生产环境稳定、高效、成本可控的运行。与开发工作相比,运维对处理问题的时间要求更强,任何风吹草动都得抓紧处理。即使在系统运行正常的时候,运维人员也不能闲着:指标采集、趋势分析、风险和隐患排查、优化服务结构与部署方法……

开发与运维工作都不好过,一个经常晚上不睡,一个经常晚上被吵醒。前一阵子网上流传各行各业吐槽漫画,运维部门的吐槽非常形象:

有位银行数据中心老总做了一个形象的比喻:开发团队像拍电影的,任何表演的不足可以NG(重拍),为了赶进度不睡觉也是有的,但观众此时不知道,因为影片还没上映;运维团队像演舞台剧的,观众此时就在台下,任何问题都必须在现场马上解决。

对于运维工作本身的改进,此前我们已经谈过一些管理思路,如流程优化事件管理等;但如果能未雨绸缪,在源头上减少故障,避免频频救火,岂不妙哉?这就需要一种协同工作的方法,能让开发团队不断提高产品研发水平,使所交付的产品功能更完善、上线后运行更稳定、维护更便捷,方便运维人员从容搞好深度运维。

应用系统投产不应是一个交钥匙工程,要保证后续运维不出事,运维人员应主动参与到开发项目的不同阶段,促使开发与运维“无缝连接”,平稳过渡。

一、需求阶段:从用户使用视角参与,明确产品稳定性、可维护性需求。运维团队也是需求提出方之一,要积极了解产品的目标、熟悉产品背后的业务逻辑,引领最终用户思考以确定哪些非功能性需求,包括安全需求、高峰时间交易量预测、系统连续性和可用性要求、数据容量等。产品对外提供服务最重要的一点是用户体验,用户体验中非常重要的是产品的可用性和响应速度。而如何用最合理的资源(如机器、带宽等)支持产品提供高可用和高速度的用户体验,明确这部分的产品需求,约定后续运维服务的工作标准,是运维人员的重要职责。

二、产品研发阶段:与系统开发团队配合,参与产品架构和环境部署与调试。应根据是否存在单点、是否可容错、是否有强耦合等实际情况和用户需求,结合当前运维环境(如服务器资源、网络资源、机房容量等),并调研市场行情与技术发展现状及趋势,进行架构设计;根据系统开发周期,制定采购与部署计划,既不耽误测试与上线工作,又能控制预算支出,适时将所需的设备(如服务器)及基础环境/域名准备就位,完成基础环境及设备方面的新增、更换工作,积累特殊的运维知识。运维人员还应当结合以往维护工作的经验和教训,向开发团队提出合理化建议。

三、产品发布阶段:安排好运维人员,参与策划服务的发布与实施。从这个阶段开始,运维人员将从产品研发的“配角”逐步转变为产品服务的“主角”。运维人员应提前学习并掌握相关业务知识,对于一些需要不中断对外业务进行的发布部署工作,要尽早开始策划及测试;建立与开发团队协同工作机制并不断磨合、完善,以便于在今后的日常运维阶段高效协同,对突然出现的问题做到快速响应和正确处理。

四、产品运行阶段:按照约定的服务级别做好日常维护工作,通过事件管理、问题管理、流程记录,传递产品缺陷,促进产品完善与升级换代。运维部门与产品的最终用户(如:银行某业务部门)签署的运维服务协议是开展运维服务的依据。运维的日常工作包括监控、容量调优、故障处理、灾备演练、数据处理等,解决故障永远是第一位的。在快速恢复服务后,还应对故障进行后续分析,判断故障是功能不满足需求引起的还是系统bug。故障分析需要开发与运维团队相互配合,运维团队应主动将所有的“表象”如实记录并反馈到开发团队,并跟踪分析结果,以便找到故障的根本原因,为后续的产品升级换代做准备。问题及时反馈到开发团队也能帮助开发团队总结经验,提高开发水平,避免类似情况的重复发生。

运维团队在产品生命周期各阶段的作用示意图

总之,IT部门交付的是一个整体的服务,IT部门只有为客户提供端到端的、满足客户需求的服务产品,为业务产生了价值,IT价值才被认可。开发和运维作为IT部门的两大主要业务团队,应从产品价值实现角度加强相互了解与沟通,未雨绸缪,在产品全生命周期的各个阶段都通力合作。

这样,大家都能睡个安稳觉了。

本文由作者授权优智汇平台发布,欢迎分享至朋友圈,未经许可不得转载。

【南风书院文章目录】

第一期《IT运维管理之流程优化》

第二期《云计算的安全挑战(一)》

第三期《目标绩效管理联盟思想的6个关注与6个重视》

第四期《云计算的安全挑战(二)》

第五期《IT运维管理之事件管理》

第六期《中小银行如何开展信息安全管理》

更多好文,敬请期待

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171218G03ZJ600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券