专栏首页zhangdd.com运行无间之漫谈IT运维

运行无间之漫谈IT运维

一、缘起 软件工程有的时候与养孩子有点相似:虽然生育的过程是痛苦和困难的,但是养孩子的过程才是真正需要花费大部分精力的地方。在现实中,我们却发现人们往往将绝大多数的精力与资源花费在了讨论如何构建软件方面,而其后续的可维护性方面的工作却考虑的极少。我们在大学软件工程课程中也学过,从软件生命周期的角度看,软件开发阶段只占整个生命周期的20%~30%,软件运行维护阶段才是最长尾的,这个规律放在现在仍然适用。从以上的视角来看,在软件工程行业,至少应该有两类职业:第一类职业专注于设计和构建软件系统,另外一类职业就是专注于整个软件系统生命周期的管理。从其设计开始一直到部署、运行,历经不断改进,优化,最后退役为止。就是这样一类职业,它和其他的职业的专注点不同且必须具备非常广泛的技能,我们将它称之为IT  Operations。 二、运维是什么 运维,英文原文是IT Operations翻译过来就是IT运维,根据中文,对“运维”这个词进行拆解就是“运行+维护”。这个拆解隐含了对运维工程师工作职责的最基本要求。那么到底什么是运维呢?在我的理解,运维即服务,好的服务体系是系统稳定运行的坚实基础和有力保障。我们的工作职责就是保障生产系统的安全、稳定、可靠的运行,确保服务7*24小时不间断。 三、运维的价值 运维的价值主要体现在如下几个方面:提高业务运营质量、用户满意度,保障系统安全、稳定、可靠的运行及服务的可用性,降低业务运营成本,在提高IT服务质量的同时为企业与客户创造更多的商业价值等。 四、谈谈我们的工作 (一)岗位要求 运维是一个融合多学科(网络、操作系统、数据库、中间件、开发、测试、安全、协议、算法、数据结构、架构、存储、强弱电等)的综合性技术工种。一名优秀的运维工程师,需要在多个技术领域中,精通某几项技能,才能够胜任该工作,同时还要对业内前沿技术发展趋势实时跟进、掌控。 (二)人员素质要求 良好的沟通表达能力、工作认真仔细,注意细节、能够扛得住较大压力、知识面广、有较强的责任心,工作态度端正,积极主动,执行力强、学习,创新能力强、极强的安全意识和对问题刨根问底的精神。 (三)岗位职责 以系统稳定性为目标,负责系统的可用性、性能、效率、服务请求、变更管理、监控、应急响应和容量管理等工作。 (四)工作内容 日常主要工作内容如下:服务级别管理、能力管理、业务连续性管理、事件管理、问题管理、变更管理、配置管理、发布管理、备份管理、容量管理、可用性管理、安全管理、知识管理、系统监控、例行巡检、性能优化、应急响应、问题处置、生产问题复盘、服务请求、IT架构规划设计、系统部署、双活建设、容灾建设、切换演练、系统软件升级及补丁修复等工作。 (五)运维服务体系建设 运维作为一个细分的IT专业领域,在运维服务体系建设方面是有技巧和章法的。一个好的运维服务体系的建立是需要一个懂运维的管理者花费很多心思和精力,经过反复的打磨,不断改进构建起来的,绝非凭空起高楼。一般业界会参考借鉴ITIL与业务连续性管理BCM,ISO 22301等体系标准来构建适合于企业自身的运维体系。 一般情况下一个好的运维服务体系建设应遵循如下原则: (1)以完善的运维服务制度、流程为基础; (2)以先进、成熟的运维管理工具为手段; (3)以高素质的运维服务团队为保障; (4)以科学合理的考核指标为导向。 具体落地措施如下: (1)制定运维服务标准与规范; (2)搭建运维服务台,全方位接受服务请求; (3)规范事件管理,建立完善的突然事件应对机制; (4)规范问题管理,建立故障分析的长效机制; (5)规范变更管理,建立谨慎的变更管理机制; (6)收集基础资料,建立完备的CMDB管理系统; (7)制定绩效考核办法,加强监督检查,严格考核运维人员。 (六)运行无间最佳实践之运行保障示例 (1)问题预防 对即将投产的系统进行评审,从系统的健壮性、可扩展性、可维护性及部署规范等方面进行评审是否满足上线的标准和要求。 对每天的变更与应用发布进行集中评审,严格按照变更与发布的标准与变更红线进行审核是否满足投产条件。 按照运维计划,定期组织实战切换演练,模拟生产故障,验证系统的健壮性以及提高运维人员的应急处置能力。 (2)运行监控 监控是运维人员的眼睛,能够帮助运维人员快速发现定位问题,减少业务中断时间,提高故障处理效率。目前业内均已实现全维度监控,也就是说运维人员要从各个维度监控系统的健康状况,比如IDC机房、网络、存储、操作系统、数据库、中间件、应用、系统和业务层面。运行监控人员会7*24小时进行值守,一旦系统抛出告警,值守人员确保5分钟内电话通知到一线运维人员及时介入处置。 (3)故障响应 一线运维人员在接到告警后,会进行初步的判断,对业务的影响,是否需要进行升级,是否需要协同其他条线或者二线专家的介入。 (4)故障处置 一线运维人员在初步判断后,根据事件处置流程,优先恢复业务,隔离故障,再定位问题根因,同时并根据流程判断是否及时进行升级或者寻求其他条线以及二线专家进行介入处置。 (5)故障复盘 故障复盘主要是针对生产故障进行深入分析,定位问题产生的根因。从管理和技术上发现存在的问题,需要改进的地方。及时对本次故障产生的原因进行总结沉淀并制定改进措施与计划。 (6)问题改进 根据故障复盘中提出改进措施和计划进行修复缺陷和问题。 (7)演练验收 检查复盘改进措施是否已完成以及验证措施的有效性。 通过以上措施,围绕故障进行全生命周期管理,形成闭环体系,持续改进,确保生产系统的稳定运行。 (七)运维的愿景与目标 愿景:以业务为中心,交付稳定、安全、高效的IT运维服务,构建业内领先的IT运营能力,支撑公司的持续发展与战略成功。 目标: (1)运维工作的标准化、工具化、自动化、智能化; (2)生产系统的持续稳定运行,系统故障自愈; (3)提升服务效率和质量,降低IT运营成本,践行精益化运维。 通过对涉及服务质量的指标、发布规则及变更规则等制定标准与规范。使用技术手段将相关标准和规范落地到工具平台,实现运维管理的数字化及问题的闭环管理。 五、结尾 做运维痛并快乐着,只有经历过才能真正的感同身受。正如莎士比亚的小说《麦克白》中三位女巫唱道的那样:“不惮辛劳不惮烦,釜中沸沫已成澜。”该诗句也十分适用于我们运维工程师们的状态。即便如此,我们仍初心不改,心存美好,砥砺前行。 “凡是过往,皆为序章”。愿大家能够在这平凡的岗位上找到自己锚点,不断的积累,成长。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 报名倒计时最后三天!|如何0代码改造,提高微服务治理效率?

    ? ? 云原生技术开放日 提到微服务生态,SpringCloud 自然是绕不开的话题。它作为分布式系统的主流开发组件,以开源的技术驱动,完整的应用生态和活跃的...

    腾讯云中间件团队
  • 一个焦虑的CIO的内心独白

    最近网络上流传着很多让人焦虑的事情,凌晨三点的年轻加班狗,35岁危机的华为IT男,放弃生命的万达女高管,以及输给时代的大润发董事长。焦虑开始从婚姻、房子等问题,...

    逸迅科技
  • 流程内耗的雾霾几时休?

    一个企业,无论大小,都具备“麻雀虽小,五脏俱全”的职能部门,都有人数或多或少的运作团队。正如金庸在《笑傲江湖》中写道:“有人就有恩怨,有恩怨就有江湖”,在协同运...

    landv
  • 中国云计算发展核心:是否能够真正帮助企业解决现实诉求

    无论是公有云、私有云还是混合云市场,目前云计算市场已经硝烟弥漫,刀光剑影了。所以大家都在说2016年是云计算最关键的一年,即说明这个市场竞争更加激烈,也表达了市...

    静一
  • 哪些因素决定企业选择云ERP还是传统ERP

    作者:张苏月 关键词:SaaS,ERP 企业的 ERP 系统就像爱车一样:很难想象日常生活中没有车会怎样。一辆车可以载你到办公室、商店和家,而 ERP 则支撑着...

    人称T客
  • 云端之争,混合云再胜一筹

    提到云计算,有关云端的未来之争已经是老生常谈了,当然,绝大多声音都是围绕在公有云和混合云之争上面。而观点也无非以下两种: 首先,认为公有云将会是未来的趋势所在。...

    静一
  • 从微盟36小时故障,谈谈数据安全这点事

    很震惊!很震撼!吓得我赶紧召集全公司服务端小伙伴Review了我们所有的安全部署!!!

    程序员小跃
  • 谈谈删库跑路这点儿事

    很震惊!很震撼!吓得我赶紧召集全公司服务端小伙伴Review了我们所有的安全部署!!!

    iTesting
  • 从微盟36小时故障,谈谈数据安全这点事

    很震惊!很震撼!吓得我赶紧召集全公司服务端小伙伴Review了我们所有的安全部署!!!

    用户6983566
  • 【人物】努力做一个有情怀的运维老兵

    杨晓伟,2007年4月从平安加盟腾讯。在数据中心领域从业十五年。是腾讯数据中心从第一代发展壮大到第三代的主要推动者,目前主要负责腾讯数据中心的全球规划、建设和运...

    TEG云端专业号
  • 听说,这样学习技术最有效果

    好好学java
  • 基于开源软件的云计算中有大量的创新机会

    近来在云计算领域,国内、国际大佬们的频频降价惊呆了一众小伙伴。3月份阿里、谷歌相继降价,4月1日起亚马逊降价,不知是否感受到了压力,微软日前宣布从5月1日起开始...

    静一
  • 综述 DevOps

    DevOps 常见于各大云计算提供商。DevOpe被用于打破开发者和运维者之间的壁垒,目的是缩短软件开发周期并提供高质量的持续集成。

    宋天伦
  • 我的译作《精通OpenStack》上架啦:书籍介绍和译者序

    作者:[德] 奥马尔-海德希尔(Omar Khedher)[印] 坚登-杜塔-乔杜里(Chanda Dutta Chowdhury)

    力哥聊运维与云计算
  • DevOps 漫谈:从作坊到工厂的寓言故事

    谈到 DevOps 概念,有几本书是绕不过去的,《凤凰项目:一个IT运维的传奇故事》(The Phoenix Project:a Novel About IT,...

    RiboseYim
  • 七夕了,不如和程序员谈一场没有BUG的恋爱

    但一直在跟程序员们接触的场主觉得,程序员靠谱,踏实,有耐心,又聪明,绝对是理想男友的首选啊!!!

    养码场
  • 凤凰涅槃,浴火重生

    本文以一个故事的形式讲述了一个IT项目从即将“流产“、IT运维部门面临被拆分的囧境到逐步的通过一系列举措取得项目成功并实现业务价值的过程, 浅显易懂,结合自己曾...

    织云平台团队
  • 共建共享之后,5G或将实现异网漫游,只是中国移动要吃大亏了

    前不久,中国移动和中国广电宣布共建共享5G网络,而去年早些时候,中国电信和中国联通已经开始了在全国范围内合作共建一张5G接入网络。从行业发展的角度,共建共享是通...

    悲了伤的白犀牛
  • 71岁布兰森太空试飞,惊心失重4分钟!「赤脚」马斯克捧场,贝索斯小肚鸡肠

    美东时间7月11日上午,维珍银河创始人理查德・布兰森(Richard Branson)搭乘太空船二号成功从约86千米高的亚轨道返回。

    新智元

扫码关注云+社区

领取腾讯云代金券