前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >5.1.1 运维场景方法论

5.1.1 运维场景方法论

作者头像
彭华盛
发布2021-12-18 14:17:29
1.7K0
发布2021-12-18 14:17:29
举报
文章被收录于专栏:运维之路运维之路

1.场景概述

(1)场景定义

运维组织中什么资产最为宝贵?网络设备、硬件设备、平台、软件、应用系统……不同的人有不同的理解,从我个人理解,最宝贵的是运维组织基于组织特点、能力禀赋,多年沉淀下来的运维工作模式,毕竟硬件可以过保更换、软件与系统会上线下线。遗憾的是,很多运维组织的工作模式仍主要由文档上的流程,每个个体头脑中的经验组成,这种方式存在大量不确定因素。事实上,有不少生产故障也是由于某个或多个未按规定的工作节点的失效引发。运维场景的重要思想是基于组织的经验,将组织的人、流程、平台的能力在线连接,形成全线上化、数字化的工作片断,所有片断便是运维数字世界砖块。

在吴声的《场景革命》中对场景作了一些介绍:场景本来是一个影视用语,指在特定时间、空间内发生的行动,或者因人物关系构成的具体画面,是通过人物行动来表现剧情的一个个特定过程。从电影角度讲,正是不同的场景组成了一个完整的故事。互联网下的场景具备一些特点:

  • 场景以人为中心,依赖于人,没有人的意识和动作就没有场景。
  • 场景是一种连接方式,场景用各种工具应用连接了场景所需要的人、事、物。
  • 场景构成包括时间、地点、人物、事件、连接方式。

借鉴上述场景定义与特点,可以认为运维数字世界由众多运维场景连接而成,运维场景由时间、环境、人、事件、协同方式5个要素组成。其中时间指运维工作发生的时间段或时刻,环境指线下与线上,人包括真实多个角色的人与机器人,事件指场景的主题内容,协同指人、事、环境的连接。以一个金融行业夜间清算批处理的场景为例,完整的场景涉及:

  • 时间:当日业务终止后清算开始到清算结束的时段,通常是一个夜间值班的时段中。
  • 环境:物理空间下业务办公场地、运维值班的ECC,以及线上的清算IM协作群。
  • :真实的人包括夜间一线运维值班、二线运维远程值班、研发支持、供应商支持、业务清算人员,以及自动化机器人。
  • 事件:正常或异常的清算过程,异常的清算事件。
  • 连接:人、事、工具、环境的连接。

从上面的清算5要素分析看,一个完整的流程工作流程涉及涉及业务系统、业务监控系统、自动业务调度系统、社交IM、应急处置系统、运维数据平台(含日志、可视化)、ITSM等多个工具的建设。在实际工作过程中需要清算值班人员根据经验在多个工具之间进行操作,对经验要求比较高。由于夜间清算是金融企业运维的重要工作,而经验丰富的运维人员并非每天都会值班处置清算工作,所以需要用清算场景的思路整合企业已有的平台能力,建立一个在线的、多团队协作的工作。

总的来说,以场景思路梳理运维工作,相比于传统IT服务流程或工具平台导向方式,更贴近运维组织实际的工作模式,能够打破信息孤岛,更有助于建立全数字化的运维工作模式。

(2)“场景”与“组织、流程、平台”的关系

前面提出了数字化运维体系由“组织、流程、平台、场景”四位一体组成。组织数字化重点围绕组织文化、组织架构、个人能力持续优化的数字化管理能力。流程数字化是通过“连接、数据、赋能”的数字化思维重塑工作流程,将制度规范、管理领导力、协同模式、资源配置等通过数字化技术在线化。平台数字化是支撑组织、流程和场景数字化落地的技术底座。场景数字化是基于场景驱动将线上工作“时间、环境、人、事件、协同方式”连接起来,实现提能增效和智慧沉淀。

场景以组织中的角色对象为中心,强调多角色的高效协同。运维工作涉及多方协同,场景的有效运作是打破各种角色对象协作孤岛,进行线上化或自动化协作。组织的角色对象主要包括组织内与组织外的角色:

  • 运维组织内涉及运行保障、业务可用性\连续性管理、资源管理、信息安全等职能型组织,以及流程经理、运行分析、业务运营、IT服务、系统退出、运维开发等横向优化型组织。
  • 运维组织外涉及研发、测试、业务、客服、供应商、监管等。另外,随着平台化管理与人机协同模式的不断推进,组织角色对象还将加入机器人角色。

场景是对线下流程的数字化映射,强调流程在运维数字世界的落地。相比其他工作领域,运维工作面临海量的机器与数据,常态化的突发信息风险等状况,所幸运维行业标准化建设较好,不少运维组织在积极围绕敏稳双态的思路优化工作流程能力,吸收“devOps、AIOps、SRE、ITOA、ITIL、ISO20000、ISO9001”等方法论。场景是运维组织结合组织沉淀的经验,将标准化的流程与实际的工作相融合,落地为数字化的协同模式。具体的方法是,结合“连接、数据、赋能”的思维,由被动的流程管理向主动型的IT服务、IT运营模式转变,标准化协同流程,能线上化的线上化,线上能自动化的自动化。

场景是平台能力的集成器,强调场景构建的敏捷与用户体验。当前,运维平台建设的主流思路是基于“监、管、控、析”工具体系向一体化平台的架构演进,利用自动化手段替代运维手工操作的环节推动运维研发一体化(devOps),利用运维数据中台及数据字运营场景的建设推动运维数据运营(ITOA),利用运维数据挖掘、学习,优化运维场景,探索运维智能化(AIOps)。由于平台工具的功能相对独立,而运维工作场景下又需要多个工具支撑,所以很多场景下运维人员需要来回在多个工具切换工作,良好平台赋能体验需要对多个平台能力进行集成。

2.“点线面体”的数字化运维模型

点:指运维对象,运维对象包括人,软件、硬件,以及不断抽象归纳的指标、模型等数据。鉴于运维数据分布在监控指标、报警、日志、性能、业务运营、运维知识、CMDB、运维流程等职能的工具平台上,在实际应用中通常会将数据进行整合加工,其中与IT资源、应用、软件相关的配置数据由CMDB整合,与应用相关的数据持续沉淀为指标。

线:指点与点之间的连接,我们认为重点围绕运维价值交付链路。从软件全生命周期管理看,运维有几条关键价值交付链:软件交付价值链、IT服务交付价值链路、系统退出价值链。每条价值链路下由多个运维场景组成,场景则由多个点连接而成,每个细化的场景我们可以认为是一条连接的线。

面:围绕“组织、流程、平台”的数字化运维体系。将众多运维场景的线整合在一起就形成一个数字化运维体系的面,这是一个运维组织数字战略视角,涉及组织的职能、岗位、人才、绩效管理等,流程的标准、规章、规程等,平台的基础平台、应用平台、工具平台等。

体:运维走出企业,供应链厂商,第三方机构等生态。可以看到开放将会是未来的一个趋势,一方面行业政策及监管正在推动行业集约式的基础设施、行业开放平台;另一方面供应商也在推动开放型的平台生态。企业的运维预计也可能走出企业,融入到开放的生态。

3.场景成熟度评价

由于生产运行数字世界复杂性持续变化,大部分运维场景是一个持续优化的过程,我们认为运维场景成熟度可能围绕线上化、自动化、数字化、服务化四点进行评价。运维组织可以持续对场景的四化进行评估,分析是否可以在某个化上对“组织、流程、平台、场景”的能力进行提升。

线上化是进入运维数字世界的基础。场景与传统经验驱动的工作,最大区别是场景要求工作中的“人、事、物”与“工具平台”是全在线连接的,只有工作在线了才能落地生产运行过程的数据资产,让组织、流程进入运维数字世界中。线上化要求将运维工作场景标准化、规范化、在线化,比如线上化应急处置、监控管理、值班管理、预案管理、演练管理等场景。虽然线上化能够带来一些便利性,但因为规范化的线上化工作需要改变运维人员的工作习惯,对于当前组织是一个比较大的冲击,可能会引发组织一线员工的排斥,需要获得组织决策层的支持。

自动化为运维提能增效、降低风险。自动化通常针对规律性、重复性、操作性、大计算量、沟通成本高、可靠性要求高等工作,通过机器或人机协同的方式代替纯人工操作。在线上化的运维场景中,需要对场景中人工交互的步骤标准化,每个标准化步骤要想办法由机器自动化,如涉及多个标准化步骤则对步骤进行编排。在具体自动化的选择上,一方面要善用已有的“监管控析”运维平台;另一方面也要使用好企业内的工作协同工具,比如chatOps上的机器人、RPA等流程自动化相关的机器人、相关工具的开放服务。在技术上,可以考虑建立事件驱动的模式,支持过程步骤的编排。

数字化赋予场景“感知、决策、执行”闭环的数据驱动能力。全数字化场景下,运维工作场景应该是建立一套规则明确、条理清晰的流程节点串联而成,每个流程节点会自动化驱动后面的节点。也就是说,当前节点基于数据感知输出的决策不仅仅是辅助建议,而应该驱动决策和执行行为,这个过程无需人工干预。在实际推进中,可以将上面的全数字化场景的每个节点细分“感知、决策、执行”3个步骤,其中感知关注在线的数据洞察,或理解为通过数据可视化发现问题,比如辅助故障定位涉及的重要系统上下游链路全景、交易系统业务订单全景、系统运行状态感知、业务性能感知等数字化应用。决策关注基于数据驱动的决策支持,当前主要是利用已知规则,或AIOps智能算法,提供辅助决策或自动化决策。感知输出问题,决策产生任务,下一步是要让决策任务能够得到有效执行与落地。

服务化是运维向一切皆服务的价值交付模式转型。被动一词很好的体现了传统运维的工作状态,很多运维团队以事件驱动的被动操作为主,这种工作方式会导致运维人员的工作无法连续性,服务交付碎片化,IT资源缺乏统筹协调,不利于组织能力的持续提升。服务化要求运维组织建立“一切皆服务”的价值交付模式,包括在组织层面精细化分工,引导客户服务意识,标准化IT服务,建立在线的服务交付能力。在基础能力上,运维可以将底层“监管控析”平台能力API化,上层通过可视化看板、数据指标、工具应用、IT服务台等形式,通过服务目录方式为用户交付运维服务能力。

(end)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-12-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 运维之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.场景概述
相关产品与服务
Prowork 团队协同
ProWork 团队协同(以下简称 ProWork )是便捷高效的协同平台,为团队中的不同角色提供支持。团队成员可以通过日历、清单来规划每⽇的工作,同时管理者也可以通过统计报表随时掌握团队状况。ProWork 摒弃了僵化的流程,通过灵活轻量的任务管理体系,满足不同团队的实际情况,目前 ProWork 所有功能均可免费使用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档