专栏首页运维之路IT运营转型中的ITOM

IT运营转型中的ITOM

最近着手进行ITOM工具体系建设,在运维的组织,流程,工具中,工具体系提供支撑作用,不仅要为组织/人、流程的有效的落地保驾护航,还要支撑运维向IT运营的转型。研究IT运营是采用“以终为始”思路,从业务角度指导工具体系的建设方向,分析团队转型需要什么ITOM工具,有助于构建一个高可扩展性的工具体系。

本篇从传统运营管理出发,分析运营管理关键要点,再类比到IT运营,最后从“控底线、优服务、提效能、降成本”四个实施方向看看ITOM应该为IT运营转型做什么、如何做。

2.5.1 解读运营

关于运维向运营转型的话题很多提出来,但真正介绍如何IT运营的则不多,陈傲寒在2016年写过一篇文章《IT:从运维到运营》,虽然己过去1年多,仍是我读过最好的一篇,全文从企业、运维组织角度分析什么是运维、什么是运营,再将运营分解到领导、员工等不同角色上的理解与落地的方向。另外一个例子是腾讯游戏在多个运维分享的场合提到过IT运营,以及他们在成本、工具等层面的运营案例(可惜没有找到更多关于他们IT运营模式的细节)。

由于我主要的经验来自传统金融的业务运维及ITOM工具建设经验,我觉得更务实的角度看,传统的底线保障、IT服务、成本管理仍应该作为IT运营的主要内容,腾讯提到的运营案例方向更多的是作为一个锦上添花的补充。所以,本章将从我擅长的ITOM工具建设的技术角度对IT运营进行研究,解读一下传统运营管理和IT运营。

2.5.1.1 什么是运营管理

现在提得比较多的运营管理是互联网的产品运营方式,主要是2C的运营管理。金融企业的IT运营主要是内部管理方向,所以我们来看看传统的、面向内部管理的运营管理概念,在《运营管理(原书第十一版)》(蔡斯等著)中这样表述:“对企业生产、交付产品或者服务的系统进行设计、动作以及改进”。知乎上有另一个更通俗的解释:“以盈利为核心,搭建一套可以从战略到目标、目标到计划、计划到执行的运营管控系统,建立一套标准的执行机制、一套标准的协作系统以及一个以结果为导向的企业文化系统。“

以下从《运营管理(原书第十一版)》书摘出一个故事可以更好的理解运营管理:

进步保险是美国一家知名的汽车保险公司,1991年公司的销售额是13亿美金,2002年是95亿美金,分析发现近7倍的增加的主要原因并不是因为产业的迅速增长、或开发了一个很好的新保险产品、或采取了国际化,或雇佣了强大的销售团队,或收购了其它市场,或大量投放广告……真正的原因是他们有一个更好的保险财务绩效指标(赔款额除以保险金),大致的数字是主流保险公司的比率是102%(靠其它投资弥补这个损失),进步保险的比率是96%波动。这个比率的成功关键是,进步保险有更好的运营管理,它提供的产品价格低,服务好,把顾客从其它对手中吸引过来。比方说他们引入了“立即响应”的理赔系统,即更快到达现场,更快理赔,因为理赔更快,索赔人不用多费口舌就能得到更快速服务,可以减少因为不满意而解除与进步保险的服务,服务周期也降低了进步保险公司成本,更快的到理赔也推动了现场理赔检测欺诈能力的提升,参与理赔的人少了,甚至索赔金额也降低了,因为索赔人更快得到赔偿的同时也会接受较少的赔偿金。

从上面例子可以看到,运营管理主要目标可以从提升业绩、提高效率、降低成本、提高服务、风险控制等多角度开展,总结运营的关键要素可以是:质量、效率、成本。在这三个关键要素的实现方向上,感谢谢老大(现在是谢行)从银行业务运营角度给我一个总结:”控风险、优服务、提效能、降成本“,这个总结也适用于后面的IT运营。

2.5.1.2 什么是IT运营

IT组织里不同团队通过不同的方式支撑业务发展,比如研发团队从业务系统或项目方面支撑业务运营,大数据团队从业务数据产品支撑业务运营,传统的运维团队以生产保障的方式支撑业务运营。讨论运维到IT运营转型,一要与研发、业务大数据等团队有区别与互补,二要在原有的生产保障上有升级,这需要利用IT运营组织自身特点来探讨IT运营,才是一个务实的方式,才有落地的可能性。

传统运维过程中,我们可能主要以“数据不丢,系统不宕”这类运行保障类的目标来定义IT运维,傲寒在《IT:从运维到运营》中提到“运维“的关键词是”稳定、安全、可靠“,IT运营的关键词是”体验、效率、效益“,将这几个关键词与上一节提到的传统运营管理关键要素”质量、效率、成本“对位有以下映射:

缺少的”成本“可以考虑再提出,事实上傲寒在文中也提到了成本方面的工作思路。这个角度看,业务运营中的”质量、效率、成本“的三要素依然适用于IT运营管理领域,所以,参考业务运营管理的概念,我为IT运营归纳一个定义:以业务为本,以稳健运维、风险可控为底线,从组织、流程、工具三个维度构建一套标准化、可扩展性的运营管理体系,持续提升服务水平,提高企业效能、降低成本

IT运营的技术实现思路可以参考上一节谢行提到:“控底线、优服务、提效能、降成本”4点(“控风险”转为“控底线”),其中“控底线”主要指以运行保障、风险管控底线角度出发,一方面是精细化底线工作,通过业务可用性、连续性建设、事件应急管理、风险管理等维度进行持续完善,另一方面是通过工具手段促进精细化程度的落地、提高工作效率,释放人力资源,为其它IT运营工作提供人力基础;“优服务”主要指以IT运营服务角度,建立公司IT服务的统一入口,一方面丰富IT服务目录,提高服务质量,另一方面还需要主动进行运营数据分析,主动为业务运营提供分拆支撑;“提效能”主要是从IT内部的效率与效益上不断优化,其中效率主要体现在交付速度,效益则关注做正确的事与量化产出;“降成本”从两个角度进行优化,一是IT自身的成本优化,比如通过对容量的分析来优化IT投入,二是对业务成本优化提供技术或数据支撑。

2.5.2 ITOM如何支撑IT运营

这里提到的ITOM(IT运营管理)工具体系主要包括“监、管、控、析”+“可视化”,其中“监”是监控体系,“管”是基于ITSM为核心的管理体系,“控”是操作自动化,“析”是运营数据分析,场景可视化则是关注可视化整合及管理自动化等场景。

以下在分析“控底线、优服务、提效能、降成本”4个指导思路中,会结合ITOM的实施思路进行分析。

2.5.2.1 控底线

所谓底线,即超越了这个界限,事物就会发生质变,产生不可估量的危害,IT运营组织是企业业务连续性的IT保障部门,业务中断或体验下降都预示着企业资金的损失、用户的流失、监管的考核等风险。所以IT运营组织最最重要的还是要守住基本底线,再考虑底线基础上追求“高线”,即需要先有底线思维,明确哪些工作是组织必须达标的工作,再考虑服务、效能、成本。

从IT运营角度看底线的管控,要了解哪些工作是底线,加强底线工作范围的精细化程度,同时底线的管控并不代表IT运营组织的消极被动,而是奋发向上的积极防御性思维,底线发力,通过工具建设提高IT运营底线工作更好的落地,将更多的人力从底线保障工作量中释放出来,去追求IT运营的“高线”。

以下从运行保障、风险管控两个角度分析精细化与释放人力。

1)运行保障

前面提到“控底线”首先要知道IT运营组织的底线是什么,哪些事情必须要完成,哪些事情不能做,哪些问题是正常的,哪些问题不能出,这样才能从容应对,掌握主动,关于运营底线归纳四点:“业务为本、运行可控、数据不丢、系统不宕”,以这个思路进行扩展,IT运营的运行保障底线大致可以分为:

本节主要对第一点流程机制的健全进行分析,可用性保障、应急保障、常规例行保障三点在我在公众号另一篇文章中有涉及(《确保运维底线能力》)。

无论是传统企业或互联网企业,只要IT运营组织,在人少时可以无为而治,依靠通领导个人魅力,成员的自律或经验去完成运行保障工作,随着组织成员的增加、人员流动性靠自律与经验的工作方式将会产生极大的风险隐患,所以底线思维看IT运营,首先要持续完善组织的流程机制,不断提高工作标准化的覆盖面,IT运营的机制大致可以分为:

  • 解决过程管理机制:问题管理、事件管理、服务请求管理、服务台管理
  • 服务交付管理机制:服务目录、服务水平管理、容量管理、资源管理、服务连续性和可用性管理、信息安全管理
  • 关系过程管理机制:业务关系管理、供应商管理
  • 控制过程管理机制:发布和部署管理、变更管理、配置管理
  • 其它管理机制:日志管理、监控管理等

有了上述各个维度的规章制度还不够,还需要考虑规则的可落地性,可以考虑将规章制度作为底线,在不同的工作场景下整合各类规章制度,形成工作管理办法,比如为了加强ECC的应急管理建立ECC管理办法,对ECC日常值班、协同办工、一二线运维、监控事件处理、故障升级等工作进行标准化,替代成员自律或经验形成的工作方式。

流程的引入与提高工作精细化程度,必然会导致团队工作量的提高,底线管控的同时还要提高工作效率,释放常规的运行保障的工作量。关于提高工作效率,经济学家亚当·斯密在《国富论》提出了专业化分工的方式来实现,他认为专业化分工能最大程度的改进人力效率以及提高人员的熟练、技巧和判断力。良好的IT运营组织需要有纵向的职能型团队进行专业的运行保障工作,也需要横向的服务团队支撑运行保障工作的工作效率与工作质量,横向的服务团队可以为纵向运营团队提供IT服务支撑。

从ITOM的工具建设看,运维开发团队属于横向服务团队,团队需要将日常将底线运行工作的最佳实践进行总结归纳,通过工具模拟运维人员手工处理的操作性工作,以辅助或替代运维人员更高效、更安全可控的进行运维,比方说可以着手做以下工具替代经验操作:

l 变更类工具:应用发布、系统软件补丁安装、桌面软件安装、桌面或服务器策略下发等

l 检查类工具:开业巡检、开关机检查、应急手册查询、日志查询、数据查询等

l 执行类工具:开关机执行、业务定时调度任务集中工具、临时远程脚本执行、远程命令执行、数据维护工具等

l 应急类工具:应用服务启停、操作系统启停、主备切换、灾备切换、一键切换等

l 风险控制类工具:堡垒机等

除了操作自动化,还需要通过监控工具提高系统运行掌控能力,通过ITSM提高组织运行保障的标准化,通过运维数据分析与可视化提高数字化程度。

2)风险控制

IT信息风险控制的目标是:保障数据安全,防止人息泄漏,并强化对信息资产的保护能力,确保业务稳定持续运营,提升对业务创新的力与合规性要求的落地能力。我们这里提到的风险控制,主要指信息系统运行阶段产生的风险,即在日常运维或运营工作中,由于管理、技术或外部事件对软硬件运行稳定性造成的威胁,覆盖从系统从交付到生产后的整个生命周期。风险的源头可能来自组织内的人员意识和技能等,内部管理程序的不完善或不合理,系统高可用或受外部事件攻击或影响。

为更好的说明上面的风险控制,以下总结风险控制的能力覆盖内容:

主要是上层提供可配置的策略管理、安全感知、合规审计能力,下层以防特权、防泄露、防攻击作为支撑。

与运行保障一样,ITOM工具的建设需要促进风险管控的覆盖面与覆盖能力。从工具体系看,我们建立统一的标准化,比如所有操作的留痕,统一的身份认证,工具的API管控等,再引入不同的工具提高覆盖面,比如堡垒机、文档管理、操作日志分析等。有了各类工具后,还基于ITOA的方法论,需要通过收集安全设备、服务器、网络流量、数据库、应用、用户等的事件日志、工具数据,设置关联告警分析模型,实现安全威胁的智能感知。

2.5.2.2 优服务

IT运营组织以IT服务输出的形式,为企业里的非IT部门提供IT支撑,优服务即提供更快、更好的服务交付体验。不同岗位的IT运营人员需要根据岗位特点主动丰富服务内容,并通过工具在优化服务体验的交付,即从IT服务的广度增加IT服务目录里的服务范围数量,再从IT服务的深度细化具体服务的能力,细化服务内容将有助于服务的标准化,并通过工具辅助服务的落地,为用户提供数据化体验。以下从建立主动服务文化、丰富服务内容、服务工具化、形成服务持续优化闭环4方面进行讨论。

1)建立主动服务文化

以往运维人员的工作主要是以事件驱动的被动操作为主,即服务消费方找到具体的运维人员处理,部份运维人员可能有帮别人解决问题的心态,这种工作状态效率低下、服务交付碎片化、IT资源缺乏统筹协调,无法形成整体合力。作为企业里的后台服务团队,IT运营团队为企业的业务、应用、所有中前后台人员提供IT服务的团队,需要在IT运营组织中强调主动服务的意识,建立主动服务的工作文化。要建立主动的服务文化可以考虑以下几点:

首先,要理解自己。要让IT运营组织的成员理解企业、IT运营组织在企业的核心价值是以业务为本,为业务更好的运营提供IT支撑。同时,要让IT运营组织里不同的团队清楚所在岗位的具体职责,理解哪些重要的IT服务能力,哪些是工作底线,针对底线的服务能力需要标准化,并通过数字量化到KPI,建立服务能力的及格线。同时,要在底线的基础之上,不断的优化服务能力,由围绕运行保障的能力基础上丰富到其它IT服务能力上。

其次,要理解服务消费方。团队成员要理解服务的消费方是谁,消费方有什么诉求,比如业务运营的团队的主要消费方是业务人员,业务的诉求是业务的连续性,更高效IT资源支持;DBA的主要消费方是业务运营团队,业务运营团队的诉求是数据库的高可用、高性能,出问题时快速的数据库问题定位所需的工具支持;运营工具开发团队的消费方是业务、系统、硬件、网络的纵向运营团队,他们的诉求是需要更快的拥有IT工具支持。

再次,要有一个可持续性优化的工作机制。要形成可持续性的优化机制,不仅需要在日常运维工作过程中反复的强化组织成员的IT服务意识,形成主动服务的思维方式,还需要借鉴PCDA的思路,自顶向下,将服务文化转化为可落地的服务丰富计划,将IT服务能力进行量化,持续评估服务能力的交付效果检查服务文化的落地情况,形成一个可持续性优化服务的工作机制。

最后,提供服务文化要有体系支撑,该标准化的需要标准化,避免无原则性的服务供给。比方说,业务或研发团队肯定希望变更交付越快越好,但IT运营团队需守住业务可用性保障的底线,有些计划性的流程还是必须要有,我们在实施上要多考虑计划性,比方说CAB的计划评审机制就需要在多个层面让业务、研发、测试提前知道相关规则,让他们能提供做好计划来适应这个规则,可以考虑在公司内提前修改应用变更管理办法,每一年、每个月根据实际情况提供更细化的CAB计划。

2)丰富服务内容

丰富服务内容包括服务广度与服务的深度,服务广度即服务类型的数量的提高,服务深度即服务质量的提高。

丰富服务的广度,首先要大概知道IT运营过程中有哪些服务,比方说用户类的、数据类的、资源类、办公支持类、权限门禁类、资产管理类、运维开发需求类、自助服务请求类、其它常规工作类等等。上述服务可以通过在IT运营组织内建立统一的IT服务目录作为入口,每一位服务提供人员都是IT服务目录的牵头人,参与服务交付的设计。通常来说,服务提供方更清楚自己的能力,能接触更多服务消费方,比方说办公支持的运营团队需要主动收集用户对办公方面的服务需求,中间件管理员需要总结应用运维人员经常需要哪些中间件方面的服务需求,应用运维人员需要梳理各类用户对应用或数据层面的服务需求等等。

丰富服务深度,需要对服务能力持续的总结,梳理服务从申请到交付整个过程的最佳实践,将经验标准化,寻求更高效的解决方案。同时,运营人员优化服务体验时要多从服务消费方出发提供体验更好的服务交付方式,以面向IT组织内部的服务与面向企业内IT部门以外的服务为例,两者区别主要是后者更关注服务的结果,他们对技术语言的理解能力层次多样化,往往是采用自然语言的方式获取IT服务,像一个新入职的业务人员想要IT运营组织为他办理入职所需要的IT环境的服务,他是不希望了解服务目标中细化的办工机器申请、电话申请、终端IP服务、互联网权限、OA权限、文档协作权限等服务,为了更好的优化服务,可以为非IT人员提供面向自然语言的IT服务入口,如下图所示:

3)服务工具化

在人力资源基本不变的情况下,既要提供更多的IT服务,又要提高服务质量,就需要服务工具化来提高存量人力资源的单位产出。服务工具化可先将服务标准化,再将标准化服务通过自动化实现,最后通过场景整合自动化服务。

  • 服务标准化

服务工具化的第一步是服务标准化,以往运维人员专家意见式的服务提供容易产生千人千面的情况,不仅影响服务的体验,还不利于将服务的交付实现自动化,以申请一台LINUX操作系统环境的资源申请为例,资源处理的人员需要确保知道资源处于哪个网段,安装什么操作系统,操作系统大版本号是什么,小版本号是什么,部署在测试还是生产环境等基本信息,与资源集群的其它资源在哪个区域以评估高可用等信息,在资源处理置完之后还要将相关配置信息推送到CMDB,如果这个资源的申请是靠经验的方式供给,很容易出现申请人漏提供而反复沟通或因申请内容不完整导致的资源交付不符要求的情况。

从上面资源申请的角度看,服务的标准化有几个好处:

  • 让服务交付更加有序,质量更高;
  • 有助于减少交付过程中的沟通成本,提高交付成功率;
  • 服务标准化后可以将通用的模块进行横向的分离,服务供给方专注于个性化部份的实现;
  • 有助于细分服务原子,并进行针对性的自动化,类似宜家的打包都是可以扁平化进行打包运输的思路;

概括的说,服务标准化是在全局层面将服务的交付统筹管理,在服务具体内容层面细分服务交付流程,流水线方式处理服务。

  • 服务自动化

服务标准化是自动化的基础,将多变的服务需求从申请、受理、交付进行分解,抽象为流水线式的服务模型,自动化是对服务模型进行工具化的第一次落地。

从自动化层面看,可以有平台能力与工具能力,平台能力适合通过集中资源来实现,比如服务功能上的统一认证、统一入口,服务目录,服务反馈、服务能力评估等,这类模型可以考虑在ITSM上实现。工具的能力主要是针对服务交付过程中流水线的处理手段,将处理的方法采用最佳实践的方式用工具固化下来,以提高服务处理过程中的处理效率与处理质量。另外,服务自动化的过程还可以消费其它自动化工具的能力,从而提高服务的交付质量,比方说可以在服务台中对接经验库服务,在变更交付服务中关联架构管理工具或监控工具等都将让传统线下经验运维的交付质量大大提高。

  • 服务场景化

服务的自动化是工具化的第一次落地,接下来要根据服务交付的场景对服务自动化工具进行整合与封装。做工具的同学很容易将工具做成完成一项局部的操作自动化,而实际的自动化应该基于场景,一个场景下又通常是由多个自动化工具结合经验组成,即将消费与供给双方、某个特定的时间、多个工具进行整合。

在服务交付场景化的粒度选择上需要视实际情况进行判断,建议采用2/8原则对于80%的通过场景进行组合形成通用场景,比如新员工入职场景将各类资源与用户的申请整合,新应用上线场景将软硬件资源、配置等服务整合。

4)形成服务持续优化闭环

“优服务”是一个改进服务的目录,要判断服务是否进行了优化,需要有一个服务质量可量化的数据和可持续改进优化的机制。

建立一个服务质量评估优化的数据分析统计,分析统计可以结合历史统计与实时的数据分析,甚至可以整合自动化服务改进动作。质量数据分析需要有服务运行数据的采集,有历史服务质量数据的波动曲线,有服务质量历史交付基线,当实时服务质量下降时需要有服务预警或上升机制。比如,基于ITSM统一服务管理需要对服务工单的持续解决时间进行监听,当解决时间超过提前制定的服务紧急程度升级时或超过SLA签订的要求时,由工具提供升级后的动作,比如发邮件给领导,或采用自动拨打自助电话给处人等等升级策略。

IT服务质量是运营一项重要的KPI指标,应在管理上建立各项服务质量要求,并将一些标准化的服务要求规范化,持续运营分析服务运行状态,最好是专人专项的进行分析与优化的落地,这也是对服务能力的运营过程。

2.5.2.3 提效能

这里提到的效能,在百度百科的定义是:有效的、集体的效应,即人们在有目的、有组织的活动中所表现出来的效率、效益。我们可以这样理解:效率是指单位时间完成的工作量,即提高IT运营组织每个人的工作产出,或利用IT服务提高企业其它组织的工作产出;效益是指一项工作的成效成结果,即提供了正确的服务,服务的产出符合企业及IT的发展目标,且服务的效果与利益可量化。总的来说,效率和效益都是IT运营组织最终目标。

  • 做对的事

提效能,首先要做对的事,即为组织或企业产生真正有效益的成效,比如 IT运营组织的底线生产保障能力的落地、为业务提供IT资源服务、为业务提供IT运营分析服务都是产生效益的手段。为确保做对的事,需要明确企业的发展方向,IT运营组织在企业的作用,组织的底线能力及服务水平要求,再有针对性的进行IT运营能力建设。

有了正确的方向后,运营组织要统筹建设,保持团队向心力,提高扩展性。以运营工具建设为例,很容易出现百花齐放的的现象,烟囱式的建设,这种建设方式适合短期的运维需求,短期看投入成本低,收效快,但这类工具不具备扩展性,当规模增大时往往会成为负担。造成这种问题的原因通常是因为缺乏整体的规划,为了追求短期效率,放弃了必要的标准与规范的基础性建设。所以说,运营工具开发团队要兼顾全局目标与短期需求,制定一个整体性的解决方案。

IT运营组织还需要将工作精细化,鼓励纵向的职能团队持续审视工作能力与工作效益,提出优化建设措施,建立横向的专项团队提供技术或数据分析支撑,从管理、技术等手段辅助职能团队提高工作效率,提供更多、质量更高的IT效率的输出。

  • 用正确的方法做事

IT运营组织内的效率提升措施主要通过工具落地实现,比如操作自动化是为了模拟人日常工作的动作,减少重复性的操作运维或一次性在大量运维对象上所作的操作运维;监控自动化是将运行状态的检查实时化,减少日常例行巡检的工作量等。

为运营组织外的消费方提供IT资源支撑,一是要更快的解决消费方对工作效率提升的具体诉求,更快的满足他们的需求;二是主动的挖掘影响他们工作效率的因素,主动提供提高他们工作效率的解决方案。从IT角度,在提高工作效率层面上,我们有资源与技术优势,一方面我们接触生产,有运行过程中的第一手资料,另一方面我们更懂计算机,知道什么样的工具或功能优化是能做的,如果我们IT运营的人能够主动去找业务沟通,引导业务将业务效率上的痛点转化为IT运营服务需求将大大提高工作效益的输出。比如说让业务运营的团队每个月与业务部门同事建立提高工作效率的沟通机制,利用业务操作运行的数据分析潜在影响效率的环节,为业务提供运营角度的IT数据报表,挖掘业务痛点都会是一个好的实施手段。

2.5.2.4 降成本

在IT项目的生命周期中,大约80%的时间与IT项目运营维护有关,作为企业信息化系统生命周期最长的环节,有效的成本管理,将是IT运营的一个重要工作内容。以下从成本的体现范围、成本优化的困难、降低成本的几个方向三点进行分析:

1)IT运营成本体现在哪些方面

IT运营组织在企业里是后台支撑性部门,从部门定位上是偏成本的部门,运营过程中承担着各类成本,有硬件资产类的成本,比如机房、电、硬件服务器、服务器内的资源、运营商带宽等;有软件类的成本,比如虚拟化、系统软件、数据库、中间件、应用系统的维保、许可等;运营工具项目成本,比如监控、ITSM、自动化、日志工具等项目建设成本;有人力资源的成本,比如运营组织内部人员,关联供应商、外包合作方的人力。对IT运营成本的管理是指在保障企业业务稳定、安全、有效运行的基础上,通过规范IT运营能力,优化资源配置、提高运营效率,从而达到降低IT运营成本的目的。

了解IT运营过程中承担的成本,接下来我们看看成本优化过程中通常会遇到哪些困难。

2)优化成本的困难

  • 运营目标定位不明确,缺乏对中长期成本管理建设

业务人员在使用饮水机、打印机、电话机、电脑终端过程中遇到问题,IT运营人员是否要支持?是否和电有关的问题都可以找IT运营人员?这类工作如果做当然能提到IT服务满意度,但把IT运营这类专业性较强的员工安排做这类琐碎的工作投入产出比并不高,这类工作更适合由物业或后勤专职的人去做。出现花大力气做这种不擅长工作的问题,主要是对IT运营组织目标定位不明确,成本范围优先级不清晰导致,。

另外,前面提到要构建一个扩展性强的ITOM工具体系,需要自顶向下,建立整体规划。比如企业IAAS云的建设需要在前期投入基础性的软硬件建设,在IAAS云运营阶段也需要计划性的资源池规划实施,才能更好的进行资源配置,优化成本管理。但现实中,很多企业的成本核算是采用谁支出谁负责,这就导致IT资源投入比较零散,很难进行整体的优化建设,这种“头痛治头、脚痛治脚”的资源管理模式看起来投入短期内支出小,但长期看来会导致大量的资源浪费,成本更高。

  • 缺乏成本管控的标准化流程控制

前面提到IT运营组织以IT服务方式为企业提供IT支撑,需要有完善的服务流程对服务的申请、受理、交付、反馈进行整合。但很多IT运营组织因为工作的数字化程度不够高,标准化的流程不够,管理层的精细化要求无法有效落地,IT人力资源成本居高不下。以问题咨询为例,很多应用运营人员每天都会被动的被各类临时性问题所困扰,一方面运营人员无法集中精力做一项计划性的工作,主要做一些治标不治本的事情;另一方面容易形成了信息孤岛,工作效率与质量无法量化;同时,专家式处理的方式缺少明确的升级标准、合理的优先级机制、问题持续跟踪与优化的机制,服务满意度下降。

  • 缺少成本分析与优化的工具,无法量化并提升成本管理水平

要做好成本管理,需要反映成本的数据,并能将实时成本与历史成本管理水平交叉比较的可视化工具。由于很多IT运营组织并没有进行建立成本分析工具,而是通过几个专家粗略的预期方式进行成本管理,这种基于专家经验的成本管理方式很容易出现成本预估过大或不足的问题,无法直观准确的量化实时成本与历史成本的趋势,也就无法有针对性的进行成本的优化工作。

3)如何优化成本

  • 制定合理的IT运营定位,整体规划,提高数字化程度

从公司发展方向与技术能力角度,明确IT运营组织的定位与建设目标,制定适度的IT投入规模,从管理与技术两个角度整体规划,选择合适的落地方式。数字化程度的提升可以将清晰的看到IT投入的效能,有效的保证做正确的事,需要从管理与技术落双管齐下,将管理手段平台化,技术手段指标化,让不同角色的人具备全局把控和局部深入的能力,比如将IT运营组织关注的服务响应时间、可用率、故障处理时长、服务工单数量、业务用户的满意度等进行量化,甚至将量化数据作为KPI的参考值,推动IT运营组织持续提升IT运营水平。

  • 专业化分工,标准化IT服务流程

以往个别运维人员面面俱到的专家式运维导致工作单点瓶颈,沟通成本过高,需根据团规模适当的进行专业化分工。专业化分工以纵向+横向的管理方式进行建设,纵向偏职能型团队负责延续各专业线的主要职能,横向的项目型团队集中资源负责支持并推动职能型团队提高工作效率,提高效益。专业化的分工有助于专项进行成本优化,比如负责IT资源平台团队建立资源交付与管理的工具平台,负责具体资源交付的团队基于平台提供的能力加快资源交付效率,同时也可以通过平台评估资源使用水平,针对性的进行资源成本优化分析。

专业化的分工的同时,需要建立标准化的IT服务流程,确保IT运营工作有序高效的落地,标准化的流程的选择可以考虑以传统的ITIL、ITSS等为基础,结合企业文化特点个性化调整,在实践中不断完善组织内的日常工作机制。比如前的生产问题管理的痛点,可以考虑设立IT运营服务台,可以将运行值班、故障监控、接受请求、工单派发及问题解决过程中的监测等工作内容集中在服务台,这种流水线式的工作一方面将部份运营人员从被动式的工作分离出来做计划性的优化工作,另一方面流水线式的工作方式有助于经验的积累,丰富知识库,集中资源进行服务优化工作,有助于工作效率与质量的提升,同时这种工作方式也可以打破原来信息孤岛的情况,鼓励信息共享,文档管理,减少因个别人员流失导致的组织服务能力缺失的风险。

  • 针对性的进行成本分析,持续优化成本管理

成本的优化需要工具的支持,要量化IT运营成本的投入的数据,评估成本的水平,也要有具体的工具进行成本的优化,以如自动化工具的引入可以将运营人员重复操作性的工作通过工具模拟,提升单位人力的产出,释放人力,让人力资源可以做更多的事性,弹性的IAAS与PAAS平台有助于硬件资源的配置。

另外,组织还要推动成本优化的文化,鼓励或奖励专业条线的运营人员主动进行针对性的成本分析,评估成本支出的趋势,并针对性的推动成本优化,比如应用运维人员可以分析IT资源与网络带宽的使用,评估是否可以缩容,甚至可以从应用架构或设计角度评估优化资源使用的可行性,比如采用CDN减少网络投入,互联网访问方式替代专线,采用微信或消息推送减少短信的投入,优化图片格式减少带宽使用等等。

  • 由成本中心向效益中心转型

前面三点是针对IT运营组织自身的成本优化,质量的提升,最后一点从提高投入产出比角度出发。以往IT运营组织是一个成本中心,即只花钱不带来效益的团队,这点与业务部门相比尤其突出。针对这个问题,有两个思路可以借鉴:一是像腾讯提到的,通过主动的对应用运行数据进行分析,提出优化决策信息,辅助业务更好的开展,或为业务人员快速构建自动化工具(偏管理自动化),提高业务人员工作效率;二是像一些大型的金融企业建立行业云,提供多租式的方式,为同业进行IT服务输出,或建立集团云或工具体系,为子公司提供IT服务支持,扩大IT服务范围。这两个思路都值得作为ITOM走向效益中心的建设方向。

来作个总结,IT运营以业务为本,以稳健运维、风险可控为底线,从组织、流程、工具三个维度构建一套标准化、可扩展性的运营管理体系,持续提升服务水平,提高企业效能、降低成本。

在ITOM工具建设过程中,以“控底线、优服务、提效能、降成本”作为实施的业务指导思路,它要为组织架构调整、流程标准化、运行保障、效率提升、服务交付、成本优化提供技术支撑。

本文分享自微信公众号 - 运维之路(HuashengPeng001),作者:彭华盛

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-08-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • IT运维支持如何转化为服务

    关于IT服务能力的介绍,本期标题中主动式、可量化、构建IT运营服务三个关键词概括了我对IT服务能力的理解,其中IT运营服务在上一篇《IT运营转型中的ITOM》作...

    彭华盛
  • IT运营数字地图,连接未来

    复杂的真实世界需要地图化繁为简,作为更为复杂的IT世界的IT运营工作者是否也需要有一个数字地图,用于向下连接IT资源,向上连接“监、管、控、析”各类IT...

    彭华盛
  • 数字化杂谈(一):聊聊与数字化相关的定义

    数字化热度很高,行业大佬都在提数字化、数字化转型、数字孪生,或包装后的数字助手、数字员工、数字人、数字机器人等话题,但细心的人会发现话题中很少提及数字化相关的定...

    彭华盛
  • 云计算应用 企业IT战略五步走

    据国外媒体报道,市场研究公司IDC描绘了企业把云计算作为自己IT战略核心组成部分必须经历的五个阶段。这段旅程首先以小规模的探索一些具体的项目开始,然后达到混...

    静一
  • 云计算的成熟过程:一段搅动IT领域的历史

    随着云计算技术的深入应用,在IT领域,云计算主要的市场驱动力是提高IT资源使用管理效率、优化业务稳定性和安全性、实现从IT架构管理到IT服务自动化交付、释放更多...

    静一
  • 云计算和成本:爱恨交织的关系

    在企业高级管理人员的眼中,云计算通常被认为是一个给定数字化策略的基础。它通常与IT模式已知的前瞻性属性相关联,例如更大的灵活性和敏捷性,更快的上市时间,并成为业...

    静一
  • 第二十四章:SpringBoot项目整合JPA多数据源配置

    恒宇少年
  • Gartner为何瞧不上微软和谷歌的IaaS?

    看资讯要看评论 科技独立评论号 ? 今天偶然看到一则有意思的新闻,说的是Gartner瞧不上微软和谷歌的IaaS。Gartner预测十年后的云计算市场: Iaa...

    企鹅号小编
  • 深度学习有什么问题?

    在本文中,我想将经典数学建模和机器学习之间建立联系,它们以完全不同的方式模拟身边的对象和过程。虽然数学家基于他们的专业知识和对世界的理解来创建模型,而机器学习算...

    商业新知
  • springcloud学习手册-Eureka?

    实现Eureka服务注册中心,服务端、客户端 一、Eureka为Netflix开源软件,它可分为三个部分组件: ? Eureka服务注册中心:用以提供服务注册、...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券