作者:陆兴海 彭华盛 编著
来源:大数据DT(ID:hzdashuju)
人们对新事物的认知过程总是螺旋式迭代演进的,对于智能运维也是如此,智能运维是运维发展的方向,而且是一个长期的过程—从经验主义到数据驱动,再回归到业务驱动的过程。
从2016年对于Gartner的概念的理解,到之后每一年不断的探索与实践,到2020年,在笔者参加的智能运维国家标准编写组会议上,行业内达成了高度的、更加面向现实的共识:以数据为基础、以场景为导向、以算法为支撑,如图2-1所示。
▲图2-1 行业对智能运维发展演进的理解
智能运维一定来源于非常好的数据基础,同时,如果没有明确的业务场景,或者需求,或者功能方面的落脚点,所谓的智能化就是为了AI而AI,也没有意义。工程化算法是要拟合数据的,根据数据和场景需求才能选择或研发合适的算法。只有具备上述三个条件,才能真正形成一个工程化落地的智能运维,如图2-2所示。
▲图2-2 “三架马车”工程化落地的智能运维
需要着重提及的是,以往很多用户忽略了作为智能业务运维“基石”的运维数据的重要性。
为切实落地企业的智能业务运维规划,一方面要强调运维数据的基础作用,另一方面要形成运维数据治理与应用的全局体系,围绕规划、系统与实施三个核心阶段工作,面向运维数据的全生命周期与业务导向结果,从数据的整体规划、运维数据源、数据采集、数据的计算与处理、指标管理体系的规划与实施、专业运维数据库的建立、数据的典型应用场景等多角度进行思考。
但需要正视的是我们对运维数据的认识及应用还处于皮毛阶段,虽有理念但缺乏必要的、可执行的方法。随着运维数据平台的建设,将极有可能出现当前大数据领域出现的数据孤岛、数据不可用、数据质量不高、融合应用难、有数据不会用等诸多问题。上述问题,在当前运维领域资源投入不足时显得尤其重要。
借鉴大数据领域数据治理的经验,反思运维数据平台建设应该关注的问题,减少不必要的坑,做好运维数据治理,让运维数据更好用、用得更好,完善运维数字化工作空间。
在运维领域,运维数据分布在大量的机器、软件和“监管控析”工具上,除了上面大数据领域提到的数据孤岛、质量不高、数据不可知、数据服务不够的痛点外,运维数据还有以下突出痛点:
一、资源投入不够。
从组织的定位看,运维属于企业后台中的后台部门,所做的事甚至都很难让IT条线的产品、项目、开发明白系统架构越来越复杂、迭代频率越来越高、外部环境越来越严峻等需要持续性的运维投入,更不要说让IT条线以外的部门理解你在做的事,在运维的资源投入通常是不够的。
所以,运维数据体系建设要强调投入产出比,在有限的资源投入下,收获更多的数据价值。
二、数据标准化比例低。
运维数据主要包括监控、日志、性能、配置、流程、应用运行数据。除了统一监控报警、配置、机器日志、ITIL里的几大流程的数据格式有相关标准,其他数据存在格式众多、非结构化、实时性要求高、海量数据、采集方式复杂等特点,可以说运维源数据天生就是非标准的,要在“资源投入不够”的背景下,采用业务大数据的运作模式比较困难。
三、缺乏成熟的方法。
虽然行业也提出了ITOA、DataOps、AIOps等运维数据分析应用的思路,但是缺少一些成熟、全面的数据建模、分析、应用的方法,主流的运维数据方案目前主要围绕监控和应急领域探索。
四、缺乏人才。
如“资源投入不够”这点提到的背景,因为投入不足,很难吸引到足够的人才投入到运维数据分析领域。
通俗一点来说,就是运维数据分析要借鉴当前传统大数据领域数据治理的经验,提高投入产出比,少走弯路,少跳坑。
本文摘编自《运维数据治理:构筑智能运维的基石》(ISBN:978-7-111-70475-1),经出版方授权发布。