从ITOM到AIOps:IT运维管理向智能运维的进化

当前互联网和移动互联网发展迅猛,从事各个行业的企业为了应对日趋激烈的市场竞争,纷纷进行了数字化转型,利用移动互联网技术、云计算及大数据等新兴信息技术发展企业的数字服务,从而吸引客户,帮助销售和推广产品,提升客户体验。

然而,随之而来的是规模不断扩大的IT系统、日益复杂的系统架构,以及海量的IT运维数据,同时公司业务对IT系统的连续性要求也进一步提高。

面对这些新形势下的挑战,IT 运维管理(ITOM)需要从原有的人工加被动响应,转变为更高效、更智能化的运维体系,为新形势下的IT系统保驾护航。

当前传统的 ITOM 工具往往缺乏分析能力,虽然也能采集到运维数据,但无法对这些数据所包含的信息进行洞察,更加无法将数据进行知识化的本质提升。研究机构Forrester 曾在之前的一份报告中指出:“这些工具为我们提供了大量的原始数据,但能洞察出埋在这些数据中的有价值信息的能力还是非常稀缺的。”(来源:Turn Big Data Inward With ITAnalytics)

令IT运维团队感到欣慰的是,智能运维(AIOps)踏着人工智能的时代浪潮应运而生。

Gartner在2016年发布的报告中首先提出了基于大数据及算法(Algorithmic IT Operations)的 IT运维概念。随着人工智能的快速兴起,Gartner 将 AIOps 的概念从原本的基于大数据及算法,扩充为基于人工智能(Artificial Intelligence for IT Operations,AIOps),期望通过大数据、现代机器学习及更多高级分析技术,提供具备主动性、人性化及动态可视化的能力,直接或间接地提升目前传统IT运维(监控、自动化、服务台)的能力。

AIOps 为IT运维提供了全新的管理思路。AIOps 的定义涵盖的两个阶段,可概括为两个层次的提升:数据到信息分析层次的提升;信息到知识提取层次的提升。

从数据到信息的分析,更多的是采用数据统计方法,帮助运维相关人员更好地从众多运维数据中了解系统的运行状态,分析并定位故障,实时获取统计数据。而信息到知识的提升更多的是希望借助人工智能算法,在信息分析的基础上通过机器学习的方式实现异常状况检测、故障/趋势分析、故障关联和精准告警。

根据权威机构Gartner的预测,比起现今5%这样的数据比例,到 2019 年,全球25%的公司都将系统性部署实施 AIOps 平台支持两个及以上的主要 IT 运维功能。到2022年,40% 的大型企业会通过大数据和机器学习的能力来帮助甚至逐渐取代传统运维中的监控、服务台及自动化流程。

AIOps重新定义了IT运维的管理方式,为IT运维团队适时提供适当信息,以便实现以下几点。

  • 通过采集当前环境中的运维数据,集成现有IT运维管理工具,利用聚合数据分析的技术,对IT系统中各个环节的问题进行快速定位、故障排除和预测。
  • 对来自业务环节中各个分布系统的数据进行整体分析,合理优化IT服务,挖掘关键业务 KPI 指标,反哺业务端,帮助其做出明智决策。
  • 通过大数据和人工智能技术分析用户的行为日志和运维数据,发掘潜在的系统安全和合规问题,为企业的信息安全保驾护航。

那么AIOps究竟在IT运维中有哪有典型的应用场景呢?常见的场景大致如下。

  • 全局日志检索

以一个典型金融行业为例,他们有上百个业务系统,面对每天产生的大量日志数据(几TB),日常运维过程中,当运维人员需要排错或日志巡检时,需要逐台登录服务器, 无法集中查看和管理日志数据;另外,日志查询方式比较原始, 比如 Windows 服务器,手动查看Event Log, Linux服务器则只能通过less、grep和awk等常见的Linux指令,无法从时间段、关键字、字段值统计等方面进行多维度查询。

AIOps平台通过收集各类数据源(包括操作系统、系统软件、数据库、应用日志等),统一进行管理。不同于以往每次仅可查看数量有限的几种日志,运维人员可通过智能运维平台所提供的关键字、统计函数、单条件、多条件、模糊查找等功能,在多个系统中快速定位故障信息,帮助运维人员从全局视角查看系统的运维数据信息。

  • 复杂多维报表,应用深度监控

AIOps将各系统的运维数据进行统计分析并生成各类实时报表,对各类运维数据(如应用日志、交易日志、系统日志)进行多维度、多角度深入分析及可视化展现,以业务视角实时展示各种业务指标,具体如下。

  • 快速发现故障,精准告警

实时采集各类运维数据(日志、监控系统告警、性能数据等),通过对历史数据的挖掘和分析,AIOps 可以找出哪些告警和事件是频繁一起出现的,并将其认看作同一类故障的告警,从而把多个告警和指标合并,推送给运维人员,做到精细化告警,避免传统监控工具因一故障而导致的告警风暴,生产告警噪音。

  • 缩短故障解决时间

通过运维数据可视化(复杂多维报表,热力图)及精细化告警信息,结合以前发现问题的经验知识库和模型,从而将运维信息从平面变为立体,立体展现故障树分析,通过推导路径使运维人员对于问题的定位更加快速、直观,使得问题的解决更加容易。

  • 预测未来

进行数据挖掘,生成分析类报表,进行趋势/容量/故障预测。例如,某些故障之间有时间上的先后关系,交换页不足、内存不足会逐渐导致系统故障或应用故障,该系统建立关联模型,发现前者故障,提醒用户可能后继可能发生系统故障或应用故障。在故障产生真正业务影响前,告知运维人员事先解决问题。

  • IT辅助决策支持

通过采集海量多维度数据,构建多元结构化底层数据仓库,以搭积木的方式适配各类运维场景,并在场景里刻画系统和人员画像,通过画像形式来辅助企业进行 IT 决策。

AIOps与现有ITOM平台的关系具体如何呢?传统IT运维管理平台,即 ITOM 平台,往往是为完成单一管理任务而设计的,更偏向于管理某一细分专业领域。

  • 监控系统:负责IT系统的健康及可用性管理
  • IT服务管理平台:负责配置管理,资产管理,事件/问题/变更等服务流程管理
  • SOC平台:专注于信息安全管理
  • APM平台:应用逻辑拓扑管理,应用故障诊断等

而AIOps平台则构建在传统ITOM平台的上层,把ITOM作为分析的源头,通过接口集成将各个 ITOM平台组件中的孤立运维数据进行汇总,使其突破数据孤岛的壁垒,其次借助自身的关联分析、机器学习、数据建模、全局搜索能力,帮助企业从IT系统的行为、状态、配置、故障和事件中等多个维度,产生趋势预判、快速故障定位和商业洞察等价值。

在信息架构与应用系统日渐庞大的今天,如果再通过人工分析定位的运维方式,很难适应目前日益快速增长的业务需求。规模不断扩大的 IT 系统、日益复杂的系统架构,以及海量的 IT 运维数据对使用传统ITOM的运维人员而言都如芒在背。因此,我们有理由相信AIOps能够帮助企业及各类运维人员在大数据中找到合适的发展模式。现在是时候用一些类似人工智能的思维方式来为IT产业服务,使大数据的分析方向转到IT运维上了。


对于程序员或架构师而言,开发或架构模式的进化同样随时在发生,比如当前讨论最多的响应式开发。如果感兴趣,可点击文末 阅读原文 看看↓↓↓这本有趣有料有用的动物书!

原文发布于微信公众号 - 前沿技墅(Edge-Book)

原文发表时间:2017-11-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏养码场

程序员不能错过的28份技术知识图谱,你的进阶路上必备

本文是鹏哥多年来积累和收集的技术知识技能图谱,有的是鹏哥原创总结的最佳实践,有的是小伙伴们的分享。

12210
来自专栏ThoughtWorks

服务蓝图再思考 | 洞见

服务蓝图(Service Blueprint)是服务设计中重要的实践之一,本文将回到这一实践的本源,重新思考其核心逻辑在新的消费环境中是否需要演进。 溯源 服务...

48650
来自专栏Keegan小钢

小钢的架构思考:架构规划

上一篇简单聊了下什么是架构,还将架构划分为三个阶段:规划阶段、设计阶段和构建阶段,构建阶段其实也是架构实现的阶段。其实,三个阶段的界限并不明显,而占比最多的是设...

12460
来自专栏编程

成为 C加加 高级工程师必备的几个条件,全部具备绝对是大牛级的存在

C++这门语言从诞生到今天已经经历了将近30个年头。不可否认,它的学习难度都比其它语言较高。而它的学习难度,主要来自于它的复杂性。现在C++的使用范围比以前已经...

32590
来自专栏靠谱PM

调研现场

上两篇文章中写到为什么要做用户调研以及用户调研的流程,今天来说下调研现场应该怎么做。

15660
来自专栏祝威廉

高昂的PR,开源的困惑

我是个急性子,所以没怎么成功给社区提过PR,除非那个项目是我自己的,或者社区让我有直接Merge的权限。好比之前吐槽完SDL开发太慢后,自己直接fork了一份,...

9120
来自专栏Cloud Native - 产品级敏捷

企业敏捷变革所面临的三个核心问题: Product Owner, 既有思维, 软件架构

企业进行敏捷变革, 走向敏捷开发 “一定” 会提升产品开发的效率与质量。 然而,团队一定要先…… 找到有意愿,有能力投入到产品,投入到团队成员的 Product...

18560
来自专栏云计算D1net

构建私有云时需要考虑的十大要点

私有云让企业能够保护并控制应用程序和数据,同时让开发团队能够更快速、更顺畅地提供业务价值。但是虽然构建私有云有望彻底改变IT,要是没有认真的规划和准备,它也无异...

30030
来自专栏DevOps时代的专栏

DevOps实施:项目群管理(PPM)中的需求和计划管理

本文面向的是企业IT用户(尤其是每年要投入数以百计的人力,开发维护十几个甚至几十个上百个上不同系统的企业),在组织范围内的计划和需求消耗太多的问题。而对于只有十...

20390
来自专栏飞雪无情的博客

什么是专业

当我们看到一个人做事的时候,我们可以很快的判断这个人是否专业?哪怕这个人从事的行业和我们相去甚远,甚至千差万别,我们也可以很快的判断出来,不过「专业」这个词的表...

12240

扫码关注云+社区

领取腾讯云代金券