AIOps的六大技术难点

编前按:运维发展历程与工业革命异曲同工,工业的三次革命分别是机械化、电气化与信息化,运维则是原始手工、脚本与自动化工具。

那么工业4.0悄然来临的今天,智能化又将会给运维带来哪些影响?AIOps早期是由Gartner提出,原义是基于算法的IT运维,随实践、反思和讨论的不断积累,对它的认知发生了一些变化。

随着人工智能技术的发展,基于人工智能的IT运维越来越被普遍认可,所以AIOps如今被解读为Artificial Intelligence for Operations。

如何理解AIOps?

要理解AIOps,首先要弄懂与DevOps之间的关系。AIOps可以看成DevOps的高级阶段,AIOps不是要完全取代成熟的DevOps工具链,而是给DevOps工具链装上“大脑”,将人工决策驱动的运维过程转型成系统自主决策驱动的过程,所以与DevOps工具链深度集成是落地AIOps的必由之路。

用一个形象的比喻,可以把AIOps看成运维的“钢铁侠”模式,系统不再是简单的工具,而是像钢铁侠战甲一样可以协助甚至独立自主的完成任务。

所以,AIOps其实就是将AI技术应用到IT运维领域,提升效率和创造现实价值的“工程化”过程。既然是AI的工程化过程,就需要务实的看待AI技术,需要选择合适的AI技术去解决有效的运维场景,例如智能报警,智能巡检,智能上线,智能自愈等等。

AIOps的六大技术难点

理解AIOps之后,我们来看看AIOps的技术难点。

1

AI“工程化”的复杂性

目前,机器学习是AIOps的重要手段,其他还有自然语言处理,高级搜索,知识图谱等,也需要综合应用到这个领域,才能达成实际“工程化”的落地效果。换言之,把AIOps认为就是算法落地是片面的。不仅如此,为了解决特定场景的问题,可能还要“借鉴”或“移植”其他领域的技术和方法。

2

如何获取高质量,高时效的监控数据

算法的运用是以数据为前提的,尽管经典监控架构已经可以覆盖Metrics,Logging,Tracing三大类数据,但由于每种数据都是各自一套系统捕获,归集,存储,使得数据的时效,对齐,品控的标准难以一致。

此外数据格式也可能差异很大,在经典大数据架构下,还要经过清洗,格式转换,面对海量数据时,时效就会进一步下降。

3

多维度数据的关联难度大

经典监控架构由于采集不统一,即便Metrics也可能来自不同的监控系统,例如面向网络监控,面向主机监控,面向应用监控可能就是三套不同的系统,更不用说Logging,Tracing的数据,这就造成了多维度数据的关联难度大。

除时效外,可实时关联的数据是系统能够“接近”甚至“达到”专业人员的任务决策能力的另一个关键。

4

机器学习模型的训练困境

智能运维运用机器学习的重要目标之一就是能够识别故障特征。但是运维SLA的目标是保证系统可用性99.9...%。这样的矛盾造成故障在实际运行过程中尽管时有发生,但相对于机器学习需要的样本实在是太少。

5

如何实现运维场景的实时感知

运维的时效性也要求系统的感知足够充分,这里不仅仅是监控数据,之所以运维人员比系统有更强的判断力,在于他们掌握了更充分的运维场景的信息,例如他们清楚网络架构,设备之间的关联关系,物理机/虚拟机分布,应用关联关系,应用技术栈,甚至业务用途等,它们是问题定位,根因分析,影响评估的基础,所以这些信息也要能被实时感知起来,而这一块在传统监控中是缺失的。

6

遗留技术栈,混合架构增大复杂性

不管金融行业,还是其他行业,只要不是新企业,都面临大量的遗留系统,它们在技术栈,架构上可能存在很大差异。因此对它们的感知,数据采集需要额外的投入。

另一方面,如果遗留系统还在不停的引入新的业务需求,会进一步引入新的复杂性。

*声明:推送内容与图片均来自公众号“智能运维社区”,欢迎关注。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180809A14EZJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券