前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【每日一思】2022年第3周 AIOps的一些思考

【每日一思】2022年第3周 AIOps的一些思考

作者头像
彭华盛
发布2022-03-07 13:43:02
5340
发布2022-03-07 13:43:02
举报
文章被收录于专栏:运维之路运维之路

注:以下观点将收录在《数智万物下的运维》的“4.5.6 AIOps运维模式”

1.AIOps由来

2016年,Gartner在ITOA的基础上提出了AIOps,这里的”AI“指基于算法的 IT 运维(Algorithmic IT Operations),即,平台利用大数据,现代的机器学习技术和其他高级分析技术,通过主动,个性化和动态的洞察力直接或间接地,持续地增强 IT 操作(监控,自动化和服务台)功能。随着AI技术的发展,Gartner在随后又将AIOps定义为智能运维,而在国内,目前大家所提到的AIOps应该是ITOA与AIOps的集合。以下是Gartner在AIOps报告中放出一张经典的AIOps图,我们可以摘出AIOps的几个关键词:

  • 业务价值驱动。即,技术应用的价值应该围绕企业的价值,技术应用才会有生命力,参考本书的四个核心价值是:保障业务连续性、优化客户体验、加快IT交付速度、提升IT服务质量。
  • 平台3大关键模块。能称为AIOps,需要结合AI算法、海量数据、技术平台的三要素,笔者认为对于算法来说,当前主要分析方法有:异常检测、拓扑分析、概率分析(关联、聚类、分类等)等。
  • 融入现有的“监管控”平台体系。AIOps不是单纯的技术或平台,是一种全新的运维工作模式,与DevOps类似,CI\CD才是工具链视角。AIOps运维模式的落地,主要将围绕已有场景的赋能是一个快速见效的模式。

2.数据、算法、场景组成AIOps关键3要素

如Gartner定义中提出,AIOps应用需要利用大数据,现代机器学习技术和其他高级分析技术,是一种相对较高门槛的工作模式。为了更好的落地AIOps,我们需要深刻的理解AIOps的内涵,重点实现思路:以数据为基础、算法为支撑、场景为导向。

数据为先,AIOps需要快速生产高质量数据的能力。“快速”的思路可以以“中台”思路进行建设,建立统一的数据采控、实时与批量的数据处理能力、与运维相匹配的运维算法、存储方案、主数据、指标模型等;“高质量”则从将分散数据统一、在线后形成“活数据”,以及数据质量上的治理。从技术实现看,具备实时“采、存、算、管、用”的数据流动全生命周期管理的能力。

算法大脑,适配、引入特定场景下运维算法,构建算法模型体系。机器学习尤其是深度学习的大规模应用,推动了人工智能的快速发展。随着国内TOB市场的火爆,AIOps上人工智能研究及应用正处于爆发期,引入AI技术的算法有三点优势:一是工作稳定性高,人工智能可不知疲倦地进行工作,在规律性问题的分析时不受环境影响。二是降低操作风险,利用人工智能取代传统人工经验操作,可更好地避免操作风险和道德风险。三是有效提高决策效率,人工智能可以快速地对大数据进行筛选和分析,帮助人们更高效率地决策。当前,AIOps的算法最需要解决的问题是,改变人对“算法准确性”的印象,即“算法”的引入不是为了创新,而是为了确实解决真实问题而出现。

场景驱动,基于痛点、价值期望,用智能赋能运维场景,落地智能运维能力。AIOps从词来看,应该包括“AI+Ops”,是用AI赋能运维场景的模式。 AIOps不是单纯的技术或平台,是一种全新的运维工作模式,与DevOps类似,CI\CD才是工具链视角。所以,有了上面的数据底座与算法大脑,下一步是AIOps运维模式的落地,主要将围绕场景的落地,一种是利用算法赋能己有的运维场景,另一种是算法实现原来无法实现的运维场景。前者是一个快速见效的模式,后者是应对变化而作出的变化。

3.AIOps运维工作模式

金融企业运行安全稳定,需要运维数据赋予数据洞察、辅助决策、跟踪执行的能力,提升复杂环境下的运维管理能力,即:

  • 实时获得“发生了什么?”;
  • 关联分析“为什么会发生?”;
  • 智能预测“将会发生什么?”;
  • 决策判断“采取什么措施?”;
  • 自动执行“如何快速执行?”
  • 实时感知“工作执行的效果?”

AIOps就是为了解决上述问题而生,相比传统的运维工作模式,AIOps重点不是创造一种全新的运维工作模式,而是对现有“专家经验+最佳实践流程+工具平台” 运维模式的补充,为企业运维工作提供“洞察感知、运营决策、机器执行”能力,支持向“人机协同”模式转变。

4.AIOps4个阶段

作为一种新的工作模式,AIOps将有一个长期的系统性演进的过程,所以运维组织需要建立一种能力进阶的实施路线。以下借鉴SAE(国际自动机工程师学会,原译:美国汽车工程师学会)对无人驾驶级别的分类思路,提出AIOps的级别分为L1到L4四级,见下图。其中,AIOps的模式是“人机协同”的模式,不级之间的变化,重点是在一项标准运维工作执行中“人”与“机器”的占比的分布。正如汽车企业一样,像google一把就向最高级的高度智能化建设一辆没有方向盘的无人驾驶汽车,也可以像传统车企或特斯拉这些从L1到L4按级演进,不同的企业的AIOps也可以根据企业的情况进行选择。

(1)L1:不智能

L1的无人驾驶级别中,汽车虽然有一些自动控制功能,比如ESC稳定性控制系统、AEB自动紧急制动系统等,但车辆完全是由人来控制。相应的,在AIOps的L1级时,此阶段重点是以专家经验驱动为主的工作模式,大部分标准性的工作都由人线下或采用线上工具进行操作。

(2)L2:辅助决策

L2的无人驾驶级别中,汽车在有传统汽车控制功能的基础上,增加了部分辅助驾驶功能,有一些场景中汽车可以自己运行,但驾驶员需要一直对汽车驾驶情况进行监测,并时刻准备进行紧急接管汽车。相应的,在AIOps的L2级中,此阶段重点是采用智能运维辅助提升“运行安全稳定保障”能力,人在这个级别中需要持续的推动可观测的能力。此阶段,建议运维组织重点引入AIOps成熟、擅长的算法、平台、场景,以监控、故障、系统评估等环节作为切入点。

(3)L3:自动决策

L3的无人驾驶级别中,汽车是“有限制条件的自动驾驶”,在此阶段汽车能够在一些特定场景下让驾驶员完全不用控制汽车,且能够自动检测环境,并决策切换到驾驶员驾驶模式,驾驶员无需一直对系统进行监视。相应的,在AIOps的L3级中,此阶段重点是要将部分运维场景由机器代替人决策并执行。此时,机器具备对部分标准运维工作决策并执行,AIOps除了建立运维算法的洞察与决策能力外,AIOps还可以建立执行层的自动化能力。

(4)L4:高度智能

L4、L5的无人驾驶级别中,汽车是“高度自动化和完全自动化”,在此阶段自动驾驶系统将完全自动控制车辆,全程检测交通环境,能够实现所有的驾驶目标,驾驶员(或叫乘客)只需提供目的地或者输入导航信息,在任何时候都不需要对车辆进行操控,只要输入出发地和目的地,责任完全交给车辆的自动驾驶系统。这种技术我还无法想像在运维领域是怎么样的,所以我将L4G和L5合并到AIOps的L4级,且此阶段也并非完全无人运维,其重点是运维人的工作内容发生变化,重点是承担培育机器人岗位,大部分运维场景由机器岗位主导,人只有在必要时进行干预,形成一个真正的人机协同的运维模式。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 运维之路 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
CODING DevOps
CODING DevOps 一站式研发管理平台,包括代码托管、项目管理、测试管理、持续集成、制品库等多款产品和服务,涵盖软件开发从构想到交付的一切所需,使研发团队在云端高效协同,实践敏捷开发与 DevOps,提升软件交付质量与速度。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档