科来:以网络全流量分析为基础的AIOps演进

2018年2月,科来入围Gartner 2018年度 NPMD(网络性能监测与诊断)魔力象限并荣获“远见者”称号。科来首次入围即进入“远见者”象限,几乎覆盖Cisco在NPMD领域的位置,在世界舞台上进行角逐。科来UPM业务性能管理解决方案具备极佳的前瞻性、顺应未来市场发展方向,科来将自主技术与性能管理的发展方向相结合,针对运维技术高要求、高依赖的行业引发AIOps演进思考。

“变化是唯一永恒的趋势”

首先,在数据中心层面,数据中心已从单数据中心、多数据中心主备模式,发展到了多数据中心并行工作的状态,实现了从前端网络接入直到后端核心业务系统的高可用和分钟级数据中心级别的切换,确保了业务的7X24不间断运行。而在应用架构层面,伴随着虚拟化、云计算技术的应用,私有云架构成为了主流,更进一步,如部分新兴的互联网银行不但没有物理的营业网点,更没有专用的数据中心,而采用公有云或者混合云架构部署全行的IT系统。

其次,伴随着业务的发展,IT系统在不断扩展,不仅对外应用数量不断增长,内部应用和连接的第三方服务数量也在不断扩充,同时应用间相互调用关系持续复杂化。今天,对整体应用数量以及相互间的调用关系,逻辑关系的清晰描述,已经成为了一个艰巨的工作,在运维工作中,已不能基于单一应用判断业务的可用性,还必须依赖其他应用和第三方服务的状态,才能对业务整体可用性做出判断,同时,与之相伴的如何定义应用的性能指标也成为了难题。

第三,应用的内部架构,为适应业务快速上线,应用快速开发快速部署的要求,虚拟化技术和容器微服务技术的应用规模不断扩大,与之相伴的,单一应用组件的规模却不断变小,这直接导致应用组件间的访问关系、逻辑关系更趋复杂。形成了应用组件的碎片化趋势,而对于运维工作的难度直线提高。

AIOps帮助实现人工难以实现的海量运维工作

现阶段网络性能管理的难点在于缺少业务视角,同时缺少覆盖全局和第三方的视图。目前的对策是引入流量分析,可以实现端到端的业务服务质量的实时监控和管理,关联应用特点的分析,主动预警、智能化定位的运维自动化等。据此,Gartner提出了AIOps的概念,并预测到2020年,AIOps的采用率将会达到50%。简单来说,AIOps就是希望基于已有的运维数据尤其是流量数据,并通过机器学习的方式来进一步解决自动化运维没办法解决的问题。Gartner针对网络运维还专门提出了Netops2.0,化被动运维为主动运维,跳出网络看网络运维,成为下一代运维的核心思想。

怎样实现AIOps智能化运维?

作为一个新生领域的智能运维平台还处于发展的初期,发现并收集有价值的数据是当务之急和首要问题。而网络流量作为整个IT系统的基础,所有的运维操作也都以网络流量为手段实现,因此网络全流量数据是最为完整的数据源,对其进行采集和深度分析,可以作为智能运维平台的基础。同时,结合其他数据源,也是构建智能运维平台的最佳路径。

仅在IT系统中关键节点或者应用前段部署网络流量采集点是无法满足全系统监控分析的要求的,应在应用交易路径的所有环节都应当部署流量采集点,并加以统一视图的分析,才能清晰准确的实现应用和整个系统的运维监控需求。

另一方面,网络流量采集探针不能仅针对网络设备等硬件,由于云计算、SDN技术的大规模应用,流量采集探针也必须支持虚拟化环境、云和SDN环境,不仅能采集物理设备间的流量,还必须能够在采集虚拟环境内部的流量,特别是由于SDN环境的特点限制,网络全流量采集分析是SDN环境下最佳故障排查手段。

在数据中心层面,新一代的智能运维平台必须能够实现应用的全局监控,快速准确的展现应用和业务运行状态,同时对于应用路径的各个环节也必须实现全路径监控,当任意一点由于任何原因导致的异常现象,实现快速、准确的展现和警报,更进一步,新一代的智能运维平台还应当具有深度的数据挖掘能力,可以对任何异常现象实现数据包的深度挖掘和分析,还原异常现象并对根因做出最准确的还原和分析。

在数值监控方面,新一代的智能运维平台不能仅面向IT运维,还应当具备业务运行的支撑能力,能够实时反映业务的运行状态,对于交易成功率、交易时延、交易类别等等业务运行状态提供快速准确的监控报警能力,特别是在业务促销、大业务量突发等场景下具备实时监控相应能力。相应的,新一代的智能运维平台在应用层面还必须具备交易路径的监控分析能力,这种能力不同于针对IT环境的监控,其应当是对交易路径中包括关联业务和第三方等各个环节的监控分析能力。而在警报分析能力层面,新一代的智能运维平台不能采用传统的阀值警报模式,基线警报模式是其基本的要求之一。只有采用性能基线监控和报警模式才能准确反映一个时间段内业务和应用的变化趋势,并对未来的业务和应用发展态势做出预测。

大融合是未来智能运维的发展趋势

在今天的IT团队中,网络、应用、研发、安全是必备的四个部门,各部门的配合与协调确保了整个IT系统的平稳可靠运行,进而确保了业务和交易的平稳可靠。因此,从整个IT团队的角度出发,新一代的智能运维平台不能像传统平台一样仅面向单一的团队,完成单一的网络或者应用等的运维工作。新一代的智能运维平台应当是一个集成的平台,面向网络、应用、研发、安全部门,提供全方位的支持和操作平台。因此,新一代的智能运维平台应当具备多层次的监控运维能力,既针对特定部门的特定需求提供精准的监控和操作工具,也可以针对部门间配合协调需求,提供集成化监控分析和操作手段。

当新一代的智能运维平台具备多种能力之后,其面向IT团队的人机接口就成为其可用性关键因素。只有具备了清晰、准确、快速的展现能力,才能为整个业务应用系统提供更好的支撑。因此新一代的智能运维平台的展现能力也应当是层次化的。面向业务,其应当具备不同业务间的关联关系和业务运行状态的展现能力,从而提供业务状态的监控分析能力。

而针对单一业务,新一代的智能运维平台也必须提供全应用系统的监控、分析、展现能力,不仅仅包括了网络设备或者应用的单一视图,还应当提供涵盖了客户端、网络、应用的统一视图,从而实现针对应用全系统的统一监控,提升网络、应用、安全等不同运维部门间的协同配合能力。

相应的,新一代的智能运维平台也必须具备定制化的数值监控能力,可以将重要的业务数据、应用状态、网络状态集中监控和分析,提升网络、应用、安全等不同运维部门间的协同配合能力。

当前,新一代的智能运维平台已经成为了IT系统运维工作的发展方向,而基于网络全流量分析的智能运维平台已经具备基本的能力,但是距离智能运维平台的要求尚存在差距。未来,应当引入多种数据源,采集分析来自业务事件、运维操作、配置管理、资产管理等等多个来源的数据,实现综合的智能化分析,从而实现异常事件的自动发现、警报和根因分析,并在此基础上实现自动化操作。

-END-

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180302A0JX6E00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券