首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI和云技术将会给运维带来哪些变化?

根据IDC研究:2019年全球ICT市场规模已经达到5.1万亿美元,其中数字化转型已经成为了企业的核心战略。数字化转型推动第三平台技术进入到第二篇章(第三平台技术是指以云、大数据和移动社交为核心的技术)。

IDC中国企业级研究部助理副总裁周震刚

对企业来说,数字化转型意味着决策模式创新、运营模式创新、生产模式创新、产品服务创新和盈利模式创新。如果具体到数字化应用,IDC中国企业级研究部助理副总裁周震刚表示:“2019年最重要的数字化应用包括:使用微服务和容器的云平台上的敏捷应用架构;基于数据管理、认知、人工智能和机器学习的智能核心;基于云的应用程序接口策略,协调整个生态系统中的数据交换;完全支持面向客户和生态系统的业务模式的新客户体验技术。”

无论应用发展产生了哪些开发和部署的新趋势,都需要运维和监控模式去管理。20年前的PC时代,应用数量可能只有成千上万个,可以用手工和人力管理,而到了移动互联网时代,应用数量暴增至上百万、上千万之后,手工管理变得不现实了,更多新的运维工具开始出现,例如,利用人工智能技术来提前规划IT资源、提前分析故障、预测未来趋势等等。本文就从Dynatrace来看看新时代的运维监控工具到底有哪些变化。

AI 如何应用在运维领域?

Dynatrace全球销售总裁Stephen Pace

说起AI、云与运维的关系,Dynatrace全球销售总裁Stephen Pace 曾在采访中表示:“现在的应用交付主要通过云的方式来进行,特别是在这个数据爆炸的时代,面对错综复杂的数据关系,AI正在迅速成为唯一能够为企业提供所需支持的解决方案。Dynatrace 的整个产品线以AI为核心,为企业提供能判断因果关系的分析,在复杂的云环境下,梳理因果关系、找到根因,迅速定位问题发生的位置,带来决策AI的效果。”

AI在运维领域中有很多种不同情况的应用场景,Dynatrace 全球技术副总裁Chuck Miller为我们讲述了AI在各个阶段的应用:

Dynatrace 全球技术副总裁Chuck Miller

  • 数据收集阶段:想要应用AI或者自动化,很重要的一点是要拥有高保真的数据,那么这些数据从何而来呢?OneAgent技术可以在应用环境中自动地发现需要观测、监控的数据,包括网络、系统、容器以及微服务中的数据,收集完之后还可以把相关内容呈现出来。
  • 数据处理阶段:收集到这些数据之后,AI引擎就可以深度处理数据。Dynatrace系统中还包括机器学习Built-in(内置)、自动Baselining(基线),结合AI引擎就可以分析得出某些结论。
  • 根因分析:当有异常问题发生的时候,AI引擎会自动去追踪用户的操作路径,也就是追踪服务访问和调用的路径,通过对各个不同层面监控对象的数据分析和关联,比如主机、进程、服务以及应用的数据关联,来自动分析出根因。

与传统AI引擎不同,Dynatrace的AI引擎是为了特定目的而构建的,可以做到实时因果关系输出。传统AI引擎实现的是关联关系(Correlation)方式的分析,其缺点是无法实时输出,需要花费时间去学习才能看到想要的数据,很多客户可能无法接受这一缺点。

数据在Dynatrace平台中的流转其实是个闭环,平台将数据提供给智能化(或自动化)工具,该工具根据数据做出反应操作之后,会把结果返回给平台,得到新数据之后,可能又会触发新的动作。以此循环往复,AI引擎的判断会越来越准确,运维的动作也会越来越精确。

云平台下的运维技术如何发展?

企业上云已经成为了一种趋势,甚至有些企业可能上的不止一朵云,根据Kentik公司的一项调查表明,如今40%的组织认为自己是多云用户,他们的组织拥有两个或多个云服务提供商提供的云服务。那么上云之后的企业会面临哪些挑战?又会如何影响运维呢?

上云之后,企业往往会遇到以下挑战:

  • 环境复杂:公有云、私有云和混合云难以互通;
  • 大规模:企业上云以后,应用和数据规模都会暴增;
  • 应用动态变化:容器和微服务的技术都是动态变化的;
  • 部署频率提升:采用 DevOps 提升了软件部署和交付的效率;

Dynatrace在服务用户的过程中,也同样发现了用户不愿意只投资单一云环境,而更倾向采用多云平台,这就要求应用监控方案可以实现跨云的自动化服务。Dynatrace 引入了自主云管理概念(Autonomous Cloud Management, ACM),以期解决IT复杂性难题。但ACM并不是一套做法就可以适用于所有用户,而是每个客户都有自己独特的部分。

实现自主云管理的第一步就是把监控自动化,将监控变成一个自主服务(self-serving)环境。其次,就是要和客户沟通流程,这也是花费时间最多的部分。最后,Dynatrace有很多合作伙伴,他们会为ACM的实现补充很多功能和技术。

其实,企业上云并不单纯是把计算放在云上,有一个部分很重要,就是如何帮助企业使整个应用开发过程做得更快更好,如何优化交互,如何通过云更快速地实现回应的链路(feedback loop)。

据了解,金融行业是对ACM接受程度非常高的行业之一,大多数实施ACM的客户来自银行和保险公司。Chuck Miller 举了美国KeyBank银行的案例:以前KeyBank开发人员从写完代码到生产(包括中间过程的测试和挑战),整个过程需要三周左右,而现在从整个代码的开发到生产的时间可以“天”为单位来计算。Dynatrace帮助他们解决了两个问题:将定位和解决问题的时间从几天缩短到几个小时。另外,正如用户希望每十分钟可以发布一个新版本那样,目前Dynatrace 对部分问题的解决已经能达到这一标准。

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/lw91VFFihVJR2aVIwwom
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券