运维未来的发展方向是智能运维(AIops)

近年来运维技术飞速发展,运维团队大多建设好了各种系统:虚拟化、容器化、持续集成等等。但是如何有效的利用这些系统最终实现站点的高可用、高性能和高可扩展?随着智能化技术的发展,为了解决上述运维领域的问题,智能运维的呼声越来越高。

日志易产品总监饶琛琳(@三斗室)看来,目前国内智能运维发展还处于一个探索阶段,要想尽快在智能运维领域有所突破,首先要重点做好监控系统和告警系统,并利用机器学习算法进行快速监控和排障。

本文就将饶琛琳对智能运维发展的一些早期观点和看法整理出来,和大家一起探讨下运维未来的发展方向。

1、对国内运维领域现状的看法

简单来讲,目前国内运维界在自动化方面已经达到了一定的水平,就现阶段而言,自动化和监控两部分还是有一定距离。例如,你拿到了监控类的报警,可能不能立即清楚去做哪一项自动化的部署。如果能把自动化和监控这两部分有机的结合起来,运维的工作会更加便捷。

2、移动端和微服务给运维工作带来的挑战

在 PC 端的时代,运维的很多工作受限于浏览器,在运维人员拿不到用户端真实数据的情况下,大家普遍会去采购一些第三方服务,尝试获取终端数据。而在移动端时期,我们都有自己的客户端,可以把一些采点的逻辑放在自己的客户端里,然后获取到更准确、更真实的客户数据。相对于挑战来说,这其实是移动端带来的好处。

微服务的出现给运维工作带来一些难题。没有出现微服务之前,运维人员在一台或者两三台机器中就可以完成问题排查。到了微服务的时代,这些问题可能出现在分布式系统几十乃至成百上千个节点的任意位置。系统中单个服务的启停和迁移很方便,也很频繁,各自的数据输出就变得很混乱,这意味着运维要查找问题就麻烦了很多,而解决这些麻烦就需要智能运维。

3、在大数据时代,

智能运维与数据、自动化运维之间的关系 智能运维的理想状态就是把运维工作的三大部分(监控、管理和故障定位),利用一些机器学习的方法有机结合起来。

在大数据时代,智能运维是基于大数据之上的。目前看来,运维想要把监控、管理和故障定位这三部分有机结合起来,就不可避免的需要用到智能算法,而智能算法发挥价值有一个前提:智能算法需要大量的数据去做支撑。

自动化运维这几年处在一个良性发展的状态,包括像 Puppet 这种配置管理的自动化,像 Docker 这种部署的自动化。进一步的发展就是需要把这三部分融合起来。目前能够把这三部分融合起来的办法就是利用人工智能的手段,最后达到一种智能运维的状态。

4、智能运维当下的状况及智能运维发展的预测

智能运维当下还是一个初步探索的阶段。可以举几个时间数字,我所看到的一个和智能运维相关的开源项目是在 2013 年,第一个主动出来宣讲智能运维相关内容的国内企业是百度,时间是 2015 年,智能运维大量出现在宣讲上的时间是在 2016 年下半年。这些宣讲都还在尝试阶段,这些尝试的效果还需要更多思维碰撞,寻找达到更好效果的办法,因为我们现在用的是普通的机器学习算法,还没有用到像 AlphaGo 的深度神经网络那样的算法。实现智能运维是一个需要大量投入和学习的过程。

想尽快在智能运维领域有所突破,更实际一点的办法就是重点做好监控系统和告警系统。传统的 IT 运维需要管理大量的告警,极大地分散了企业的注意力,消耗运维人员大量的时间和创新力。想办法高效地解决一天收到几千封告警邮件的问题,把运维人员从纷繁复杂的告警和噪音中解脱出来,这是一个能够迅速产生价值的思路。

现在比较明确的是大家会朝着智能运维方向发展,并且智能运维的发展一定是一个长期演进的过程。

对于智能运维的发展预测,我的简单看法如下:

智能运维会首先体现出其在告警系统上的价值。

第一阶段,做到智能地判断告警,而不是现在靠人的经验去设定一个阈值。设定告警阈值是一项耗时耗力的工作,需要运维人员在充分了解业务的前提下才能进行,还得考虑业务是不是平稳发展状态,否则一两周改动一次,运维工程师绝对疲于奔命。

第二阶段,做到智能地定位故障。现在的故障定位完全依赖于人的经验和 CMDB 的完备性,但维护一个复杂的 CMDB 本身又是大难题。智能运维应该可以从相关性分析等方面,辅助运维人员快速定位故障。

第三阶段,利用一些 NLP(自然语言处理)技术,对自然语言写成的故障报告进行处理,自动反馈到智能运维系统里。这一点可能是更遥远的一个设想,但是目前来看会是将来发展的一条道路。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

【思考】实施数据挖掘项目考虑的问题

谈到数据挖掘应从以下三方面加以考虑:一是用数据挖掘解决什么样的商业问题,二是为进行数据挖掘所做的数据准备,三是数据挖掘的各种分析算法。 ...

3445
来自专栏云计算D1net

云计算离超级云计算还有多远?

单就一个行业而言,一直以来我们对于云计算所带来好处的认识可能显得过于狭窄了。如果云计算是一次真正的革命性变革,那么它就必须能够支持生产和用户体验的模式,而这些都...

4226
来自专栏DevOps时代的专栏

从作坊到工厂 — 传统企业 DevOps 改造历程

? 作者介绍: 洪烨 资深DBA、数据中心架构师,培训讲师,Oracle YEP成员,拥有DB2 V9 Advanced Administrator、Orac...

38310
来自专栏大数据和云计算技术

运营商常见大数据业务

3.1 运营商常见的大数据业务 第1章介绍了运营商拥有的数据资产,运营商拥有从底层的设备和网络数据到上层的用户行为数据。有了这些数据,运营商大数据便可以衍生出...

39310
来自专栏互联网数据官iCDO

营销决策转盘助您4步最大化研究ROI

没人可以保障永远的商业成功,但您可以通过做出更好的商业决策增加成功的可能性。其中一方面是在策划到执行的全程中做出更好的商业决策。如果策略有缺陷,再有执行力也会带...

1142
来自专栏腾讯大讲堂的专栏

产品经理探索之路:如何理清思路确定方向?

导语 在设计和运营产品的过程中,产品经理们或多或少会遇到这样的问题:产品方向不明确,对未来也毫无头绪,不知道要如何走。针对这个问题,我们简单谈谈如何破局,更快的...

19710
来自专栏企鹅号快讯

外贸SEO该如何利用Google优化工具选择谷歌优化关键词

外贸网站在做外贸seo优化的时候,优化关键词的选择是非常重要的,googlel优化关键词选好了,网站就容易获得很好的流量和排名;反之,如果最初就选择了错误的关键...

2918
来自专栏软件成本造价评估

软件成本度量体系建设应用案例分析

  随着该行组织级量化管理的不断提升,高层领导对信息化管理提出了新的要求,金融信息化每年投入了大量的人力,如何能客观地量化相应的产出?

1382
来自专栏互联网开发者交流社区

总结个人职场常用管理方式

瀑布式开发用行业术语来解释就是,在软件定项的时候个开发阶段的准备:需求分析,组件定义,概要设计,详细设计,编码规范,冒烟测试,PRE/PRD测试等。

812
来自专栏腾讯大讲堂的专栏

从0到1,浅谈需求的模型转化

作者:张一弛,华中师大硕士毕业。曾就职于阿里巴巴移动事业群,负责UC浏览器海外版产品工作。2014年加入腾讯,先后在QQ群、QQ HD、PC QQ等产品线从事产...

2935

扫码关注云+社区