智能老铁谈智能运维(一)

对很多人来说,对机器人的印象来自于电影,库布里克《2001:太空漫游》中描绘的HAL,可能是最为著名的邪恶机器人。机器人是否会取代人的职能,至今又在哪些地方确实可以取代一部分人力工作?机器人、智能、AI…无数词语充斥在我们的生活中,今天小编带您走访铁信云团队,看看智能老铁本人眼中的智能运维。

Q

A

夏天

铁信云公众号小编

智能老铁

智能运维研究人员

夏天

智能老铁您好,我们都知道云计算的概念,那么云计算和智能运维的关系是什么呢?是基于什么样的背景,我们要做智能运维呢?

智能老铁

随着IT技术的不断突破,云计算在近几年呈现出爆发式增长,与此同时,大型分布式云系统的监控复杂度愈加明显。在运维人员面对海量设备,云数据中心环境又高度复杂时,我们如何为客户提供99.95%或以上高质量的IT服务呢?如何提升效率降低成本?这些都是运维团队在实际工作中面临着的巨大挑战。因此,智能运维,是用机器来代替运维人员,在最少的人工干预下,综合运用脚本和第三方工具,保证我们的业务在7*24小时高效稳定的运行,这就是智能运维的概念。

夏天

那么智能运维和传统运维最大的差异在哪里呢?

智能老铁

传统运维是指运维人员通过监控相应的KPI曲线及日志确保服务的可用性及高效性。传统运维比较依赖于运维人员的经验知识,如果KPI很多,人力成本就会很大。 智能运维,可以缓解这些问题,比如:故障的发现,以前多靠人工经验来设定监控阈值,而机器可以通过历史监控数据规律的学习,自动生成更加准确的阈值或通过异常模式识别去主动判断异常的发生。这不仅能够大量简化人的工作,而且比人更精准。

夏天

您之前写过一篇文章异常点检测的文章,异常点这个词大家经常听说,那么异常点检测究竟是做什么呢?在实际生产生活中有哪些应用呢?

智能老铁

比如我们经常看的内存利用率,同比昨天突然飙高,为什么会飙高?程序出bug?还是服务重启?需要进一步排查。异常点检测,就是找到与正常模式不一样的地方。异常检测的应用有欺诈检测,入侵检测,医疗领域等。

夏天

那异常点检测有哪些类型呢?他们之间的差别又是什么?

智能老铁

异常点检测方式包括很多类型,比如基于统计的方式和基于距离的方式。

首先说基于统计的异常点检测方式,这种方式是同期当中最简单且应用比较多的一种方式。假设数据服从高斯分布,在一批正常的数据下,计算出均值u和标准差σ,对同种类型的另一批数据进行检测时候,如果超过u±3σ则可能是异常点。

夏天

刚刚谈了基于统计的异常点检测,那我们的工作中有基于这类方法在做的产品吗?

智能老铁

我们的SR MON产品已有恒定阈值判异常的方法,这种统计方式对于我们是个不错的选择。

统计学上的3σ法则,若数据服从正太分布,在3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,因为在正态分布的假设下,距离平均值3σ之外的值出现的概率小于0.003)。

另外还有基于距离的的异常点检测。当我们看到散点图的时候,计算距离,距离也有很多类型,比如欧氏距离、马氏距离、曼哈顿距离等,当距离比较大的时候也有可能是异常。

夏天

那么距离小的时候会有异常状况吗?

智能老铁

也有可能,但概率比较小。

基于距离的异常检测方法,通常可以在对象之间定义邻近性度量,并且许多移仓检测方法都基于邻近度。异常对象是那些远离大部分其他对象的对象,这一邻域的许多技术都基于距离,称作基于距离的离群点检测技术,代表算法有基于KNN的密度检测算法。

当然这种方法有它本身的优点与缺点,基于邻近度的方法一般需要O(m^2)时间。这对于大型数据集可能代价过高,尽管在低维情况下可以使用专门的算法来提高性能。另外它对参数的选择也是敏感的。此外,不能处理具有不同密度区域的数据集,因为它使用全局阈值,不能考虑这种密度的变化。

夏天

在我们日常的智能运维中,有哪些实际的生产案例吗?

智能老铁

当然,之前写的文章中,引用的数据(如下图),就是参加AIOps Challenge时候的实际数据,具体的我们可以下次细谈。如果读者有兴趣,也可以做出进一步讲解。

夏天

那么作为运维人员如何挑选出合适的KPI曲线呢?

智能老铁

常见的KPI曲线有:内存、CPU、netin、netout等。这个依赖场景及运维人员的经验知识。

智能运维的发展一定是一个长期演进的过程,主要有3个阶段:1.智能运维在告警系统上的价值(通过统计的方式进行异常报警)2.智能判断告警(各种异常检测算法)3. NLP(自然语言处理),把故障反馈给系统。

智能运维的路,看来也是道阻且长,但是它的价值,相信也值得我们为之不懈奋斗!

当我们置身于这个信息时代的各个角落,都仿佛能够看到每一个IT运维人,在无数个与机器“谈判和解交流”的日日夜夜中,他们内心的呐喊和那份对事业的执着,而智能运维为无数运维人员带来了空前的曙光。

传统运维的有其痛点,智能运维到底能智能到什么程度,这里面究竟还有哪些奥妙,我们下期再做分享!

铁信云,以建设行业云生态为发展理念,致力于打造面向铁路最大规模实践的行业云。铁信云由多项云计算相关技术、产品和解决方案组成,前期规划出五大类17个软件及解决方案产品,全部拥有自主知识产权。目前,铁信云相关产品已经在铁路总公司数据中心和多个铁路局进行部署实施。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180621G1DH0600?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券