聚类分析算法在Netflix服务器异常自动侦测中的应用

摘要:运行几万台服务器的Netflix,提高系统可靠性的突破点,就是自动侦测那些有问题但用阈值法发现不了的服务器。Netflix使用了聚类分析算法中的Density-Based Spatial Clustering of Applications with Noise (DBSCAN) 算法。聚类算法是非监督式的,不需要进行数据标记和提供数据。

凌晨,时针指向两点,我们技术保障团队一半的人手还在追查Netflix出错的原因。系统看起来运行还算正常,肯定是有哪不对但我们死活也找不着。查了一个小时,终于发现原来是数据中心里一台服务器出了问题。我们一直在查找有没有什么特别明显的问题,而且数据中心有好几万台服务器,所以把这个小淘气给忽略掉了。

连续剧《夜魔侠》里面的主角是个瞎子,但其他的感官异常灵敏。这使他可以察觉到某个人行为上的些许异常从而判断出这个人是否在撒谎。我们也开发了一个系统来发现服务器之间细微的差别,差别虽然小,但可能就是这些小的地方出问题。

本文中我们将介绍这一自动异常侦测技术和问题服务器的修复。多亏了它,不然我们恐怕得整天半夜爬起来救火。

现在运行Netflix服务的有好几万台服务器,一般出问题的比例不会超过1%。比如说有一台服务器的网络出了点问题导致用户的连接出现了延迟。虽然运行状态不理想,但在服务器健康检查中是看不出来的。

其实这种有问题的服务器还不如直接挂掉。起码挂掉的话现有的监测系统和工程师能够发现它挂了。现在它虽然没有挂,但影响到了用户的体验,我们的客服还是一样要接电话听用户的抱怨。也不知怎的,几万台服务器里总有几个要出问题。

图中不同颜色的线代表某个服务器的错误率。每条线都有峰值然后掉回到零,但紫色代表的这台服务器错误率一直高于其他服务器。从图中你能看出紫色代表的服务器有异常吗?有没有办法使用这些时序数据来实现异常侦测的自动化呢?

有一种简单的方法是设置一个阈值,错误率高于阈值就报警,但只适用于错误率特别高的服务器而且这种方法有一个问题就是所有数据都会有尖峰所以可能误差会比较大,下面的图中我们就很难找到一个合适的阈值,此外使用的阈值也需要定期进行调整因为服务器集中使用的时间和负载都可能出现变化。我们提高系统可靠性的突破点就是自动侦测那些有问题但用阈值法发现不了的服务器。

为了解决这一问题我们使用了聚类分析算法。聚类分析算法的基本原理是将相似程度高的样本归到一类。这一算法是非监督式的,所以我们不需要进行数据标记和提供数据。具体的聚类分析算法有很多种,这里我们使用的是Density-Based Spatial Clustering of Applications with Noise (DBSCAN) 算法。

DBSCAN算法原理

DBSCAN算法是Martin Ester、Hans-Peter Kriegel、Jörg Sander和徐晓伟在1996年提出的,可以说是聚类分析的典型算法。DBSCAN遍历所有的数据点,如果有很多相邻的数据点的话就归为一类。为了在DBSCAN算法中衡量数据点是否相邻我们需要一个判断距离的方法。 这里可视化了DBSCNAN算法运行的过程,如果感兴趣的话可以看下。

使用DBSCAN算法寻找异常服务器

要找出有异常的服务器,我们先要指定一个指标,比如之前我们提到的错误率。接下来就要收集一段时序数据并使用DBSCAN算法来进行处理找出发生异常的服务器。比如下面这幅图中涂成粉红色的就是从Netflix时序数据平台中收集的部分。

除了测量的指标,我们还需要指定将服务器标记为异常的最短持续时间。探测到异常之后就交由我们的报警系统来进行以下处理:

  • 发邮件或者打电话联系负责人
  • 服务器下线但不停止
  • 收集服务器数据以供进一步调查
  • 停止服务器等待扩展系统进行替换

参数的选择

DBSCAN算法中需要设置两个参数:Eps和MinPts。意思分别是判断数据点是否相邻的半径和定义一个集群所需要的数据点的最小个数。这里我们的参数是根据现有的异常服务器数目使用模拟退火算法逆推出来的。这种逆推的方式简化了参数的设置所以现在Netflix有好几个项目组都在用我们这个系统。

为了对这个系统的有效性进行评估,我们已经在生产环境中进行了测试。我们一共收集了一个星期的数据,然后将人工识别出的异常服务器与算法识别出的异常服务器进行了对比。下面是测试的结果

这个结果显示我们这个侦测系统虽然不是100%准确但是效果很不错了。根据我们的自身情况来说也不用完全做到一点都不差,因为就算把一个正常运行的服务器给关掉了也不会对用户体验造成多大影响,因为扩展系统马上就能加一个新的服务器进来。有这个侦测系统总是比没有强吧哈哈。

现在我们的做法是收集一段时间的数据来进行侦测。因为不是实时侦测,所以效果就跟收集数据的时间长短有关:时间太短的话可能有噪音,太长的话侦测的速度又太慢。如果要对这套系统进行改进的话,可以考虑使用实时流式处理框架比如Mantis和Apache Spark Streaming。数据流挖掘和在线机器学习方面的研究也有一些进展所以如果你想建设一个类似的系统可以考虑下。

此外在参数的设置上也可以进行改进。可以进行数据标记来组织训练数据并根据提供的训练数据来对模型进行训练,这种方法比我们现在用的逆推更好而且模型可以根据训练数据的变化来重新训练。

小结

Netflix的基础设施变得越来越庞大,将运营中的某些决定(比如这里的停止服务器)进行自动化可以提高可用性并减轻运维人员的负担。夜魔侠的服装能帮他打架,机器学习也能够提高我们技术保障团队的效率。侦测异常服务器只是自动化的一个例子,其他可以自动化的机会还有很多,就留待大家去发掘吧。


【预告】首届中国人工智能大会(CCAI 2015)将于7月26-27日在北京友谊宾馆召开。机器学习与模式识别、大数据的机遇与挑战、人工智能与认知科学、智能机器人四个主题专家云集。人工智能产品库将同步上线,预约咨询:QQ:1192936057。欢迎关注。

原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2015-07-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI派

还没准备好数据呢,为什么要着急用算法呢

开始之前,通知下我的读者,随着订阅读者越来越多,为了对读者们负责,有以下几件事情需要告知下:

2186
来自专栏华章科技

[科普]文科生也能读懂的Deep Learning

转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.c...

893
来自专栏生信技能树

芯片数据分析,so easy?

我最早接触的高通量数据就是RNA-seq,后来接触的也基本是高通量测序结果而不是芯片数据,因此我从来没有分析过一次芯片数据,而最近有一个学员在看生信技能树在腾讯...

2403
来自专栏媒矿工厂

TICO : UHD生产系统中的Mezzanine Codec

本帖参考M. Miyazaki等人发表在SMPTE Motion Imaging Journal的文章UHDTV-2 Mezzanine Compression...

2642
来自专栏流柯技术学院

性能测试学习之三—— PV->TPS转换模型&TPS波动模型

TPS = ( (80%*总PV)/(24*60*60*(T/24)))/服务器数量

2332
来自专栏Albert陈凯

R语言的优劣

https://www.zhihu.com/question/19611094 作者:艾华丰 链接:https://www.zhihu.com/questio...

2573
来自专栏腾讯架构师的专栏

AI 异常计算点的监控调度

互联网产业拥抱 AI 成为了当下的热潮,这些业务源源不断的计算力均来自腾讯架平 TCS-弹性计算平台。建设中最突出的问题是如何发现并调度异常计算点,本文从 cp...

5320
来自专栏大数据挖掘DT机器学习

Microsoft 时序算法——结果预算+下期彩票预测篇)

前言 本篇我们将总结的算法为Microsoft时序算法的结果预测值,是上一篇文章Microsoft时序算法的一个总结,上一篇我们已经基于微软案例数据库的销售历史...

7386
来自专栏腾讯玄武实验室的专栏

让 iPhone “崩溃” 又有了新方法:只需要一个视频

玄武实验室在 10 月 15 日就发现了视频样本,在深入分析后,我们在微信后台对能够触发这种漏洞的恶意视频进行检测和拦截,保护了大量用户免遭攻击。

5722
来自专栏数据科学与人工智能

【机器学习】从零实现来理解机器学习算法

从零开始实现机器学习算法的好处 我推广了从零开始实现机器学习算法的观念。 我认为你可以学到很多关于算法是如何工作的。我也认为,作为一名开发者,它提供了一个学习用...

2229

扫码关注云+社区

领取腾讯云代金券