专栏首页人工智能头条聚类分析算法在Netflix服务器异常自动侦测中的应用

聚类分析算法在Netflix服务器异常自动侦测中的应用

摘要:运行几万台服务器的Netflix,提高系统可靠性的突破点,就是自动侦测那些有问题但用阈值法发现不了的服务器。Netflix使用了聚类分析算法中的Density-Based Spatial Clustering of Applications with Noise (DBSCAN) 算法。聚类算法是非监督式的,不需要进行数据标记和提供数据。

凌晨,时针指向两点,我们技术保障团队一半的人手还在追查Netflix出错的原因。系统看起来运行还算正常,肯定是有哪不对但我们死活也找不着。查了一个小时,终于发现原来是数据中心里一台服务器出了问题。我们一直在查找有没有什么特别明显的问题,而且数据中心有好几万台服务器,所以把这个小淘气给忽略掉了。

连续剧《夜魔侠》里面的主角是个瞎子,但其他的感官异常灵敏。这使他可以察觉到某个人行为上的些许异常从而判断出这个人是否在撒谎。我们也开发了一个系统来发现服务器之间细微的差别,差别虽然小,但可能就是这些小的地方出问题。

本文中我们将介绍这一自动异常侦测技术和问题服务器的修复。多亏了它,不然我们恐怕得整天半夜爬起来救火。

现在运行Netflix服务的有好几万台服务器,一般出问题的比例不会超过1%。比如说有一台服务器的网络出了点问题导致用户的连接出现了延迟。虽然运行状态不理想,但在服务器健康检查中是看不出来的。

其实这种有问题的服务器还不如直接挂掉。起码挂掉的话现有的监测系统和工程师能够发现它挂了。现在它虽然没有挂,但影响到了用户的体验,我们的客服还是一样要接电话听用户的抱怨。也不知怎的,几万台服务器里总有几个要出问题。

图中不同颜色的线代表某个服务器的错误率。每条线都有峰值然后掉回到零,但紫色代表的这台服务器错误率一直高于其他服务器。从图中你能看出紫色代表的服务器有异常吗?有没有办法使用这些时序数据来实现异常侦测的自动化呢?

有一种简单的方法是设置一个阈值,错误率高于阈值就报警,但只适用于错误率特别高的服务器而且这种方法有一个问题就是所有数据都会有尖峰所以可能误差会比较大,下面的图中我们就很难找到一个合适的阈值,此外使用的阈值也需要定期进行调整因为服务器集中使用的时间和负载都可能出现变化。我们提高系统可靠性的突破点就是自动侦测那些有问题但用阈值法发现不了的服务器。

为了解决这一问题我们使用了聚类分析算法。聚类分析算法的基本原理是将相似程度高的样本归到一类。这一算法是非监督式的,所以我们不需要进行数据标记和提供数据。具体的聚类分析算法有很多种,这里我们使用的是Density-Based Spatial Clustering of Applications with Noise (DBSCAN) 算法。

DBSCAN算法原理

DBSCAN算法是Martin Ester、Hans-Peter Kriegel、Jörg Sander和徐晓伟在1996年提出的,可以说是聚类分析的典型算法。DBSCAN遍历所有的数据点,如果有很多相邻的数据点的话就归为一类。为了在DBSCAN算法中衡量数据点是否相邻我们需要一个判断距离的方法。 这里可视化了DBSCNAN算法运行的过程,如果感兴趣的话可以看下。

使用DBSCAN算法寻找异常服务器

要找出有异常的服务器,我们先要指定一个指标,比如之前我们提到的错误率。接下来就要收集一段时序数据并使用DBSCAN算法来进行处理找出发生异常的服务器。比如下面这幅图中涂成粉红色的就是从Netflix时序数据平台中收集的部分。

除了测量的指标,我们还需要指定将服务器标记为异常的最短持续时间。探测到异常之后就交由我们的报警系统来进行以下处理:

  • 发邮件或者打电话联系负责人
  • 服务器下线但不停止
  • 收集服务器数据以供进一步调查
  • 停止服务器等待扩展系统进行替换

参数的选择

DBSCAN算法中需要设置两个参数:Eps和MinPts。意思分别是判断数据点是否相邻的半径和定义一个集群所需要的数据点的最小个数。这里我们的参数是根据现有的异常服务器数目使用模拟退火算法逆推出来的。这种逆推的方式简化了参数的设置所以现在Netflix有好几个项目组都在用我们这个系统。

为了对这个系统的有效性进行评估,我们已经在生产环境中进行了测试。我们一共收集了一个星期的数据,然后将人工识别出的异常服务器与算法识别出的异常服务器进行了对比。下面是测试的结果

这个结果显示我们这个侦测系统虽然不是100%准确但是效果很不错了。根据我们的自身情况来说也不用完全做到一点都不差,因为就算把一个正常运行的服务器给关掉了也不会对用户体验造成多大影响,因为扩展系统马上就能加一个新的服务器进来。有这个侦测系统总是比没有强吧哈哈。

现在我们的做法是收集一段时间的数据来进行侦测。因为不是实时侦测,所以效果就跟收集数据的时间长短有关:时间太短的话可能有噪音,太长的话侦测的速度又太慢。如果要对这套系统进行改进的话,可以考虑使用实时流式处理框架比如Mantis和Apache Spark Streaming。数据流挖掘和在线机器学习方面的研究也有一些进展所以如果你想建设一个类似的系统可以考虑下。

此外在参数的设置上也可以进行改进。可以进行数据标记来组织训练数据并根据提供的训练数据来对模型进行训练,这种方法比我们现在用的逆推更好而且模型可以根据训练数据的变化来重新训练。

小结

Netflix的基础设施变得越来越庞大,将运营中的某些决定(比如这里的停止服务器)进行自动化可以提高可用性并减轻运维人员的负担。夜魔侠的服装能帮他打架,机器学习也能够提高我们技术保障团队的效率。侦测异常服务器只是自动化的一个例子,其他可以自动化的机会还有很多,就留待大家去发掘吧。


【预告】首届中国人工智能大会(CCAI 2015)将于7月26-27日在北京友谊宾馆召开。机器学习与模式识别、大数据的机遇与挑战、人工智能与认知科学、智能机器人四个主题专家云集。人工智能产品库将同步上线,预约咨询:QQ:1192936057。欢迎关注。

本文分享自微信公众号 - 人工智能头条(AI_Thinker)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-07-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 张雨石:Adam - 大规模分布式机器学习框架

    用户1737318
  • 详解深度学习的可解释性研究(上篇)

    用户1737318
  • PAKDD 2019 中国企业深兰科技夺冠:AutoML 如何推动 AI 应用落地?

    PAKDD 2019 AutoML3+ 挑战赛在 4 月 17 日公布了最终结果。Feedback phase 和 AutoML phase 的 Top3 排名...

    用户1737318
  • 无服务器架构,云计算的下一个纪元

    传统上,Web应用程序通常部署在Web服务器上。为了使应用程序在服务器上运行,可能需要花费数小时来下载、编译、安装、配置和连接各种组件。计算机的操作系统也需要不...

    SDNLAB
  • 速读原著-TCP/IP(客户-服务器模型)

    大部分网络应用程序在编写时都假设一端是客户,另一端是服务器,其目的是为了让服务器为客户提供一些特定的服务。

    cwl_java
  • Nginx负载均衡配置实例详解

    负载均衡是我们大流量网站要做的一个东西,下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法,希望对有需要的同学有所帮助哦。

    流柯
  • 服务器中木马怎么处理

    近日,某一客户网站服务器被入侵,导致服务器被植入木马病毒,重做系统也于事无补,目前客户网站处于瘫痪状态,损失较大,通过朋友介绍找到我们SINE安全公司,我们立即...

    网站安全专家
  • Nginx负载均衡配置与使用

    现在Nginx到处都可以见到,经常会看到宕机后的网页会显示nginx的字样,这也说明Nginx由于高性能、使用配置简、开源单这些特点被越来越多的用户所接受,所使...

    奋斗蒙
  • 租用云服务器之前 这些坑你得擦亮眼睛

    企业上云或者个人建站,都得需要一个服务器空间来放置网站程序、应用等,所以服务器租用是现在广大企业和站长不可忽视的环节。由于云服务器快速普及,性价比也在快速提升,...

    尊托云数
  • 为什么说中小型企业比较适合选择云服务器租用呢?

    1、规模符合。对中小型企业来说,资源一般相对有限,在使用上则需要精挑细选。而云服务器在能够彻底解决这个问题,按需使用,按量付费,很适合相当规模的公司。

    青果云小潘

扫码关注云+社区

领取腾讯云代金券