首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

一种算法:获取网络日志以发现错误的根本原因

几位研究人员通过分析AT&T网络数据中的数百万条错误消息,开发出了一种算法,有望帮助运营商们更快地发现问题。

世界上许多人在享受轻松连接网络的便利,而商业网络背后在努力建立网络连接、验证用户身份以及验证服务。错误发生时,网络提供商可能很难查明根本原因,因为错误消息有可能是在网络内与实际错误发生地不一样的地方生成的。

为了准确揪出这类错误的源头,研究人员分析了与通过AT&T的网络交换的数百万条消息有关的错误日志。该研究小组的目的是尤其要了解潜在事件(latent event)。延迟错误可能导致呼叫传播和传输延迟、连接中断问题以及网络瓶颈。每个错误事件都会生成一连串的消息,其类型和频率可能因各网络单元之间的延迟、网络负载及其他事件而变化。

伊利诺伊大学厄巴纳尚佩恩分校电子工程系攻读博士学位的Siddhartha Satpathi说:“我们已推出了一套算法,可以对原始的错误数据分门别类,分成几组重要关键词描述的事件。我们不是在确定事件的原因,只是将消息分成几组,而每一组包括单单一个事件生成的消息。另外,我们找出与每个事件相关联的关键消息。”然后,网络运营商就可以利用这些分组来找出根本原因。

Satpathi解释,在实际的网络中,来自不同地理位置的错误可能彼此相关联,有时一个物理错误导致数千个错误消息。他举了一个例子:从伊利诺伊州造访加利福尼亚州的Alice打电话给纽约州的Bob。在连接呼叫之前,在加利福尼亚州靠近Alice的那个基站需要验证她的登录信息,而这些登录信息位于其在伊利诺伊州的本站。

一旦连接成功,呼叫将通过网络从加利福尼亚州一路传输到纽约州。如果路由器在该网络上的某处发生了故障,它会导致从所有连接的网络和位置(加利福尼亚州、纽约州和伊利诺伊州)发来错误报告。错误日志中的这组错误消息就是研究人员所谓的“事件”。

这时候新算法就有了用武之地。错误日志很庞大,工程师无法仔细查看消息、确定哪些消息是由同一个事件引起的。

Satpathi说:“我们的算法就是将这些信息分组为几个重要事件。该算法还会输出在这些发现的事件中一些经常出现的消息。对消息进行这种分组使得消息日志易于被人解读,并帮助工程师解读错误的根本原因。”该研究小组最近在期刊《IEEE/ACM Transactions on Networking》上发表了网络消息日志方面的研究成果(https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8782613)。

Satpathi的团队在研究中查看了15天内发送的9700万条39330种类型的消息,这包括系统日志文本(与服务器、中继器或基站等特定的网络单元相关的软件生成,并发送到日志服务器的原始文本消息,包括时间戳和描述错误的消息文本)和警报(表明网络单元中特定的故障条件)。然后研究人员针对该数据运用了一种分两个阶段的算法:变点检测—潜在狄利克雷分配(CD-LDA),该算法使用现有的LDA算法作为子程序。

Satpathi表示,对该数据集运行LDA需要花6个小时,但如果使用更快版本的LDA算法,有望缩短这个时间。他补充道,这使得这项研究“极具扩展性”,可用于检测商业网络上的错误。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190830A0QQ0J00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券