首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

张圣林:基于日志的数据中心内性能事件管理

张圣林:2017年清华大学优秀博士学位论文二等奖获得者

基于日志的数据中心内性能事件管理

Syslog-basedPerformanceEvent Management within Data Center

作 者:张圣林

指导教师:裴丹

培养院系:计算机科学与技术系

学 科:计算机科学与技术

读博感言:感谢博士这五年,让我获得了独立解决科研问题的能力。

研究背景/选题意义/研究价值

这些事件分为人为干预事件和系统自身事件两种类型。其中,Web服务软件升级和配置变更(软件变更)是人为干预事件中的一个关键事件。传统的以人工方式评估这一事件的方式,易出错,不易扩展,且消耗大量的人力资源。而对于系统自身事件中的关键事件——交换机故障,目前提出的从交换机日志中提取事件以检测故障的方法, 存在准确性低、计算机资源消耗量大等问题。此外,目前业界还没有能够准确预测交换机故障的有效机制。

主要研究内容

本文的主要研究内容为:首先,基于从格式化日志中提取出的 KPI 曲线数据,研究快速、准确地评估数据中心中部署的Web 服务软件变更的影响;然后,从分析非格式化系统日志入手,研究从交换机系统日志中提取事件以检测交换机故障;最后,研究基于系统日志的交换机故障预测。

研究内容框架

主要创新点

(1) 提出并实现了一种新型的快速、准确评估大型 Web 服务中软件变更影响的机制——FUNNEL。FUNNEL改进了奇异谱变换(singular spectrum transform)算 法,并采用了 difference-in-difference(DiD)算法以确定性能的变化是否与软件变更 有关,从而实现了快速地检测出明显的性能变化。本文使用某大型Web 服务的数据验证和评价了 FUNNEL 的性能。实验证明,FUNNEL 达到了 99.7%的准确性。 与之前提出的方法相比,FUNNEL 的检测时延降低了 38.02% 到 64.99%,且其计 算速度有了大幅度提高。

(2) 提出并实现了一种新型的从交换机日志中提取事件的机制——FT-tree。FT-tree 能够准确地和增量式地从日志中学习消息模板,以提取日志消息所代表的故障事件。本文使用长达 2 年的从分布在超过10 个数据中心的交换机上采集的日志和故障案例,对比了FT-tree 和其他 3种模板学习方法的性能。实验证明,FT-tree 将故障预测准确性提高了 155% 到188%,并大幅提高了计算效率。

(3) 提出并实现了一种新型的交换机故障预测机制——PreFix。 PreFix 用于预测是否会在短期内发生交换机硬件故障。该机制使用了新型的机器学习特征组合,即消息模板序列、频率、周期性和爆发性,从而解决了噪声、样本失衡和计算开销的挑战。通过从真实数据中心交换机上采集的数据,本文对 PreFix 的性能进行了评价,实验结果表明,PreFix 的平均召回率为61.81%,其误报率为 1.84 × 10−5。

代表性学术发表

1. ShenglinZhang,Ying Liu, Dan Pei, Yu Chen, Xianping Qu, Shimin Tao,Zhi Zang, XiaoweiJing, Mei Feng. ``FUNNEL: Assessing Software Changes in Web-based Services”, IEEETransactions on Service Computing, 2016, 14 pages.

2. ShenglinZhang,Ying Liu, Dan Pei, Yu Chen, Xianping Qu, Shimin Tao, and Zhi Zang. ``Rapid and Robust Impact Assessment ofSoftware Changes in Large Internet-based Services”, ACM InternationalConference on emerging Networking EXperiments and Technologies (CoNEXT),Heidelberg, Germany, December, 2015, 13 pages.

3. ShenglinZhang, Weibin Meng, Jiahao Bu,Sen Yang, Ying Liu, Dan Pei, Jun (Jim) Xu, Yu Chen, Hui Dong, Xianping Qu,Lei Song. ``Syslog Processing for Switch Failure Diagnosis and Prediction inDatacenter Networks” IEEE/ACM International Symposium on Quality of Service (IWQOS)2017, VILANOVA I LA GELTRÚ, SPAIN, June 2017.

作者:张圣林

供图:张圣林

编辑:清华大学研究生院 周明坤 严颖巧

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180104B0JERE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券