前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AIOps异常检测(二):基于告警事件的实时故障预测

AIOps异常检测(二):基于告警事件的实时故障预测

作者头像
慎笃
发布2021-09-15 10:17:04
2K0
发布2021-09-15 10:17:04
举报
文章被收录于专栏:深度学习进阶深度学习进阶

内容简介

AIOps领域关于指标、日志和trace数据的异常检测与定位的研究工作很多,这些工作中的异常更多是时序指标上的表现异常,与真实的故障相距甚远,真实的故障是极其稀疏的,与运维工作人员每天接受到的异常检测算法识别出来的告警量不在一个数量级。本文主要介绍一种实时故障预测的文章《Real-Time Incident Prediction for Online Service Systems》,使用告警数据来预测未来一段时间是否会发生真实故障。

eWarn:Incident Prediction

1 数据输入

2 模型结构

eWarn包含四个主要步骤:

1)通过特征工程从告警数据中提取有效且具有解释性的特征; 2)通过多实例学习(multi-instance learning)来区分有用告警和噪音告警; 3)基于特征工程提取出的特征,使用XGBoost进行异常识别; 4)将故障预测结果反馈给用户,并采用LIME(Local Interpretable Model-agnostic Explanations)解释模型的预测结果。

特征提取

文本特征:采用LDA(Latent Dirichlet Allocation)来提取文本特征; 统计特征:告警量【总告警量、不同严重程度的告警量、不同类型(应用、数据库、内存、中间件、网络、硬件等)的告警量】、窗口时间【hour of the day、工作日or周末、day of the week、是否business hour等等】、告警的平均间隔时间【窗口内的告警是否频繁】

多实例学习过滤噪音告警

XGBoost分类模型

采用SMOTE(Synthetic Minority Over-sampling TEchnique)平衡正负样本,再使用XGBoost进行训练

LIME模型可解释性

报告实例如下,第二部分的特征贡献是有LIME中的线性模型计算的权重,越重要的特征可能与预测事件的根本原因越相关。

3 实验结果

eWarn效果:

特征工程的重要性:

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 内容简介
  • eWarn:Incident Prediction
    • 1 数据输入
      • 2 模型结构
        • 3 实验结果
        相关产品与服务
        消息队列 TDMQ
        消息队列 TDMQ (Tencent Distributed Message Queue)是腾讯基于 Apache Pulsar 自研的一个云原生消息中间件系列,其中包含兼容Pulsar、RabbitMQ、RocketMQ 等协议的消息队列子产品,得益于其底层计算与存储分离的架构,TDMQ 具备良好的弹性伸缩以及故障恢复能力。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档