WSDM 2021 | 快速有效的无监督时间序列异常检测框架 FluxEV

VachelHu

发布于 2021-07-29 14:47:59

2.2K0

发布于 2021-07-29 14:47:59

文章被收录于专栏：时序人

WSDM的英文全称是 The International Conference on Web Search and Data Mining，中文意思是国际互联网检索与数据挖掘会议，由SIGIR、SIGKDD、SIGMOD和SIGWEB四个专委会协调筹办，在互联网搜索、数据挖掘领域享有较高学术声誉，被中国计算机协会推荐为B类会议。在清华大学最新发布的新版计算机学科推荐学术会议和期刊列表中，WSDM已被列为准A类学术会议。

今年 WSDM 2021 于北京时间2021年3月8到12号于线上举行。本次大会共接收了 112 篇论文，接收率仅为18.6%，其中Oral 69篇，接受率为11.4%。

本文简要介绍一篇来自WSDM的论文，其提出了一种快速高效的无监督时序异常检测框架。

论文标题：FluxEV: A Fast and Effective Unsupervised Framework for Time-Series Anomaly Detection

原文地址：https://dl.acm.org/doi/10.1145/3437963.3441823

TL;DR

论文中提出的时间序列异常检测模型 「FluxEV」 主要是对之前的极值优化 「SPOT」 算法进行优化，主要包括两项：

(1) SPOT 仅对极值较为敏感因此不能检测出局部波动的异常；

(2) 使用矩估计 MOM(Method of Moments) 优化 SPOT 中最大似然估计的计算效率。实验部分在两个大型数据中验证 FluxEV 性能优于其它 baselines。

Algorithm/Model

FluxEV 流式异常检测模型如下图所示：

FluxEV 架构图

主要四个步骤：

Data Preprocessing
Fluctuation Extraction
Two-step Smoothing Processing
MOM-based Automatic Thresholding

数据预处理

主要处理时间序列数据中的缺失值问题。

之前的关于填充缺失值的方法包括：

Linear interpolation：简单效果不太好；
VAE-based：生成的插值不符合正常模式；

为了减少噪声并且保留其正常模式，论文中使用过的插值策略包括两种情形：

当缺失值少于 5 个观测点时，使用一阶线性插值方法；
否则，使用前一个周期数据加上一个基数，例如 ;

下图表示不同插值算法的效果对比，发现简单的方法更能保留正常的数据模式。

数据填充

数据波动特征提取

为了简单快速的计算，文章中采用指数加权滑动平均「EWMA」的方法作为一个预测器来计算观测值和预测值间的残差。假设表示所有观测点的残差，那么 EWMA 的计算方法如下：

其中表示平滑因子，表示滑动窗口大小；

Two-step平滑处理

这两步平滑处理的主要目的是：使正常的波动残差趋近于零而异常的波动保持不变。

考虑时间序列的局部波动和周期模式，文中采用序列化处理 (sequential processing) 和周期性处理 (periodic processing)。如下图所示：

特征处理

「First-step Smoothing」

大部分残差数据是处于正常范围的且值仅有很小的差别，把这种称为「local noises」。我们需要通过 sequential processing 来减小这种局部波动的值，处理方法如下所示：

其中表示时刻经过第一次处理的波动值，表示时间窗口内的标准差；

「Second-step Smoothing」

第二步是为了减小周期噪声数据的影响，但由于数据中会存在数据漂移的影响造成数据周期并不是一一对应的，因此需要采用一种简单的方法来处理数据漂移问题。

假设当前观测点为，周期长度为；对于先于当前时刻的第个周期，我们使用值来构造周期处理的滑动窗口而不是单独的。计算公式如下所示：

其中表示半数滑动窗口的值；

整体的处理流程如下图所示，貌似超参数有点多！

数据处理算法

对于数据平滑的效果如下图所示：

数据平滑效果

基于MOM和SPOT的自动阈值选择方法

「SPOT」

SPOT 算法是一个基于 EVT(Extreme Value Theory) 的 Streaming Peaks-Over-Threshold 方法，POT 方法仅依赖于极值的分布而不依赖于数据分布，主要思想是通过 GPD (Generalized Pareto Distribution) 来近似拟合长尾分布：