深度网络上,异常检测的研究主要在:
a)学习时序数据点级别的表征,进而依靠重构或预测误差进行判定,例如RNN; b)通过图以显式关联建模,将具有不同时间点的时间序列表示为顶点,并通过随机游走检测异常。例如GNN。
上面两种方式分别有以下缺点:
a)pointwise表征信息量较少,并且可能被正常模式主导,使得异常点难以区分。 b)学习到的图仍然仅限于单个时间点,这对于复杂的时间模式是不够的,无法捕捉每个时间点与整个时间序列的关联。
本文的主要贡献如下:
上图中,左边是Anomaly-Attention。右边是Anomaly Transformer重建的整体模型结构,用公式可表示为:
Anomaly-Attention内有两个关联(可以把它理解成点与时序的关联分布,前者是先验假设,后者是模型自学的经验分布)。
先验关联:采用了可学习的高斯核函数,其中心在对应时间点的索引上。这种设计可以利用高斯分布的单峰特点,使数据更加关注邻近的点。同时,为了使得先验关联能够适应不同的时序模式,高斯核函数包含可学习的尺度sigma参数;
序列关联 :它是由标准Transformer中注意力计算获得,一个点的序列关联即是该点在注意力矩阵中相应行的注意力权重分布。该分支是为了挖掘原始序列中的关联,让模型自适应地捕捉最有效果的关联。
这两个关联是为了服务于后续的关联差异,关联差异是异常度量的一个标准。先验关联采用具有单峰特性的正态分布,当异常发生时,当前点的周围临近点极大可能发生异常,所以先验关联和序列关联都关注局部信息,从而这两个关联有小的差异。
而在正常序列上,attention map具有全局关注特性,会分布在非临近点上,例如周期型序列,这对比于单峰明显的先验关联,这两个关联之间便存在很大差异。所以关联差异能被用于异常检测。公式如下:
具体地,在先验关联中,对于第i个时间点,它与第j个点的关联权重由高斯核计算得到的:
除了使用重建误差来优化模型表征,为了加大正常点和异常点之间的差距,使用了一个额外关联差异损失来增大关联差异,这里的出发点是为了让正常序列更加明显是正常,损失如下:
其中AssDis是关联差异。它的计算形式是对称KL距离:
当
,如果模型最小化损失,我们要最大化****关联差异,而直接最大化关联差异,将使得高斯核的尺度参数急剧变小,结果就会导致先验分布无意义。因此,为了更好控制关联学习的过程,作者采用了一种Minimax策略。
在最小化阶段,优化先验关联P,让先验关联P近似从原始时序中学得的序列关联S,该过程将使得先验关联适应不同的时序模式,同时也避免先验关联学习的很小。
在最大化阶段,优化序列关联S,来最大化关联之间的差异,该过程将使得序列关联更加注意非邻接的点,使得异常点的重建更加困难。
为了实现最大最小学习方向的切换,可通过改变Loss里λ方向:
由于要分开优化先验关联和序列关联,所以梯度回传时要注意,最小化时回传梯度给先验关联,最大化时回传梯度给序列先验。
异常检测依据是用关联差异标准化重建误差:
其中,AssDis越小,异常分数越大。重构误差越大,异常分数越大。
对于异常点,先验关联和序列关联有较小的差异;对于正常点,先验关联和序列关联之间存在较大差异。
上图展示了在五个数据集中各个模型的结果,P、R和F1分别表示精度、召回率和F1得分。本文的Anomaly Transformer模型均取得了不错的结果。
NeurIPS-TS是Lai等人(2021)精心设计的规则生成的,包括所有类型的异常,并涵盖点态和模式态异常。各个模型的对比在该数据集上的表现如上图所示。Anomaly Transformer也取得了较优的结果。
上表展示了模型各组件的消融实验。
Recon、AssDis和Assoc分别表示纯重建性能、纯关联差异和本文提出的基于关联的评价准则。
Fix是将先验关联的可学习比例参数σ修正为1.0。
Max和Minimax 分别指Max和Minimax的关联差异策略。
具体而言,基于关联的方式带来了显著的提升;可学习的先验关联和Minimax策略可以进一步改进模型。
各异常类型数据下的异常检测结果的可视化。红圈代表真实点异****常,红区段代表真实子序列异常。错误检测的例子被标记出。
可以发现,基于关联的准则在一般情况下更易于区分。可以突出异常,并为正常点和异常点提供不同的值,使检测更精确,并降低了假阳性率。
只有在重构误差的情况下,异常和正常时间点在关联权重中表现出与相邻时间点相似的行为,对应于接近于1的对比度值。最大化关联差异将迫使系列关联更加关注非相邻区域。
然而,为了获得更好的重建,异常必须保持比正常时间点大得多的相邻关联权重,对应于更大的对比度值。但是直接最大化将导致高斯核的优化困难,并且不能像预期的那样强烈放大正常和异常时间点之间的差异。
Minimax策略优化了先验关联,以对序列关联提供更强的约束,从而获得比直接最大化更可区分的对比度值和更好的性能。
对于无监督时序异常检测问题,提出了基于关联差异的异常检测模型Anomaly transformer,并通过一个Minimax学习策略大幅提高了模型的异常检测能力。在一系列详尽的实证研究中取得了不错的结果。
文献:ANOMALY TRANSFORMER: TIME SERIES ANOMALY DETECTION WITH ASSOCIATION DISCREPANCY 代码:https://github.com/thuml/Anomaly-Transformer