前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >​万字综述 | 图神经网络在时间序列中的应用:预测、分类、填补和异常检测

​万字综述 | 图神经网络在时间序列中的应用:预测、分类、填补和异常检测

作者头像
Houye
发布2024-04-11 14:34:32
1.3K0
发布2024-04-11 14:34:32
举报
文章被收录于专栏:图与推荐图与推荐

论文名称:A Survey on Graph Neural Networks for Time Series: Forecasting, Classification, Imputation, and Anomaly Detection

摘要

时间序列是记录动态系统测量值的主要数据类型,由物理传感器和在线过程(虚拟传感器)大量生成。因此,时间序列分析对于揭示可用数据中隐含的信息财富至关重要。随着图神经网络(GNNs)的最新进展,基于GNN的时间序列分析方法大幅增加。这些方法可以明确地建模时序和变量间的关系,而传统的和其他基于深度神经网络的方法则难以做到。在这项调查中,我们对图神经网络在时间序列分析中的应用进行了全面回顾(GNN4TS),涵盖了四个基本维度:预测、分类、异常检测和填补。我们的目标是指导设计师和从业者了解、构建应用程序,并推进GNN4TS的研究。首先,我们提供了一个全面的面向任务的GNN4TS分类法。然后,我们介绍和讨论代表性研究成果,并介绍GNN4TS的主流应用。最后,我们全面讨论了潜在的未来研究方向。这项调查首次汇集了大量关于基于GNN的时间序列研究的知识,突出了图神经网络在时间序列分析中的基础、实际应用和机遇。

关键词-时间序列、图神经网络、深度学习、预测、分类、填补、异常检测。

GitHub 页面:https://github.com/KimMeen/Awesome-GNN4TS

1 引言

先进传感和数据流处理技术的出现导致时间序列数据的爆炸性增长。时间序列的分析不仅可以揭示过去的趋势,还可以促进多种任务的完成,如预测、分类、异常检测和数据填补。这为利用历史数据了解当前和未来可能性的时间序列建模范式奠定了基础。时间序列分析在各个领域变得越来越关键,包括但不限于云计算、交通、能源、金融、社交网络和物联网。

图1:用于时间序列分析的图神经网络(GNN4TS)。在这个风电场的示例中,不同的分析任务可以归类为时间序列预测、分类、异常检测和填补。

许多时间序列涉及时间和变量之间的复杂相互作用(例如效应传播的滞后和代表相邻交通传感器的变量之间的关系)。通过将时间点或变量视为节点,将它们之间的关系视为边,以网络或图的方式构建的模型可以通过利用数据和关系信息有效地解决手头的任务。实际上,许多时间序列数据在时空上具有特性,系列中的不同变量捕捉了有关不同位置(空间)的信息,这意味着它不仅包含时间信息,还包括空间关系。这在城市交通网络、人口迁移和全球天气预报等场景中特别明显。在这些情况下,诸如交通事故、郊区流行病爆发或特定区域极端天气等局部变化可能传播并影响邻近地区。这种时空特性是许多动态系统的共同特征,包括图1中的风电场,其中底层时间序列显示出各种相关性和异质性。传统的分析工具,如支持向量回归(SVR)、梯度提升决策树(GBDT)、矢量自回归(VAR)和自回归移动平均(ARIMA),难以处理复杂的时间序列关系(如非线性和变量间关系),导致预测结果不够准确。深度学习技术的出现导致了基于卷积神经网络(CNN)、循环神经网络(RNN)和Transformer等不同神经网络的发展,这些网络在建模真实世界时间序列数据方面表现出显著优势。然而,上述方法的最大局限之一是它们不明确地模拟非欧几里得空间中时间序列之间存在的空间关系,从而限制了它们的表达能力。

近年来,图神经网络(GNNs)作为学习非欧几里得数据表示的强大工具出现,为建模真实世界时间序列数据铺平了道路。这使得能够捕捉多样化和复杂的关系,包括变量间的关系(多变量系列内不同变量之间的联系)和时序间的关系(不同时间点之间的依赖关系)。考虑到真实场景中存在的复杂时空依赖关系,一系列研究将GNNs与各种时间建模框架结合起来,以捕捉空间和时间动态并展示出有希望的结果。尽管早期的研究主要集中在各种预测场景上,但利用GNN进行时间序列分析的最新进展在其他主流任务中也展现出了有希望的成果。这些任务包括分类、异常检测和填补。在图1中,我们提供了图神经网络在时间序列分析中的概览(GNN4TS)。

相关调查。尽管有越来越多的研究使用GNN执行各种时间序列分析任务,但现有的调查往往集中在特定范围内的特定视角上。例如,王等人的调查提供了关于空间-时间数据挖掘的深度学习技术的回顾,但并未专门集中在基于GNN的方法上。叶等人的调查聚焦于交通领域中基于图的深度学习架构,主要考虑预测场景。金等人最近的调查概述了城市计算中用于预测学习的GNNs,但没有将其覆盖范围扩展到其他应用领域,也没有深入讨论与时间序列分析相关的其他任务。最后,我们提到拉赫马尼等人的工作,将GNNs的调查扩展到许多智能交通系统,但除了预测任务外,其他任务仍然被忽视。我们在表1中详细比较了我们的调查与其他调查。

为填补这一空白,本调查提供了一个全面且最新的关于图神经网络在时间序列分析中的回顾,涵盖了从时间序列预测、分类、异常检测到填补等大部分任务。具体而言,我们首先提供了两个广泛的视角,从任务和方法论的角度对现有研究进行分类和讨论。然后,我们深入探讨了GNN4TS现有研究中的六个热门应用领域,并提出了几个潜在的未来研究方向。我们调查的主要贡献总结如下:

  • 首个全面调查。据我们所知,这是第一个全面回顾最近使用图神经网络进行主流时间序列分析任务的调查。它涵盖了广泛的最新研究,并提供了对GNN4TS发展的整体视图,而不限于特定任务或领域。
  • 统一和结构化分类法。我们提出了一个统一的框架,从任务和方法论的角度对现有研究进行结构化分类。在第一分类中,我们概述了时间序列分析中的任务,涵盖了GNN研究中普遍存在的不同问题设置;在第二分类中,我们从空间和时间依赖建模以及整体模型架构的角度剖析了GNN4TS。

表1:我们的调查与其他相关调查的比较。

  • 详细和最新的概述。我们进行了全面的回顾,不仅涵盖了领域的广度,还深入研究了个别研究,通过细粒度分类和详细讨论,为读者提供了对GNN4TS最新技术的了解。
  • 应用拓展。我们讨论了GNN4TS在各个领域的不断扩展应用,突出了其多样性和未来在各个领域的潜力。
  • 未来研究方向。我们为潜在的未来研究方向提供了启示和建议,这些可以指导和激励GNN4TS领域的未来研究。

本调查的其余部分组织如下:第2节介绍了本文中使用的符号。第3节从不同角度提供了GNN4TS的分类法。第4节、第5节、第6节和第7节回顾了GNN4TS文献中的四个主要任务。第8节调查了GNN4TS在各个领域的热门应用,而第9节则审视了未解决的问题和潜在的未来方向。

2 定义和符号

定义1(单变量时间序列)。单变量时间序列是随时间收集的一系列标量观测值,可以是定期或不定期采样的。定期采样的单变量时间序列定义为

\mathbf{X}=\left\{x_{1}, x_{2}, \ldots, x_{T}\right\} \in \mathbb{R}^{T}

,其中

x_{t} \in \mathbb{R}

。对于不定期采样的单变量时间序列,观测值是在非均匀时间间隔收集的,例如

\mathbf{X}=\left\{\left(t_{1}, x_{1}\right),\left(t_{2}, x_{2}\right), \ldots,\left(t_{T}, x_{T}\right)\right\} \in \mathbb{R}^{T}

,其中时间点是非均匀间隔的。

定义2(多变量时间序列)。多变量时间序列是随时间收集的

N

维向量观测值的序列,即

\mathbf{X} \in \mathbb{R}^{N \times T}

。定期采样的多变量时间序列具有在均匀时间间隔收集的向量观测值,即

\mathbf{x}_{t} \in \mathbb{R}^{N}

。在不定期采样的多变量时间序列中,可能存在

N

个与时间步长不对齐的时间序列,这意味着每个时间步长只有

0 \leq n \leq N

个观测值可用。

大多数基于 GNN 的研究侧重于建模多变量时间序列,因为它们可以自然地抽象为时空图。这种抽象允许准确地表征动态的时间间隔和变量间的依赖关系。前者描述了每个时间序列内不同时间步之间的关系(例如,图 2 中

t_{1}

t_{3}

之间红色节点的时间动态),而后者捕获了时间序列之间的依赖关系(例如,图 2 中每个时间步四个节点之间的空间关系),比如生成每个变量数据的传感器的地理信息。为了说明这一点,我们首先定义带属性的图。

定义3(带属性的图)。带属性的图是将每个节点与一组属性关联的静态图,表示节点特征。形式上,带属性的图定义为

\mathcal{G}=(\mathbf{A}, \mathbf{X})

,其中包括(加权)邻接矩阵

\mathbf{A} \in \mathbb{R}^{N \times N}

和节点特征矩阵

\mathbf{X} \in \mathbb{R}^{N \times D}

。邻接矩阵表示图的拓扑结构,可以由

\mathcal{V}=\left\{v_{1}, v_{2}, \ldots, v_{N}\right\}

N

个节点的集合)和

\mathcal{E}=\left\{e_{i j}:=\left(v_{i}, v_{j}\right) \in \mathcal{V} \times \mathcal{V} \mid \mathbf{A}_{i j} \neq 0\right\}

(边的集合)来描述;

\mathbf{A}_{i j}

是邻接矩阵

\mathbf{A}

中的(i,j)位置的元素。特征矩阵

\mathbf{X}

包含节点属性,其中第

i

\mathbf{x}_{i} \in \mathbb{R}^{D}

表示节点

v_{i}

D

维特征向量。

在带属性的图中,也可以考虑多维边特征,但本文假设仅在邻接矩阵中编码标量权重,以避免符号过多。

具有时间演变图结构的空间-时间图

图 2:空间-时间图示例

基于此,空间-时间图可以被描述为一系列带属性的图,有效地表示了(多变量)时间序列数据与随时间变化或固定的结构信息的结合。

定义4(空间-时间图)。空间-时间图可以被解释为离散时间动态图 [44],即

\mathcal{G}=\left\{\mathcal{G}_{1}, \mathcal{G}_{2}, \cdots, \mathcal{G}_{T}\right\}

,其中

\mathcal{G}_{t}=
\left(\mathbf{A}_{t}, \mathbf{X}_{t}\right)

表示时间

t

时的带属性图。

\mathbf{A}_{t} \in
\mathbb{R}^{N \times N}

\mathbf{X}_{t} \in \mathbb{R}^{N \times D}

分别是对应的邻接和特征矩阵。

\mathbf{A}_{t}

可能随时间变化或保持不变,具体取决于特定设置。在抽象时间序列数据时,我们令

\mathbf{X}_{t}:=\mathbf{x}_{t} \in \mathbb{R}^{N}

我们将图神经网络作为处理图结构数据的现代深度学习模型引入。典型 GNN 中的核心操作,通常称为图卷积,涉及在相邻节点之间交换信息。在时间序列分析的背景下,这种操作使我们能够明确地依赖图边表示的变量间依赖关系。鉴于不同的细微差别,我们在空间域中定义了 GNN,这涉及沿着

N

维度使用可学习函数转换输入信号。

定义5(图神经网络)。给定带属性图

\mathcal{G}=(\mathbf{A}, \mathbf{X})

,我们将

\mathbf{x}_{i}=\mathbf{X}[i,:] \in \mathbb{R}^{D}

定义为节点

v_{i}

D

维特征向量。GNN 通过两个主要函数学习节点表示:Aggregate(.) 和 Combine(.) [31]。

\operatorname{AGGREGATE}(\cdot)

函数计算并聚合相邻节点的消息,而

\operatorname{COMBINE}(\cdot)

函数将聚合和先前状态合并以转换节点嵌入。形式上,GNN 中的第

k

层由从发送和接收节点

v_{j}

v_{i}

计算的消息扩展或更一般地聚合而来。这里,

\mathbf{a}_{\mathbf{i}}^{(\mathbf{k})}

\mathbf{h}_{\mathbf{i}}^{(\mathbf{k})}

分别表示邻居节点的聚合消息和第

k

层中节点

v_{i}

的转换节点嵌入。GNN 的输入和输出分别为

\mathbf{h}_{\mathbf{i}}^{(\mathbf{0})}:=\mathbf{x}_{i}

\mathbf{h}_{\mathbf{i}}^{(\mathbf{K})}:=\mathbf{h}_{\mathbf{i}}

上述公式 1 中的表述被称为空间 GNN,与从谱图理论的角度定义卷积的谱 GNN 相对。我们建议读者参考最近的出版物 [29] 以深入分析谱与空间 GNN,以及 [30],[45] 以全面审查 GNN。

要将 GNN 用于时间序列分析,暗示必须提供图结构。然而,并非所有时间序列数据都具有现成的图结构,在实践中,通常利用两种策略从数据中生成缺失的图结构:基于启发式或从数据中学习。

基于启发式的图。这组方法根据启发式从数据中提取图结构,例如:

  • 空间接近性:这种方法通过考虑节点对之间的接近程度来定义图结构,例如基于它们的地理位置。一个典型的例子是当时间序列数据具有地理空间属性时,基于节点之间最短行程距离构建邻接矩阵 A:

其中

d_{i j}

表示节点

i

和节点

j

之间的最短行程距离。也可以应用一些常见的核函数,例如高斯径向基 [13]。

  • 两两连接:在这种方法中,图结构由节点对之间的连接性确定,例如由交通网络确定的连接性。邻接矩阵
\mathbf{A}

定义为:

典型情况包括代表道路、铁路或相邻区域的边 [46],[47]。在这种情况下,图可以是无向的或有向的,导致对称和非对称的邻接矩阵。

  • 两两相似性:这种方法通过连接具有相似属性的节点来构建图。一个简单的例子是基于时间序列之间的余弦相似性构建邻接矩阵
\mathbf{A}

其中

\|\cdot\|

表示欧氏范数。还有几种变体用于创建基于相似性的图,例如 Pearson 相关系数(PCC)[48] 和 动态时间规整(DTW)[49]。

  • 功能依赖性:这种方法根据节点对之间的功能依赖性定义图结构。这些包括基于 Granger 因果关系 [50] 构建邻接矩阵 A:

其他例子涉及传递熵(TE)[51] 和 有向相位滞后指数(DPLI)[52]。

3 框架和分类

在本节中,我们提出了一个全面的面向任务的 GNN(图神经网络)分类法,涵盖了时间序列分析的背景(第 3.1 节)。随后,我们通过引入一个统一的方法论框架来研究如何在各种任务中对时间序列进行编码,这构成了 GNN 架构的基础(第 3.2 节)。根据该框架,所有架构都由一个类似的基于图的处理模块

f_{\theta}

和一个专门用于下游任务的第二模块

p_{\phi}

组成。

3.1 面向任务的分类法

在图 3 中,我们展示了一个面向任务的 GNN 分类法,涵盖了时间序列分析的主要任务和主流建模,展示了 GNN4TS 的潜力。本调查聚焦于四个类别:时间序列预测、异常检测、填补和分类。这些任务是基于空间-时间图神经网络(STGNNs)学习到的时间序列表示进行的,这在现有文献中作为在各种任务中编码时间序列数据的基础。我们将在第 3.2 节中详细介绍这一点。

时间序列预测。这个任务的核心是基于历史观测来预测时间序列的未来值,如图 4a 所示。根据应用需求,我们将这个任务分为两种类型:单步预测和多步预测。前者旨在一次预测时间序列的单个未来观测值,即,在时间

t

时的目标是

\mathbf{Y}:=\mathbf{X}_{t+H}

,其中

H \in \mathbb{N}

代表

H

步之后的时间,而后者则是针对一个时间间隔进行预测,例如

\mathbf{Y}:=\mathbf{X}_{t+1: t+H}

。针对这两种预测情况的参数化解决方案可以通过优化得到

其中

f_{\theta}(\cdot)

p_{\phi}(\cdot)

分别代表空间-时间 GNN 和预测器。关于

f_{\theta}(\cdot)

架构的细节将在第 3.2 节中给出,而预测器通常是一个多层感知器。接着,我们用

\mathbf{X}_{t-T: t}

\mathbf{A}_{t-T: t}

表示一个长度为

T

的空间-时间图

\mathcal{G}=\left\{\mathcal{G}_{t-T}, \mathcal{G}_{t-T+1}, \cdots, \mathcal{G}_{t}\right\}

。如果底层图结构是固定的,那么

\mathbf{A}_{t}:=\mathbf{A}

\mathcal{L}_{\mathrm{F}}(\cdot)

表示预测损失,通常是一个平方或绝对损失函数,例如 STGCN [58] 和 MTGNN [53]。大多数现有作品通过 Eq. 6 最小化预测和实际值

\mathbf{Y}

之间的误差;这个过程被称为确定性时间序列预测。此外,我们还有概率时间序列预测方法,如 DiffSTG [59],它们虽然共享相同的目标函数 Eq. 6,但并不直接进行优化。根据预测时间跨度

H

的大小,我们最终分为短期或长期预测。

时间序列异常检测。这个任务侧重于检测时间序列数据中的异常和意外事件(图 4b)。检测异常需要确定异常事件发生的时间,而诊断异常则需要了解异常发生的原因和方式。由于获取异常事件的普遍困难,当前研究通常将异常检测视为一个无监督问题,涉及设计一个描述正常、非异常数据的模型。然后利用学习到的模型,在异常事件发生时生成高分数以检测异常。这个模型学习过程类似于预测优化,即 Eq. 6,其中

f_{\theta}(\cdot)

p_{\phi}(\cdot)

分别代表空间-时间 GNN 和预测器。一般来说,空间-时间 GNN 和预测器是在正常、非异常数据上进行训练的,使用预测 [40]、[60] 或重构 [39]、[61] 优化方法,目的是最小化正常输入和预测(或重构)序列之间的差异。然而,当这些模型用于检测异常时,它们在接收到异常输入时预计会无法最小化这种差异。这种在异常期间无法符合预期的低差异模型行为,产生了可检测的差异,有助于检测异常。分隔正常和异常数据的阈值是一个敏感的超参数,应考虑到异常的罕见性,并与期望的误报率 [62] 保持一致。最后,为了诊断异常的原因,一个常见的策略涉及计算每个通道节点的差异,并将这些差异合并为一个单一的异常分数 [63]。这种方法允许通过计算它们对最终分数的贡献来识别导致异常事件的通道变量。

时间序列填补。这个任务的核心是估计和填补时间序列中缺失或不完整的数据点(图 4c)。目前在这一领域的研究可以大致分为两种主要方法:样本内填补和样本外填补。样本内填补涉及填补给定时间序列中的缺失值,而样本外填补涉及推断训练数据集中不存在的缺失数据。我们将学习目标表述如下:

其中

f_{\theta}(\cdot)

p_{\phi}(\cdot)

分别代表空间-时间 GNN 和待学习的填补模块。填补模块可以是一个多层感知器。在这个任务中,

\tilde{\mathbf{X}}_{t-T: t}

表示带有缺失值的输入时间序列数据(参考时间序列),而

\mathbf{X}_{t-T: t}

表示相同的时间序列但没有缺失值。

图 3:现有文献中用于时间序列分析的面向任务的图神经网络分类法。

由于在训练期间无法访问参考时间序列,因此需要考虑替代优化目标,例如生成合成缺失值 [41]。在 Eq. 7 中,

\mathcal{L}_{\mathrm{I}}(\cdot)

是填补损失,可以是绝对误差或平方误差,类似于预测任务。对于样本内填补,模型在

\mathbf{X}_{t-T: t}

\mathbf{X}_{t-T: t}

上进行训练和评估。而对于样本外填补,模型在不相交的序列上进行训练和评估,例如,在

\tilde{\mathbf{X}}_{t-T: t}

上训练,但在

\mathbf{X}_{t: t+H}

上评估,其中

\tilde{\mathbf{X}}_{t: t+H}

中的缺失值将被估计。与时间序列预测和异常检测类似,填补过程可以是确定性的或概率性的。前者直接预测缺失值(例如 GRIN [41]),而后者从数据分布中估计缺失值(例如 PriSTI [42])。

时间序列分类。这个任务旨在根据时间序列的基本模式或特征为给定时间序列分配一个分类标签。与捕捉时间序列数据样本内的模式不同,时间序列分类的本质在于识别有助于根据其类标签将样本区分开的差异模式。优化问题可以表示为:

其中

f_{\theta}(\cdot)

p_{\phi}(\cdot)

分别代表 GNN 和待学习的分类器。以单变量时间序列分类为例,任务可以被表述为图分类或节点分类任务。在图分类(Series-As-Graph)[64] 的情况下,每个系列被转换为一个图,该图将成为 GNN 的输入,以生成分类输出。这可以通过将系列分成多个子序列,窗口大小为

W

,作为图节点,

\mathbf{X} \in \mathbb{R}^{N \times W}

,并且邻接矩阵

A

描述子序列之间的关系来实现。一个简单的 GNN,

f_{\theta}(\cdot)

,然后利用图卷积和池化来获得一个简化的图特征,供分类器

p_{\phi}(\cdot)

利用,为图分配一个类标签。另一种节点分类的形式(Series-As-Node),将每个系列视为数据集图中的一个节点。Series-As-Node 构建一个表示给定数据集中多个不同系列之间关系的邻接矩阵 [65]。将长度为

T

的多个系列堆叠到矩阵

\bar{X} \in \mathbb{R}^{N \times T}

作为节点特征,并且 A 表示成对关系,GNN 操作

f_{\theta}(\cdot)

旨在利用不同系列之间的关系进行准确的节点系列分类 [66]。在所有情况下,

\mathbf{Y}

通常是一个表示单变量或多变量时间序列的分类标签的 one-hot 编码向量。

(a) 用于时间序列预测的图神经网络。

图神经网络用于时间序列插值

图神经网络用于时间序列异常检测

图神经网络用于时间序列分类:将绿色序列分类任务构建为图(顶部)或节点(底部)分类任务。

图 4:时间序列分析的四类图神经网络。为简单起见和说明目的,我们假设所有子图中的图结构都是固定的。

3.2 统一方法论框架

在图 5 中,我们展示了第 3.1 节中提到的用于时间序列分析的STGNNs的统一方法论框架。具体而言,我们的框架作为现有文献中编码时间序列数据的基础,涵盖了各种下游任务(图 3)。作为一个扩展,STGNNs通过考虑图中节点之间的关系和节点属性随时间演变的情况,融入了空间信息和时间信息。与[13]类似,我们从三个角度系统地对STGNNs进行分类:空间模块、时间模块和整体模型架构。

  • 空间模块。为了模拟随时间变化的时间序列之间的依赖关系,STGNNs采用了静态图上GNNs的设计原则。这些可以进一步分为三种类型:谱GNNs、空间GNNs和两者的组合(即混合)[30]。谱GNNs基于谱图论,使用图移位算子(如图拉普拉斯算子)来捕捉图中节点之间的关系,处于图频域[29],[67],[68]。与之不同,空间GNNs通过直接设计局部化到每个节点邻域的滤波器简化了谱GNNs。混合方法结合了谱和空间方法的优势。

图 5:用于时间序列分析的图神经网络的方法论分类。

图 6:使用图神经网络进行时间序列分析的一般流程。

  • 时间模块。为了考虑时间序列中的时间依赖关系,STGNNs结合了时间模块,与空间模块共同工作,以模拟复杂的空间-时间模式。时间依赖关系可以在时间域或频率域中表示。在第一类方法中,方法包括基于循环的(例如,RNNs [26]),基于卷积的(例如,TCNs [69]),基于注意力的(例如,Transformers [28])以及这些方法的组合(即混合)。对于第二类方法,采用类似的技术,然后是正交空间投影[29],例如傅里叶变换。
  • 模型架构。为了整合这两个模块,现有的STGNNs在其整体神经架构方面要么是离散的,要么是连续的。这两种类型可以进一步细分为两个子类别:分解和耦合。典型的分解STGNN模型架构中,时间处理要么在空间处理之前要么在之后进行,无论是以离散的方式(例如,STGCN [58])还是连续的方式(例如,STGODE [70])。相反,耦合模型架构指的是空间和时间模块交错的情况,例如DCRNN [71](离散)和MTGODE [23](连续)。其他作者将非常相关的类别称为时间-空间和时间与空间。

一般流程。在图 6 中,我们展示了一个通用流程,展示了如何将STGNNs集成到时间序列分析中。给定一个时间序列数据集,我们首先使用数据处理模块对其进行处理,该模块执行基本的数据清理和归一化任务,包括提取时间序列拓扑结构(即图结构)。随后,利用STGNNs获取时间序列表示,然后将其传递给不同的处理程序(即下游任务预测模块)来执行各种分析任务,如预测和异常检测。

4 用于时间序列预测的图神经网络

时间序列预测旨在基于历史观测值预测未来时间序列值。近年来,基于深度学习的方法通过更有效地捕捉非线性时间和空间模式,比线性对应物更有效地预测时间序列,取得了相当大的成功。已经采用了循环神经网络(RNNs)、卷积神经网络(CNNs)和基于注意力的神经网络等技术。然而,许多这些方法,如LSTNet [97]和TPA-LSTM [98],忽视并隐式地模拟了时间序列之间丰富的基础动态空间相关性。最近,基于图神经网络(GNN)的方法显示出在明确和有效地建模多变量时间序列数据中的空间和时间依赖关系方面具有巨大潜力,从而提高了预测性能。

基于GNN的预测模型可以从多个角度进行分类和研究。在预测任务方面,虽然许多模型侧重于多步预测(即基于历史观测值预测多个连续步骤),但少数模型也讨论了单步预测(即预测下一个或任意一步)。从方法论的角度看,这些模型可以从三个方面进行分析:(1)建模空间(即变量间)依赖关系,(2)建模时间依赖关系,以及(3)融合空间和时间模块进行时间序列预测。代表性作品的总结见表 2。

4.1 建模变量间依赖关系

空间依赖性或变量间关系在影响模型预测能力方面起着关键作用。当面对时间序列数据和相应的图结构,该图结构描述了时间序列之间相互连接的强度时,当前研究通常采用(1)谱GNNs,(2)空间GNNs或(3)两者的混合来建模这些空间依赖关系。在高层次上,这些方法都借鉴了图信号处理的原则(如定义 5 和后续讨论所述)。考虑到给定时间 t 的输入变量

\mathbf{X}_{t}

\mathbf{A}_{t}

,这里的目标是设计一个有效的基于GNN的模型,称为

\operatorname{SpATIAL}(\cdot)

,以在时间 t 时敏锐地捕捉不同时间序列的显著模式。这可以表示为

\hat{\mathbf{X}}_{t}=\operatorname{Spatial}\left(\mathbf{X}_{t}, \mathbf{A}_{t}\right)

,其中

\hat{\mathbf{X}}_{t}

收集了时间 t 时嵌入了空间依赖关系的所有时间序列表示。**

表 2:用于时间序列预测的代表性图神经网络总结。任务标记:第一个字母“M”或“S”表示多步或单步预测,第二个字母“S”或“L”表示短期或长期预测。架构标记:“D”和“C”代表“离散”和“连续”;“C”和“F”代表“耦合”和“分解”。时间模块标记:“T”和“F”表示“时间域”和“频率域”;“R”、“C”、“A”和“H”对应“循环”、“卷积”、“注意力”和“混合”。输入图标记:“R”表示预先计算的图结构(带有某种图启发式)是模型的必需输入,“NR”表示这样的图不是必需的(不是模型的输入),而“O”表示模型可以选择性地利用给定的输入图。学习图关系的标记:“S”和“D”表示“静态”和“动态”。采用的图启发式标记:“SP”、“PC”、“PS”和“FD”分别表示“空间接近度”、“成对连接性”、“成对相似性”和“功能依赖性”。“缺失值”列指出相应方法是否可以处理输入时间序列中的缺失值。

基于谱GNN的方法。早期基于GNN的预测模型主要利用ChebConv [99]来近似使用切比雪夫多项式进行图卷积,从而建模变量间的依赖关系。例如,STGCN [58]交叉了时间卷积 [100] 和 ChebConv 层,以捕捉空间和时间模式。StemGNN [54]进一步提出了谱-时间图神经网络,通过利用ChebConv和频域卷积神经网络来提取丰富的时间序列模式。其他相关研究大多遵循这一模式,利用ChebConv来建模空间时间序列依赖关系,并引入创新的修改。这些包括注意机制[75],[83],多图构建[46],[92],以及两者的组合[87]。最近,基于StemGNN,Jin等人[29]在理论上证明了使用谱GNN来模拟不同符号时间序列关系的好处,例如多变量时间序列中强正相关和负相关变量。他们还观察到,任何正交多项式族都可以实现类似的表达能力,尽管收敛速度和实证性能有所不同。混合方法。一些混合方法也存在,将光谱和空间图神经网络结合起来。例如,SLCNN [80] 使用 ChebConv [99] 和局部消息传递作为全局和局部卷积,以捕获多个粒度的空间关系。相反,Auto-STGNN [113] 整合了神经架构搜索,以确定高性能的基于图神经网络的预测模型。在这种方法中,各种图神经网络实例,如 ChebConv、GCN [107] 和 STSGCN [81],可以同时在不同的时空块中实现。

4.2 建模跨时间依赖关系

时间序列内部的时间依赖关系的建模代表了各种基于图神经网络的预测方法中的另一个重要元素。这些依赖关系(即时间模式)可以在时间域和/或频率域中进行建模。代表性方法的总结,以及它们的时间模块分类,如表2所示。给定长度为

T

的单变量时间序列

\mathbf{X}_{n}

,这里的主要目标是学习一个有效的时间模型,称为 TEMPORAL

(\cdot)

。预期该模型能够准确捕捉

\mathbf{X}_{n}

中数据点之间的依赖关系,使得

\hat{\mathbf{X}}_{n}=\operatorname{TemporaL}\left(\mathbf{X}_{n}\right)

,其中

\hat{\mathbf{X}}_{n}

表示时间序列

\mathbf{X}_{n}

的表示。在构建 TEmporaL

(\cdot)

时,可以在卷积和注意机制中同时利用时间域和频率域。循环模型也可以用于专门在时间域建模。此外,在两个领域中都存在混合模型,整合了不同的方法,如注意力和卷积神经网络。

循环模型。一些早期方法依赖于循环模型来理解时间域内的跨时间依赖关系。例如,DCRNN [71] 将图扩散与门控循环单元(GRU)[105] 结合起来,以建模交通预测中的时空依赖关系。ST-MetaNet [73] 结合了两种类型的 GRU 来编码历史观测,并捕捉与地理信息相关的多样化时间相关性。受 [71] 启发,MRA-BGCN [77] 将提出的基于多范围注意力的双分量图卷积与 GRU 结合起来。该模型旨在通过建模节点和边交互模式更好地捕捉时空关系。另外,AGCRN [82] 将 GRU 与 GCN 的分解变体以及图结构学习模块合并。一些研究,如 GTS [56] 和 RGSL [92],采用类似的设计,但主要强调不同的图结构学习机制。最近,回声状态网络(ESN)[114] - 一种具有稀疏和随机连接的 RNN 类型,产生丰富的动态 - 已被用于设计可扩展的模型,而不会影响性能。最后,图卡尔曼滤波器 [116] 在 GSS 模型 [109] 中引入反馈循环,以在获得实际系统输出时提高状态估计和预测的准确性。

卷积模型。另一方面,卷积神经网络(CNNs)为建模跨时间依赖关系提供了更高效的视角,大部分现有研究都集中在时间域。其中一个例子是 STGCN [58],它引入了时间门控卷积,将一维卷积与门控线性单元(GLU)结合起来,以便于可控的模型训练。采用类似方法的作品包括 DGCNN [117]、SLCNN [80] 和 LSGCN [83]。在这些基础上,Graph WaveNet [76] 结合了扩张因果卷积,显著扩展了感受野,而模型层数仅略有增加。STGODE [70] 和 STFGNN [49] 在捕捉时间依赖性方面产生了类似的设计。MTGNN [53] 也使用这些基本概念,但通过利用多个核大小增强了时间卷积。在此基础上进一步发展,MTGODE [23] 采用神经常微分方程 [118] 来概括这个建模过程。还有一些其他研究,如 Z-GCNETs [86],直接应用规范卷积来捕捉时间域内的时间模式,尽管重点不同。另一种方法,包括 StemGNN [54] 和 TGC [29],专注于在频率域中建模时间线索。StemGNN 应用门控卷积来过滤输入时间序列的离散傅里叶变换生成的频率元素。相反,TGC 通过在各个维度上单独卷积频率分量,以构建更具表现力的时间频率域模型。

注意力模型。最近,越来越多的方法转向注意力机制,例如 Transformer 模型中使用的自注意力,以嵌入时间相关性。例如,GMAN [79] 通过考虑空间和时间特征,通过注意力聚合历史信息。STGRAT [120] 模仿 Transformer 的架构,在其编码器中使用多头自注意力层,以嵌入历史观测和其提出的空间注意力机制。STAR [84]、TPGNN [88] 和 STEP [90] 同样使用 Transformer 层来建模每个单变量时间序列内的时间依赖关系。还有一些变体方法,如 ST-GDN [106] 提出的多尺度自注意力网络,旨在更精确地建模跨时间依赖关系。

混合模型。混合模型也在建模跨时间依赖关系中找到应用。例如,ASTGCN [75]、HGCN [121] 和 DSTAGNN [87] 同时使用时间注意力和卷积来学习时间相关性。STGNN*

[78]

将 GRU 和 Transformer 结合起来,以捕获局部和全局时间依赖关系。另一方面,Auto-STGCN [113] 在搜索高性能神经架构时,可能促进更多样化的组合。在频率域中,TGC 的非线性变体目前是唯一提出通过结合频谱注意力和卷积模型来捕捉时间关系的混合模型。

4.3 预测架构融合

鉴于所讨论的空间和时间模块,分别表示为

\operatorname{SpATIAL}(\cdot)

和 TEMPORAL

(\cdot)

,已经确定了四类神经架构融合作为捕捉时间序列数据中的空间-时间依赖关系的有效手段:(1)离散分解、(2)离散耦合、(3)连续分解和(4)连续耦合。在离散分解模型中,空间和时间依赖通常是独立学习和处理的。这种方法可能涉及在模型构建块内堆叠和交错空间和时间模块 [53]、[58]、[76]。另一方面,离散耦合模型明确或隐含地将空间和时间模块纳入单一过程中,用于建模空间-时间依赖关系,例如在 [122]、[77] 和 [81] 中。与离散模型不同,一些方法用神经微分方程来抽象底层建模过程,我们将其归类为连续模型。具体来说,连续分解模型涉及不同的过程,部分或完全连续(例如 |70|),用于建模空间和时间依赖关系。相反,连续耦合模型使用单一连续过程来完成这一任务,例如 [23] 和 [89]。

离散架构。许多现有的基于图神经网络的时间序列预测方法是处理离散数据的模型。例如,像 STGCN [58] 这样的分解方法采用图和时间门控卷积层的夹层结构作为其基本构建模块,促进了变量间和跨时间关系的建模。随后的作品,如 DGCNN [117]、LSGCN [83]、STHGCN [123] 和 HGCN [121],保留了这种模型架构,同时引入了增强功能,如动态图结构估计 [117]、超图卷积 [121] 和分层图生成 [121]。许多其他研究遵循类似原则,在其核心构建模块中堆叠不同的空间和时间模块。例如,STMetaNet [73] 将 RNN 单元和 GAT [108] 编织在一起,以建模不断变化的交通信息。类似的作品包括 ST-MGCN [46]、DSATNET [124] 和 EGL [125]。相比之下,ASTGCN [75]、DSTAGNN [87] 和 GraphSleepNet [126] 建立在空间-时间注意力和卷积模块之上,后者模块包括堆叠的 ChebConv [99] 和时间维度上的卷积。Graph WaveNet [76]、SLCNN [80]、StemGNN [54]、MTGNN [53]、STFGNN [49] 和 TGC [29] 共享类似的模型架构,但没有注意力机制。在离散分解预测模型的领域中还有其他设计。例如,STAR [84] 整合了提出的空间和时间 Transformer,而 ST-GDN [106] 则首先执行基于注意力的时间分层建模,然后应用各种图域变换。TPGNN [88] 使用时间注意力和提出的时间多项式图模块,更有效地捕捉时间序列数据中的时间演变模式。MTHetGNN [51] 将提出的时间、关系和异构图嵌入模块堆叠在一起,共同捕捉时间序列数据中的空间-时间模式。CausalGNN [127] 通过因果建模和基于注意力的动态 GNN 模块对多变量时间序列进行建模。Auto-STGCN [113] 探索不同空间和时间模块的高性能离散组合。 连续架构。迄今为止,只有少数现有方法属于连续模型范畴。对于分解方法,STGODE [70] 提出使用神经常微分方程(NODE)[118]将图传播描绘为连续过程。这种方法允许有效地表征长距离时空依赖性,同时沿着时间轴进行了扩张卷积。对于耦合方法,MTGODE [23] 将大多数相关工作中发现的空间和时间建模过程概括为一个统一的过程,将两个NODEs整合在一起。STG-NCDE [89] 提出了类似的想法,但是在神经控制微分方程(NCDEs)[133]框架下运行。类似地,最近的一项工作,TGNN4I [134],将GRU [105] 和MPNN [101]集成为ODE函数,以建模连续时间的潜在动态。

5 用于时间序列异常检测的GNN

时间序列异常检测旨在识别不符合数据生成过程正常规则的数据观测值 [135]。我们将异常定义为任何这样的数据点,否则使用术语正常数据;然而需要注意的是,文献中几乎可以互换使用不同的术语,如新奇性和异常值,来表示异常 [136]。与正常时间序列数据不同,异常很难进行表征,主要有两个原因。首先,它们通常与罕见事件相关联,因此收集和标记它们通常是一项艰巨的任务。其次,通常不可能确定潜在异常事件的全部范围,这破坏了监督学习技术的有效性。因此,无监督检测技术被广泛探索作为解决现实问题的实用方案。

传统上,方法 [138],如基于距离的 [139],[140],[141]和分布技术 [142],被广泛用于检测时间序列数据中的不规则性。前者使用距离度量来量化观测值与代表性数据点之间的差异,而后者查看低可能性点以识别异常。

深度学习的出现引发了重大进展,吸取了早期方法的经验。这一领域的早期研究提出了具有重建 [143] 和预测 [144] 策略的循环模型,以改进多变量时间序列数据的异常检测。预测和重建策略依赖于预测和重建误差作为预期信号与实际信号之间的差异度量。这些策略依赖于这样一个事实,即如果在正常数据上训练的模型无法预测或重建某些数据,则这些数据更有可能与异常相关。然而,循环模型 [145] 发现缺乏对变量对之间的显式建模,从而限制了其在检测复杂异常方面的有效性 [39],[146]。最近,GNNs已显示出有望通过有效捕获变量对之间的时间和空间依赖关系来弥补这一差距 [40],[60],[147]。

5.1 异常检测的通用框架

将异常检测视为无监督任务依赖于模型学习给定数据集的正常性概念 [159],[160]。为了实现这一点,深度学习架构采用一个由主干模块和评分模块组成的分叉模块化框架 [161]。首先,一个主干模型,BACKBONE

(\cdot)

,被训练以适应给定的训练数据,假定为正常或包含极少异常。其次,一个评分模块,

\operatorname{ScORER}(\mathbf{X}, \hat{\mathbf{X}})

,生成一个用于识别异常存在的分数,通过比较主干模块的输出

\hat{\mathbf{X}}=

BACKBONE

(\mathbf{X})

与观察到的时间序列数据

\mathbf{X}

。该分数旨在衡量正常和异常情况下预期信号之间的差异。当存在高差异分数时,更有可能发生异常事件。此外,对于模型诊断异常事件并找出责任变量也很重要。因此,评分函数通常首先计算每个单独通道的差异,然后将这些差异汇总到单个异常值中。

为了简单说明整个过程,主干可以是一个GNN预测器,为评分器进行一步预测。评分器然后计算异常分数,作为每个通道变量的绝对预测误差之和的表示,表示为

\sum_{i}^{N}\left|x_{t}^{i}-\hat{x}_{t}^{i}\right|

,跨

N

个通道变量。由于最终分数是基于通道误差的总和计算的,操作员可以通过计算每个变量对总误差的贡献来确定根本原因变量。

异常检测和诊断领域的进展导致了更全面的主干和评分模块的提出 [137],[161],主要受到GNN方法的采用的推动 [39],[40],[60],[162]。

5.2 异常检测的差异框架

所有提出的异常检测方法都遵循相同的主干-评分器架构。然而,主干模块如何训练以从正常数据中学习数据结构,以及评分模块的实施,将这些方法区分为三类:重建、预测和关系差异框架。

重建差异。重建差异框架依赖于这样一个假设,即在正常时期重建误差应该很低,但在异常时期应该很高。从高层次来看,它们基本上被设计为像自动编码器 [163] 一样将它们的输入复制为输出。然而,假设主干足够表达以很好地模拟和重建训练数据分布,但不能处理样本外数据。因此,重建学习框架通常会纳入某些约束和正则化项,例如强制低维嵌入代码 [164] 或应用变分目标 [165]。

一旦数据结构有效地学习,主干模型应该能够在非异常时期近似输入,因为这个输入会与正常训练数据密切相似。相反,在异常事件期间,预期主干模型在重建输入时会遇到困难,因为输入模式偏离正常,并位于流形之外。使用主干模块的重建输出,评分器

\operatorname{SCORER}(\cdot)

计算一个差异分数,以确定是否发生了异常事件。尽管深度重建模型通常遵循这些原则来检测异常,但GNNs和其他架构类型之间的一个关键区别在于主干重建器

\operatorname{BACKBONE}(\cdot)

,其特点在于其时空GNN实现。

表3:用于时间序列异常检测的代表性图神经网络总结。策略符号:"CL","FC","RC"和"RL"分别表示"Class","Forecast","Reconstruction"和"Relational Discrepancies"。其余符号与表2共享。

MTAD-GAT [39] 利用变分目标 [165] 训练主干重建模块。在推断期间,重建模块将为评分器提供观察到每个输入通道信号的可能性。评分器然后将这些可能性总结为单个重建差异,作为异常分数。通过为每个通道变量提供重建概率,MTAD-GAT可以诊断异常评分器,通过计算每个变量对差异分数的贡献。虽然MTAD-GAT与LSTMVAE [143] 共享相同的变分目标,但MTAD-GAT通过使用图注意力网络作为空间-时间编码器来学习变量间和时间间的依赖关系。从经验上看,它表现优于相同VAE目标上的LSTM

{ }^{1}

。有趣的是,MTAD-GAT还表明,图注意力网络中的注意力分数反映了正常和异常时期之间的显著差异。

GNNs通常需要了解图结构,而这种结构在时间序列异常检测数据中通常不容易获得 [145],[166]。为解决这个问题,MTAD-GAT简单地假设多变量时间序列中的空间变量之间存在全连接图。这种假设在现实场景中可能并不成立,并且可能会产生不必要的噪音,削弱学习正常数据潜在结构的能力。

为了回应这一问题,VGCRN [151] 首先为时间序列数据的通道变量分配可学习的嵌入。然后,VGCRN通过计算嵌入之间的点积生成通道间相似性矩阵

  1. 虽然MTAD-GAT也使用预测目标优化他们的网络,但其消融显示,仅使用重建在GNN上可以胜过其LSTM对应物。预测差异。 预测差异框架依赖于这样一种假设:在正常时期,预测误差应该很低,但在异常时期应该很高。在这里,骨干模块被替换为一个经过训练的 GNN 预测器,用于预测一步的预测。在模型部署期间,预测器进行一步预测,预测值被传递给评分器。评分器将预测与实际观察到的信号进行比较,计算预测差异,例如绝对误差[40]或均方误差[147]。重要的是,通常假定基于预测的模型在异常时期会表现出异常行为,当输入数据偏离正常模式时,会导致显著的预测差异。

应用基于预测的 GNN 来检测时间序列数据中的异常的开创性工作是 GDN [40]。GDN 的预测器由两个主要部分组成:首先是学习潜在图结构的图结构模块,其次是编码输入序列表示的图注意力网络。图结构模块为图注意力网络计算图邻接矩阵,以在学习的图上获得表达力强的表示,用于进行一步的预测。最后,评分器计算预测差异,作为通道变量中最大绝对预测误差,以指示是否发生异常事件。

有趣的是,GDN 表明异常事件可能表现为单个变量,其作为症状,而根本原因可能可以追溯到另一个单独的根本原因变量。因此,GDN 提出利用变量之间的学习关系来诊断这些事件的根本原因,而不仅仅依赖于每个变量对于诊断异常事件的根本原因的个体贡献。这是通过识别导致最大绝对误差的症状变量,然后确定其相邻变量来实现的。GDN 辨别这些关联的能力突显了 GNN 在通过自动学习变量间关系提供更全面的异常检测和诊断解决方案的潜力。

在统计方法的背景下,AZwhiteness 测试 [170] 是通过预测模型获得的预测残差进行操作的。假设预测模型在建模正常数据生成过程方面足够好,统计测试能够识别数据中的意外相关性,指示数据分布的变化。AZ 测试还能够区分串行相关性,即沿时间维度,以及观察到的不同图节点之间的空间相关性。类似地,残差的 AZ 分析 [63] 扩展了用于识别异常节点和时间步的分析工具集,从而提供更精细的检查和诊断。

关系差异。 关系差异框架依赖于这样一个假设:变量之间的关系应该在正常到异常时期出现显著变化。这个方向在 MTAD-GAT 工作中已经提到,其中观察到节点邻域中的注意力权重在异常时期往往与正常模式显著偏离。因此,利用时空 GNN 的潜力,涉及到利用其学习图结构的能力来进行异常检测和诊断的逻辑演进。在这种情况下,骨干模块充当图学习模块,构建变量之间的隐藏演变关系。评分器则是一个函数,评估这些关系的变化,并相应地分配异常或差异分数。

GReLeN [150] 是第一个利用学习动态图来从关系差异的角度检测异常的方法。为实现这一目标,GReLeN 的重构模块学习动态构建图结构,根据输入时间序列数据在每个时间点动态调整。构建的图结构作为评分器的输入,计算通道节点的入度和出度值的总变化。GReLeN 发现,通过关注每个时间点结构关系的突然变化,或称为关系差异,他们可以构建一个用于检测异常事件的稳健度量。

另一方面,DyGraphAD 采用预测方法来计算关系差异 [156]。该方法首先将多变量序列分成子序列,并将这些子序列转换为一系列动态演变的图。为了为每个子序列构建图,DyGraphAD 利用子序列中各通道变量的值之间的 DTW 距离。在这个预处理步骤之后,将 DTW 距离图视为基本事实或目标,并训练网络来预测一步的图结构。DyGraphAD 的评分器将图结构中的预测误差计算为用于异常检测的关系差异。

混合和其他差异。 每种基于差异的框架通常具有检测和诊断各种异常事件的独特优势。正如在 GDN [40] 中展示的那样,关系差异框架可以揭示隐藏在不同通道之间的关系模式中的空间异常。相比之下,预测差异框架可能特别擅长识别时间异常,如突然波动或季节性不一致。因此,一个全面的解决方案将涉及利用时空 GNN 的全部潜力,通过计算将多个差异组合为异常检测指标的混合度量。例如,MTAD-GAT [39] 和 FuSAGNet [60] 同时采用重构和预测差异框架,而 DyGraphAD [156] 则利用预测和关系差异框架的组合来增强异常事件的检测。在这些情况下,评分函数应设计为包含重构、预测或关系差异的组合。一般来说,异常分数可以表示为

S_{t}=\left\|\mathbf{X}_{t}-\hat{\mathbf{X}}_{t}\right\|_{2}^{2}+
\left\|\mathbf{A}_{t}-\hat{\mathbf{A}}_{t}\right\|_{F}^{2}

,分别捕获重构和关系差异。这里,

\mathbf{X}_{t}

\mathbf{A}_{t}

分别表示目标信号和变量间关系,而

\hat{\mathbf{X}}_{t}

\hat{\mathbf{A}}_{t}

则表示预测信号和变量间关系。

除了学习正常训练数据的潜在结构外,检测时间序列异常的另一种方法涉及将关于时间序列在异常事件期间可能表现的先验知识纳入考虑。为此,GraphSAD [157] 考虑了六种不同类型的异常,包括尖峰和下降、调整大小、扭曲、注入噪声、左右翻转和上下翻转,以在训练数据上创建伪标签。通过这样做,无监督异常检测任务可以转化为标准分类任务,其中类别差异作为异常指示器。

表4:时间序列分类的图神经网络总结。 任务标记:"

\mathrm{U}

" 和 "

\mathrm{M}

" 分别指代单变量和多变量时间序列分类任务。转换表示将时间序列分类任务转化为图级任务,作为图或节点分类任务,分别表示为 "Series-As-Graph" 和 "Series-As-Node"。其余标记与表2共享

6 GNN 用于时间序列分类

时间序列分类任务旨在根据其潜在模式或特征为给定时间序列分配分类标签。正如最近一项调查所概述的那样 [173],时间序列分类的早期文献主要集中在基于距离的方法上,用于为时间序列分配类标签 [174],[175],[176],以及集成方法,如基于变换集合的分层投票集成(HIVE-COTE)[177],[178]。然而,尽管它们的性能处于最前沿,但这两种方法的可扩展性对于高维或大型数据集仍然有限 [179],[180]。

为了解决这些限制,研究人员已经开始探索深度学习技术的潜力,以提高时间序列分类方法的性能和可扩展性。深度学习以其学习复杂模式和特征层次结构的能力,显示出在应用于时间序列分类问题方面的潜力,特别是对于具有大量训练标签的数据集 [181],[182]。关于基于深度学习的时间序列分类的全面讨论,请参阅 Foumani 等人最新的调查 [173]。

在这一领域中尤为引人注目的发展之一,是未被上述调查 [173] 涵盖的 GNN 在时间序列分类任务中的应用。通过将时间序列数据转换为图表示,可以利用 GNN 的强大能力来捕捉局部和全局模式。此外,GNN 能够映射特定数据集中不同时间序列数据样本之间的错综复杂关系。

在接下来的章节中,我们将就单变量和多变量时间序列分类问题提供全新的 GNN 视角。

6.1 单变量时间分类

例如,在医疗保健领域,心率读数等时间序列数据可用于健康状况分类。一个健康的个体可能呈现出稳定而有节奏的心率模式,而患有心血管疾病的患者可能表现出不规则节律或平均心率升高的模式。与预测未来数据点或检测实时异常不同,分类任务旨在区分这些系列之间的不同模式,从而基于这些识别出的模式实现健康状况分类。

接下来,我们将深入探讨两种用于单变量时间序列分类的新颖基于图的方法,即Series-As-Graph和Series-As-Node。

Series-As-Graph。Series-As-Graph方法将单变量时间序列转换为图,以识别独特模式,从而利用GNN进行准确分类。通过这种方式,每个系列被视为一个图,该图将成为GNN的输入,用于进行分类输出。

首先,将每个系列分解为子序列作为节点,并使用边连接节点以说明它们之间的关系。在进行这种转换后,应用GNN进行图分类。这一过程在图4d的上部块中表示。基本上,它旨在在GNN框架下建模跨系列样本的时间间隔依赖关系,以识别不同模式,将其归类为各自的类别。

Series-As-Graph的图分类视角最初由Time2Graph技术提出[183]。随后,该方法通过引入GNN进一步发展,成为Time2Graph+。Time2Graph+建模过程可描述为一个两步过程:首先,将时间序列转换为形状图,然后利用GNN来建模形状之间的关系。为构建形状图,Time2Graph算法将每个时间序列分成连续的段。然后,它采用数据挖掘技术为子序列分配代表性形状。这些形状充当图中的节点。节点之间的边是基于形状在时间序列中相继出现的条件概率形成的。因此,每个时间序列被转换为一个图,其中形状充当节点,转换概率创建边。构建图后,Time2Graph+利用图注意力网络以及图池化操作来推导时间序列的全局表示。然后,将该表示输入分类器,为时间序列分配类标签。

虽然我们使用Series-As-Graph来描述时间序列分类任务的图分类任务制定,但这不应与用于异常检测任务的Series2Graph方法混淆。将系列重新构建为图的策略并不局限于时间序列分类,正如Series

2 \mathrm{Graph}

所展示的。在各种任务和领域中使用这种策略突显了其固有的适应性,并强调了研究人员进一步探索其潜在价值的可能性。

Series-As-Node。由于捕捉不同系列数据样本之间的差异化类模式很重要,因此利用给定数据集中不同系列数据样本之间的关系有助于对时间序列进行分类。为实现这一目标,可以采用Series-As-Node方法,其中将每个系列样本视为单独的节点。这些系列节点通过代表它们之间关系的边连接,形成一个大图,提供整个数据集的完整视图。

Series-As-Node最初由SimTSC方法提出[65]。使用SimTSC,系列节点通过它们的DTW距离进行定义的边相互连接,构建一个图。在建模过程中,首先使用主要网络将每个时间序列编码为特征向量,从而创建节点表示。随后,实施标准的GNN操作以推导具有表现力的节点表示,捕捉系列之间的相似性。然后,将这些节点表示输入分类器,为数据集中的每个时间序列节点分配类标签。LBSimTSC [66]在SimTSC的基础上进行了扩展,通过使用被广泛使用的DTW下界LB_Keogh [185]来提高DTW预处理效率。这使得时间复杂度为

O(L)

,而不是

O\left(L^{2}\right)

,大大减少了计算时间。

Series-As-Node过程本质上将时间序列分类任务制定为节点分类任务。如图4d的下部块所示,Series-As-Node视角旨在利用不同系列样本之间的关系进行准确的时间序列节点分类。这也是一种尝试将经典基于距离的方法与先进的GNN技术相结合。虽然图中没有明确描绘,但重要的是要注意,相同的概念可以应用于通过修改将每个系列转换为节点的骨干网络来对多变量时间序列进行分类。

6.2 多变量时间序列分类

从本质上讲,多变量时间序列分类与其单变量对应物保持基本相似,但引入了一个额外的复杂层次:需要捕捉复杂的变量间相互依赖关系。

例如,患者数据通常不仅考虑心率,还包括来自多种健康传感器的时间序列,包括血压传感器、血糖监测仪、脉搏血氧仪等。每个传感器提供了反映患者健康特定方面的独特时间序列。通过在多变量分析中同时考虑这些时间序列,我们可以捕捉更复杂和相互关联的健康模式,这些模式仅从任何单个时间序列中无法看出。

类似地,脑电图(EEG)中的每个节点代表来自不同脑区的电活动。鉴于脑区之间的相互关联,单独分析一个节点可能无法完全捕捉全面的神经动态[186]。通过采用多变量时间序列分析,我们可以理解不同节点之间的关系,从而提供对脑活动更全面的视图。这种方法有助于区分能够将具有特定神经状况和没有特定神经状况的患者进行分类的复杂模式。

在这两个示例中,变量之间的关系或变量间的依赖关系可以自然地被视为网络图。因此,它们非常适合GNN的能力,正如在预测第4节中所示。因此,空间时间GNN,例如在预测任务中使用的那些[53],非常适用于多变量时间序列分类任务。通过将最终层替换为分类组件,可以实现这种适应。这些STGNN架构的独特设计使其能够捕获时间序列数据的跨时间和跨变量依赖关系。这里的主要目标是将高维系列数据的复杂性有效地提炼为更易理解但同样具有表现力的表示,从而使时间序列能够被区分为它们代表的类别[171],[172]。

空间时间GNN在解码多变量时间序列复杂性方面的熟练程度在Raindrop架构[37]中得到了明显展示。为了对具有缺失值的不规则采样数据进行分类,Raindrop自适应地学习图结构。然后在嵌入空间内动态地插值缺失观测值,基于任何可用的记录数据。这种灵活的方法确保数据表示在采样中存在任何不规则性时仍然既全面又准确。实证研究证明,即使在面对这种不规则性时,Raindrop也能保持稳健的高性能分类[37]。这些发现进一步强调了空间时间GNN在时间序列分类中的多功能性,突显了它们在具有缺失数据和不规则采样模式的情况下的有效性。

7 用于时间序列插补的GNN

表格5:时间序列插补的图神经网络综述。任务标记:“Out-of-sample”、“In-sample”和“Both”指的是方法所解决的插补问题类型。类型表示插补方法是确定性的还是概率性的。归纳性指的是方法是否能推广到未见节点。其余标记与表2共享。

7.1 在样本内插补

现有大多数基于图神经网络的方法主要集中在样本内时间序列数据插补上。例如,GACN [188] 提出通过在其编码器中交替使用GAT [108]和时间卷积层来建模时间序列数据中的空间-时间依赖关系。然后,通过组合GAT和时间反卷积层将缺失数据插补为将潜在状态映射回原始特征空间的数据。类似地,SPIN [190] 首先嵌入历史观测和传感器级协变量以获得初始时间序列表示。然后,这些表示经过多层稀疏空间-时间注意块处理,最终通过非线性转换获得最终的插补值。GRIN [41] 引入了图循环插补网络,其中每个单向模块包括一个空间-时间编码器和两个不同的插补执行器。本工作中采用的空间-时间编码器结合了MPNN [101]和GRU [105]。在生成潜在时间序列表示后,第一阶段插补使用一步预测值填充缺失值,然后通过最终的单层MPNN进一步优化,然后传递到第二阶段插补进行进一步处理。使用双向循环架构的类似作品包括AGRN [192]、DGCRIN [194]、GARNN [195]和MDGCN [196],其中主要区别在于中间过程。例如,AGRN和DGCRIN提出了不同的图循环单元,集成了图卷积和GRU以捕获空间-时间关系,而GARNN涉及使用GAT和不同的LSTM [202]单元来构成其模型架构中的图注意循环单元。MDGCN将时间序列建模为动态图,并通过堆叠双向LSTM和图卷积来捕获空间-时间依赖关系。最近,一些研究探讨了概率性的样本内时间序列插补,例如PriSTI [42],其中插补被视为一项生成任务。在PriSTI中,采用了类似的去噪扩散概率模型 [203] 架构,通过由关注力MPNN和时间注意组成的空间-时间去噪网络有效地对缺失数据进行采样。

7.2 样本外插补

迄今为止,只有少数基于GNN的方法属于样本外插补类别。在这些作品中,IGNNK [187] 提出了一种归纳GNN克里金模型,用于恢复未观察到的时间序列信号,例如多变量时间序列中的新变量或“虚拟传感器”。在IGNNK中,训练过程涉及掩码子图采样和使用[122]中介绍的扩散图卷积网络进行信号重建。另一个类似的作品是SATCN [189],它也专注于实时时间序列克里金。这两个作品之间的主要区别在于底层GNN架构,其中SATCN提出了一个空间聚合网络结合时间卷积来建模底层空间-时间依赖关系。值得注意的是,GRIN [41] 可以处理样本内和样本外插补,以及类似的后续作品 [191]。

8 实际应用

图神经网络已经应用于与时间序列分析相关的广泛领域。我们将GNN4TS的主流应用分类为六个领域:智能交通、按需服务、环境与可持续能源、物联网和医疗保健。

智能交通。随着GNN的出现,交通领域发生了重大变革,典型应用包括交通预测和航班延误预测。交通预测,特别是交通速度和量预测,在智能交通系统中至关重要。通过利用与空间-时间GNN相关的先进算法和数据分析,可以准确预测交通状况,从而促进有效的路线规划和拥堵管理。另一个重要应用是交通数据插补,涉及对缺失或不完整的交通数据进行估计。这对于维护交通数据库的完整性和确保交通分析和预测模型的准确性至关重要。还有与基于GNN的自动驾驶相关的研究,包括基于GNN的3D物体检测和运动规划,有望极大提高道路安全和交通效率。最后,航班延误预测是另一个重要应用,可以极大提升乘客体验并优化航空公司运营。通过分析诸如天气条件、空中交通和飞机维护计划等各种因素,实现这一目标。总之,智能交通通过其多样化的应用为更高效、安全和便利的交通系统铺平了道路。在这些应用中整合先进技术,如GNN,突显了智能交通的变革潜力,凸显了其在塑造未来交通中的关键作用。

按需服务。对于按需提供商品或服务的系统,GNN已经成为建模时间序列数据以准确预测个性化实时需求的强大工具。例如,在打车服务中,GNN捕捉不同地区乘车需求的复杂、时间动态,实现对打车需求的准确预测,从而促进有效的车队管理。同样,在共享单车服务中,GNN利用单车使用的空间-时间模式来准确预测需求,有助于优化单车分配和维护计划。在能源领域,GNN模拟影响能源需求的各种因素之间的复杂关系,提供准确的预测,有助于能源资源的有效管理。在旅游业中,GNN捕捉旅游数据中的时间趋势和空间依赖关系,提供旅游需求的准确预测,有助于优化旅游服务和基础设施。还有基于GNN的作品,模拟交付需求的复杂空间-时间动态,准确预测交付需求,促进有效的物流规划和运营。GNN4TS的出现显著提高了按需服务中需求预测的准确性,增强了其效率和个性化。在这些应用中整合GNN突显了其变革潜力,凸显了其在塑造未来按需服务中的关键作用。

环境与可持续能源。在与环境和可持续能源相关的领域,GNN在风速和功率预测方面发挥了重要作用,捕捉风速模式的复杂空间-时间动态,提供准确的预测,有助于风能资源的有效管理。同样,在太阳能领域,GNN用于太阳辐照度和光伏(PV)功率预测,模拟影响太阳能发电的各种因素之间的复杂关系,提供准确的预测。在系统监控方面,GNN已应用于风力涡轮机和光伏系统。对于风力涡轮机,GNN可以有效捕捉涡轮机性能数据的时间动态,实现风力涡轮机的高效监控和维护。对于光伏系统,GNN用于故障检测,利用PV系统数据中的空间依赖性准确识别故障,确保光伏系统的高效运行。此外,GNN已应用于空气污染预测和天气预报。通过模拟空气污染数据的空间-时间模式,GNN可以准确预测空气污染水平,有助于制定有效的空气质量管理策略。在天气预报中,GNN捕捉天气模式的复杂时间动态,提供对农业、能源和交通等各个领域至关重要的准确预测。

医疗保健

医疗保健系统涵盖了从个体医疗诊断和治疗到更广泛的公共卫生考虑,面临着多样化的挑战和机遇,这些挑战和机遇需要应用图神经网络(GNNs)来解决。在医疗诊断和治疗领域,图结构可以有效地捕捉各种医疗环境的复杂、时间动态,包括电子健康数据([256]、[257]、[258]、[259])、患者监测传感器([37]、[260]、[261])、脑电图(EEG)([126]、[186]、[262])、磁共振成像(MRI)等脑功能连接以及神经影像数据([263]、[264]、[265])。同时,对于公共卫生管理,已经提出使用GNNs来预测健康设备的有用寿命([266])和预测救护车需求([267])。最近,GNNs已被提议用于管理流行病爆发,因为时间图可以为疾病传播提供宝贵的见解,有助于制定有针对性的遏制策略([127]、[268]、[269])。总之,将GNNs与时间序列数据相结合具有巨大潜力,可以改变医疗保健领域,从完善医疗诊断和治疗到加强人群健康战略,突显了其在未来医疗保健研究中的关键作用。

诈骗检测

正如四要素诈骗金字塔所阐明的那样,实施诈骗不仅需要有动机和合理化,还需要相当程度的能力,这种能力通常只能通过在适当时机进行协调的集体努力来实现。这表明诈骗通常是由具有足够能力的实体所实施的,这主要可以通过在适当时期进行集体努力来实现。因此,诈骗者很少独自行动。他们的活动经常表现出不寻常的时间模式,进一步支持了对复杂诈骗网络活动固有的关系和时间动态的识别的必要性。为此,已经提出使用GNNs来捕捉这些复杂的关系和时间动态,这些关系和时间动态固有于诈骗网络活动。它们在各个领域都取得了成功的应用,例如在社交网络、金融网络和系统以及其他几个领域中检测欺诈和异常([273]、[274]、[275]、[276]、[277]、[278]、[279]、[280]、[281]、[282]、[283])。

其他应用

除了上述领域外,GNNs在时间序列分析中的应用还扩展到各个其他领域,如金融、城市规划、流行病控制和粒子物理。随着这一领域的研究不断发展,预计GNNs的应用将继续扩大,为数据驱动的决策制定和系统优化开辟新的可能性。

未来方向

预训练、迁移学习和大型模型

预训练、迁移学习和大型模型正逐渐成为增强GNNs在时间序列分析中性能的有效策略,特别是在数据稀疏或多样化的情况下。这些技术依赖于利用从一个或多个领域学到的表示来提高其他相关领域的性能。最近的成功案例包括Panagopoulos等人提出的用于数据有限城市COVID-19传播预测的模型无关元学习框架,以及Shao等人的增强时空GNNs的预训练增强框架。对于时间序列任务的预训练策略和GNN迁移性的探索是一个新兴的研究领域,特别是在当前生成AI和大型模型的时代,这展示了单一、多模态模型可以解决多样化任务的潜力。然而,仍然存在一些挑战,包括相对于大型语言模型(LLMs)的语言数据,时间序列数据的大规模预训练数据的有限可用性,以确保学到的知识的广泛覆盖和可迁移性,以及设计能够捕捉复杂时空依赖关系的有效预训练策略。解决这些挑战对于GNN4TS的未来发展和应用至关重要。

鲁棒性

GNNs的鲁棒性指的是它们处理各种形式的数据扰动和分布转移的能力,特别是那些被对手故意制造的扰动。当处理由快速演变系统生成的时间序列数据时,这一特性变得至关重要。GNNs内部的任何操作故障都有可能对整个系统的完整性产生不利影响。例如,如果一个GNN未能充分处理智能城市应用中的噪声或数据损坏,可能会破坏重要的交通管理功能。同样,在医疗保健应用中,GNN在干扰中保持鲁棒性的能力可能导致医疗服务提供者错过关键的治疗时期,可能对患者的健康产生严重影响。虽然GNNs在许多应用中表现出优越性能,但改善它们的鲁棒性并创建有效的故障管理策略仍然至关重要。这不仅增强了它们的可靠性,还扩大了它们在各种环境中的潜在用途。

可解释性

GNNs的可解释性在促进这些复杂工具的透明和负责任使用方面发挥着同样关键的作用。这一属性揭示了GNNs的不透明决策过程,使用户能够理解给定输出或预测背后的推理过程。这种理解有助于用户对系统产生信任,并能够发现数据中的潜在模式。例如,在药物发现和金融时间序列分析中,可解释性可以阐明因果因素,促进更明智的决策。随着我们努力发挥GNN4TS的全部潜力,推进其可解释性对于确保在日益复杂的环境中道德和审慎地应用它们至关重要。

不确定性量化

时间序列数据通常充满了由数据生成过程带来的不可预测的噪声和不确定性。模型考虑和量化不确定性的能力可以极大地增强其可靠性和实用性。不确定性量化为模型和系统状态估计的预测提供了概率度量,有助于理解潜在结果的范围和可能性。当GNNs用于高风险领域的决策过程时,如金融预测、医疗保健监测或智能城市中的交通预测,这一点尤为重要。尽管取得了进展,但当前的GNN模型仍存在一个差距,即它们主要提供点估计,未能充分解决潜在的不确定性。这突显了一个重要的研究方向:为GNNs开发复杂的不确定性量化方法,以更好地应对时间序列数据的复杂性。

这一努力不仅增强了预测的可解释性和可靠性,还促进了能够从不确定性中学习的先进模型的发展。因此,不确定性量化在推动GNN4TS的持续发展中起着至关重要的作用。

隐私增强

GNNs已经在时间序列分析中确立了它们作为不可或缺工具的地位,在各个领域的各种相互连接的系统中发挥着关键作用。随着这些模型在需要GNN强大数据预测和重构能力的领域中得到更广泛的应用,对严格的隐私保护需求变得日益明显。鉴于GNNs学习和重构复杂系统中实体之间的关系的能力,保护个体实体(节点)以及它们在时间序列数据中的关系(边)的隐私至关重要。此外,GNNs的可解释性可能是一把双刃剑。虽然它可以帮助识别和缓解容易受到恶意攻击的领域,但也可能通过揭示敏感信息使系统面临新的风险。因此,在充分利用GNN模型进行时间序列分析的好处的同时,保持强大的隐私防御需要一种微妙的平衡,这需要持续的警惕和不断的创新。

10 结论

这份全面的调查通过详细审查最新进展,并提供一个统一的分类法,从任务和方法论的角度对现有工作进行分类,填补了图神经网络用于时间序列分析(GNN4TS)领域的知识空白。作为首个这样的调查,它涵盖了广泛的任务,包括预测、分类、异常检测和填补,深入了解了GNN4TS领域的最新技术。我们还深入探讨了空间和时间依赖性建模以及整体模型架构的复杂性,提供了对个别研究的细致分类。突出了GNN4TS在各个领域不断扩大的应用,展示了它的多功能性和未来增长的潜力。这份调查为对这一领域的最新进展感兴趣的机器学习从业者和领域专家提供了宝贵的资源。最后,我们提出了潜在的未来研究方向,提供了启发和指导未来GNN4TS工作的见解。

自动机器学习和自动化。尽管图神经网络在时间分析中取得了显著成功[37],[39],[41],[53],但它们的实证实现通常需要精心设计的架构工程和超参数调整,以适应不同类型的图结构化数据[313],[314]。GNN架构通常是从其模型空间实例化的,并根据先前知识和迭代调整过程在每个图分析任务中进行评估[308]。此外,随着为不同用例提出的大量架构[34],[41],[65],[162],[173],要辨别最合适的选项对最终用户来说是一个重大挑战。

因此,在使用GNN进行时间序列分析中,自动机器学习和自动化在克服与各种模型架构相关的复杂性方面发挥着关键作用。它可以简化选择过程,提高效率和可扩展性,同时促进有效的模型优化[313],[315],[316]。此外,重要的是要注意,与其他方法相比,GNN并不总是最佳选择[317],[318],[319]。因此,在自动机器学习的更广泛格局中,必须认真评估它们的作用。通过鼓励可重现性和扩大可访问性,自动化使GNN为先进的时间分析带来了民主化的好处。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 图神经网络与推荐系统 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 论文名称:A Survey on Graph Neural Networks for Time Series: Forecasting, Classification, Imputation, and Anomaly Detection
    • 1 引言
      • 2 定义和符号
        • 3 框架和分类
          • 3.1 面向任务的分类法
          • 3.2 统一方法论框架
        • 4 用于时间序列预测的图神经网络
          • 4.2 建模跨时间依赖关系
          • 4.3 预测架构融合
        • 5 用于时间序列异常检测的GNN
          • 5.1 异常检测的通用框架
          • 5.2 异常检测的差异框架
        • 6 GNN 用于时间序列分类
          • 6.1 单变量时间分类
          • 6.2 多变量时间序列分类
        • 7 用于时间序列插补的GNN
          • 7.1 在样本内插补
          • 7.2 样本外插补
        • 8 实际应用
          • 医疗保健
            • 诈骗检测
              • 其他应用
                • 未来方向
                  • 预训练、迁移学习和大型模型
                  • 鲁棒性
                  • 可解释性
                  • 不确定性量化
                  • 隐私增强
                • 10 结论
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档