时间序列表示学习的综述

算法进阶

发布于 2024-07-22 20:03:24

1.3K0

1 介绍

本文综述了时间序列数据中的通用表示学习方法，提出了一种新颖的分类方法，并讨论了其对提高学习表示质量的影响。文章全面回顾了各种神经网络架构、学习目标和数据相关技术，并总结了常用的实验设置和数据集。

此外，本文还讨论了未来研究方向，以帮助研究人员更好地设计先进的通用时间序列表示学习方法。研究挑战包括预测、分类、外生回归、聚类和检索。未来工作将关注提高表示学习品质，降低计算成本，并探索更有效的模型：图神经网络（GNN）适用于难以在欧几里得空间中表示的数据，如图表和时空数据。基于注意力的网络可以提供更多上下文信息，提高模型学习表示能力。神经常微分方程（NeuralODE）是一种定义连续时间模型的方法，将隐藏状态作为ODE初值问题的解来定义。神经架构方法可以通过组合基本构建块或从头设计神经架构来改善时间序列变量间的时间依赖性和相互关系的程度。研究可分为基础块组合和创新设计两类。

图1 时间序列表示方法的基本概念

图2 关键设计元素和下游评估协议

表1 本文与相关论文调查范围的对比

图3 选定的论文定量总结

表2 通用时间序列表示学习分类

2 准备工作

2.1 定义

时间序列。时间序列X是一组按时间顺序排列的数据点序列，每个数据点包含n个变量，序列长度为c。当n=1时，为单变量时间序列；否则，为多变量时间序列。音频和视频数据是多维时间序列的特殊情况。时间间隔通常为等间隔，表示任何可测量的量，如温度、销售数字或随时间变化的现象。

不规则采样时间序列。指的是观察间隔不一致或不规则排列的时间序列，如图4所示。这种情况通常在数据随机收集或事件不规则发生时出现，如传感器故障导致的不同观察间隔。因此，（x1，x2）和（x2，x3）之间的时间间隔可能不相等。

时间序列表示学习。给定原始时间序列X，目标是学习一个编码器e^，一个非线性嵌入函数，将X映射到隐空间中的表示向量Z = (z1, ..., zc)。Z长度可与X相同或更短。若c = n，Z则为每个t的特征向量表示；若c < n，Z为X的压缩版本，通常n为1，为系列表示。

评估表示学习品质的核心是看它是否能助力下游任务，无论是否需要微调。获取隐含表示Z后，我们通过它在下游任务中的实际性能来评估。常见的下游任务包括：

预测。时间序列预测（TSF）是通过建模历史观测的动态和依赖关系来预测时间序列未来值的过程。根据预测范围n，可进行短期或长期预测。给定时间序列X，TSF预测最可能发生的未来n个值（xT+1,...,xT+n）。

分类。时间序列分类（TSC）旨在将预定义的类标签分配给时间序列。数据集D={(Xi, yi)}，其中Xi是时间序列，yi是独热标签向量。若Xi属于类j，则yi的第j个元素为1，否则为0。TSC在D上训练分类器，学习区分不同类别的特征。当新数据集D'输入时，分类器自动确定每个时间序列的类别。

外生回归。时间序列外生回归（TSER）是一种用于估计时间序列之间关系的方法，主要用于预测一个或多个变量对另一个或多个变量的影响。该方法通常使用机器学习算法进行训练和预测。

聚类。时间序列聚类（TSCL）旨在将一组时间序列X={X_i}（i=1,...,N）划分为一组簇G={C1,...,C_i,C_|G|}，通过最大化簇内时间序列的相似性和簇间时间序列的差异性。形式上，对于任意两个时间序列X_i和X_j，若它们属于同一簇，则相似度度量函数𝑓𝑠(X_i,X_j)远大于𝑓𝑠(X_i,X_i)。

分割。时间序列分割（TSS）是一种为时间序列的子序列分配标签的方法。子序列由起始偏移量X_c到结束偏移量e的连续时间步骤中的观察值组成。在状态转移中，变化点是一个偏移量，表示相对于时间序列中的状态变化。TSS在时间序列中找到一组有序的变化点序列，确定所有变化点的数量和位置后，为时间序列中的每个段设置起始和结束偏移量。

异常检测。时间序列异常检测（TSAD）用于识别时间序列中显著偏离正常行为的异常时间点。该过程通过学习正常行为的表示，计算未见过的时间序列中所有值的异常分数，并通过与预定义阈值比较来判定异常。如果异常分数超过阈值，则该时间点被视为异常，否则为正常。

缺失值填补。时间序列填补（TSI）用现实值填补时间序列缺失值，便于后续分析。给定时间序列X和二进制变量𝑀，若𝑚t=0则t缺失，否则被观察。TSI生成的预测值表示为ˆX，填补后的时间序列Ximputed=X⊙𝑀+ˆX⊙(1−𝑀)。

检索。时间序列检索（TSR）是从数据集中找出与查询时间序列X_q最相似的一组时间序列。通过使用相似度度量函数𝑓𝑠(·,·)，在给定的数据集或数据库中，找到包含𐰾个时间序列的最相似列表Q={X_i} 𝑖=𐰾。

我们通常使用原始时间序列X的定义。执行下游任务时，我们可以使用相应的表示Z=𝑓𝑒(X)，而不是直接使用原始数据。

2.2 时间序列的独特属性

在本节中，我们将讨论现有研究已经探索过的用于时间序列表示学习的独特属性。由于以下属性，图像或文本数据的技术通常难以直接转移到时间序列。

2.2.1 时间依赖性

时间序列对时间变量具有依赖性，给定某个时间点的输入x𝑡，模型预测𝑦𝑡，但同一输入在稍后的时间可能是不同的预测。因此，通常将过去观察的窗口或子序列作为模型的输入来学习这种时间依赖性。用于捕捉时间依赖性的窗口长度也可能是未知的。此外，还有局部和全局时间依赖性。前者通常与突然变化或噪声相关联，而后者与集体趋势或重复模式相关联。

2.2.2 高噪声和维度

时间序列数据，特别是在现实世界环境中，通常包含噪声并且具有高维度。这些噪声通常来自测量误差或其他不确定性源。通过过滤噪声和降低原始时间序列的维度，降维技术和小波变换可以解决这个问题。然而，我们可能会失去有价值的情报，并且需要特定领域的知识来选择合适的降维和过滤技术。

2.2.3 变量之间的相互关系

这一特性在多变量时间序列中尤为显著。仅分析有限数量的变量时，我们很难确定是否有足够的信息来理解时间序列现象，因为可能存在过程或状态中隐藏的变量之间的关系。例如，在电子鼻数据中，通过将具有不同气体选择性的多个传感器组合起来来确定特定气味，并不能保证选择传感器可以识别目标气味。同样，在金融数据中，监测代表复杂系统的一小部分单一股票可能不足以提供足够的信息来预测未来值。

2.2.4 可变性及非平稳性

时间序列还具有可变性和非平稳性属性，这意味着统计特性（如均值、方差和频率）随时间而变化。这些变化通常揭示季节性模式、趋势和波动。这里的季节性指的是定期出现的重复模式，而趋势描述的是长期的变化或随着时间的推移而发生的变化。在某些情况下，频率的变化对于任务来说非常重要，因此在频率域中工作比在时间域中工作更有益。

2.2.5 语义多样性

与图像和文本数据不同，由于缺乏大规模统一的语义时间序列数据集，学习时间序列的通用表示具有挑战性。例如，文本数据集中的每个单词在不同的句子中有相似的语义，并且模型学习的词嵌入可以在不同场景之间进行跨场景和应用的迁移。然而，时间序列数据集很难获得具有一致语义的子序列（对应于文本序列中的单词），这使得它难以迁移模型学习到的表示。

2.3 时间序列的神经架构

在时间序列建模中，选择合适的神经架构以捕捉复杂的时序和依赖关系至关重要。本节简要介绍时间序列领域最前沿的神经网络架构及其基本构造，以呈现最先进的表示学习方法。

2.3.1 多层感知器（MLP）

MLP是最基本的神经网络架构，也称为完全连接（FC）网络。MLP的层数和神经元数量是可调的超参数。每一层的神经元都与下一层的所有神经元相连，这些连接带有权重。权重在应用非线性函数到输入后进行更新。然而，由于MLP在处理输入数据时仅使用单个固定长度的表示，不考虑数据点之间的时间关系，因此不适合捕捉时间依赖性和时间不变特征。每个时间步骤都由单独权重处理，时间序列元素被独立地学习。

2.3.2 循环神经网络（RNN）

RNN是一种具有内部记忆（即状态）的神经架构，专门设计用于处理序列数据，适合于学习时间序列中的时间特征。RNN在处理当前观察时可以参考过去的观察结果，从而提高了学习能力。然而，它们在建模长期依赖性方面效果不佳，计算成本也较高。基于RNN的模型通常使用“时间反向传播”技术进行迭代训练。由于RNN中的深度和权重共享，梯度在每个时间步骤上进行求和以训练模型，但由于链式法则而经历连续矩阵乘法，因此，梯度经常要么收缩到小值（即消失的梯度），要么膨胀到大的值（即爆炸的梯度）。这些问题导致了长期短期记忆（LSTM）和门控循环单元（GRU）的出现。LSTM通过在状态动态中整合具有门控机制的记忆单元，解决了标准RNN中的下标消失和爆炸梯度问题，从而控制了细胞之间的信息流。GRU是一种流行的RNN变体，可以控制信息流并记住跨多个时间步长的状态，类似于LSTM，但具有更简单的细胞架构。

2.3.3 卷积神经网络（CNN）

CNN是一种成功的神经架构，已在计算机视觉、语音识别和自然语言处理等领域得到验证。为处理时间序列，将输入数据编码为图像格式，使用卷积层聚合附近时间步骤的局部信息。卷积层由多个卷积核（滤波器）组成，通过计算不同的特征图来学习输入的特征表示。每个特征图的滤波器对所有输入的空间位置都共享，使用多个滤波器来获得整个特征图。对CNN进行了许多改进，如使用更深层次网络、应用更小且有效的卷积滤波器、添加池化层以降低特征图分辨率、以及利用批标准化来提高训练稳定性。对于时间序列，广泛使用的CNN架构是时间序列的一维CNN和时序卷积网络（TCN）。TCN使用全卷积网络使得所有层具有相同的长度，并采用因果卷积操作来避免未来时间步长到过去的信息泄漏。与基于RNN的模型相比，TCN显示出在各种下游任务中更为准确、简单和高效。

2.3.4 图神经网络（GNN）

GNN的目标是从数据的图表示中直接学习，适用于难以在欧几里得空间中表示的数据，如图表和时空数据。GNN接收图结构以及任何相关的节点和边属性作为输入，核心操作是图卷积，涉及在相邻节点之间交换信息，能处理多元时间序列数据。虽然RNN和CNN在欧几里得数据上表现良好，但在许多情况下，时间序列更自然地表示为图。然而，使用标准深度学习算法从图结构中学习具有挑战性，因为节点可能有不同的邻居节点数量，这使得应用卷积操作变得困难。因此，GNN更适合图数据。

2.3.5 基于注意力的网络

注意力机制由Bahdanau等人引入，用于提高机器翻译中编码器-解码器的性能，使解码器能够通过上下文向量关注目标中的每个源段的注意力。基于注意力的模型提供了更多的上下文信息来增强模型的学习和表示能力。注意力机制使模型关注输入中的重要特征，同时抑制不必要特征，提高模型的解释性。然而，由于参数数量较多，它可能会增加计算成本，在训练数据有限的情况下容易过拟合。自注意力模块已被证明在各种自然语言处理任务中非常有效，能够捕获文本中的长期依赖关系。通过堆叠多头注意力（称为Transformer）的前所未有的性能，人们做出了许多努力将多头注意力适应到时间序列数据中。时间序列的Transformer通常包含一个由多头自注意力层和前馈层组成的简单编码器结构，能够有效地建模长程依赖关系，Transformer在序列数据中表现出色。

2.3.6 神经常微分方程（Neural ODE）

Neural ODE是一种定义连续时间模型的方法，将隐藏状态h(t)作为ODE初值问题的解来定义。隐藏状态h(t)在所有时间步骤上都被定义，可以使用数值ODE求解器在任何所需的时间步骤上评估它。神经ODEs通常与RNN或其变体结合使用，以在观察时间对隐藏状态进行顺序更新。这些模型提供了一种替代的基于循环的解决方案，其处理不规则采样时间序列的能力比传统RNN具有更好的属性。

3 神经架构方法

神经架构对表示质量有重要影响。本研究着重于通过组合基本构建块或从头设计神经架构，以改善捕获多变量时间序列变量间的时间依赖性和相互关系的程度。据此，研究可分为基础块组合和创新设计两类。

3.1 基本块组合

该组的研究基于基本块组合，没有或对特定元素进行了微小额外修改。组合可以在神经架构的网络级别或模块级别进行。

3.1.1 网络级别组合

在时间序列学习方面，有基于小波的神经架构mWDN，通过集成多级离散小波分解到现有神经网络中，构建频率感知深度模型。还有基于dilation causal 1D-CNN的表示学习框架，用于提高长时间序列学习的效率和可扩展性。此外，还有名为MTRL的多任务表示学习方法，使用监督学习分类和无监督学习检索。

在视频学习方面，有T-C3D，整合了残差3D-CNN，捕获外观信息和运动信息，实现多粒度学习。还有MemDPC，使用增强记忆密集型预测编码，训练预测注意力机制。还有三模态的VilBERT启发模型，将视觉、姿态和音频模式的独立编码器集成到单个网络中。

3.1.2 模块级组合

音频Word2vec使用基于说话者内容解耦的分段序列到序列自编码器来捕获语音结构，SSAN使用可分离的自注意力模块来捕获视频的空间和时间相关性，Delta利用预训练视觉模型来处理时间序列数据，UniTTab使用Transformer框架来处理时间依赖异构表格数据，TimesNet使用新提出的神经网络模块TimesBlock将1D时间序列重塑为2D张量，One Fits All使用预训练语言模型（例如GPT-2）来处理时间序列数据，CoInception将膨胀卷积集成到Inception块中以构建具有广泛感受野的可扩展和鲁棒性强的神经架构。这些方法的研究展示了网络和模块级别创造性组合的混合，扩大了时间序列表示的范围，强调了深度神经网络中的适应性重要性。

3.2 创新性重新设计

与3.1节方法不同，本节着重于现有积木的新设计或改进。这些方法也可分为网络级和模块级设计。

3.2.1 网络级设计

Wu等人提出了基于动态时间变形算法的正定内核的时间序列表示模型，用于捕获相似性。STANE关注数据关键部分，解释网络嵌入结果。SASA建立对齐以处理具有不同时间滞后的时间序列域。Lee等人为双模态表示学习提出了BMA-Memory框架，允许特征关联。DTS是解耦表示学习框架，通过两个组件实现语义意义和可解释性。HyperTime引入隐式神经表示，用于时间序列填充和重建。Zhang等重新设计了序列模型，将其视为状态空间模型，形成SpaceTime层。HierCorrPool捕捉层次相关性和动态属性。Liang等提出了基于统一形状段基编码器和多尺度对齐的CSL表示学习框架。COMET使用不同级别的对比块来代表医学时间序列。MSD-Mixer采用不同的MLPs来混合多尺度时间模式和通道间依赖关系。为处理不规则时间序列，提出了基于时间核的自动编码器，学习与核函数对齐的表示。连续循环单元基于线性随机微分方程更新隐状态，通过卡尔曼滤波器解决。神经连续离散状态空间模型建模不规则采样的时间序列。去噪扩散模型为具有复杂动态的不规则采样时间序列提供表示学习方法。

3.2.2 模块级设计

LIME-RNN利用加权线性记忆向量改进RNN，用于时间序列填充和预测。TARNet是一种基于转换器的新表示学习模型，利用掩蔽层重建时间戳，以提高下游任务性能。WHEN模型利用小波变换，设计WaveAtt和DTWAtt模块，分别分析非平稳时间序列的动态频率成分和处理时间失真问题。新型模型压缩技术使用网络剪枝、权重二值化和任务特定修改的注意力模块，为多元时间序列问题提供轻量级Transformers。NuTime是一种处理时间序列预训练的窗口式数据嵌入方法，由归一化形状嵌入和多尺度数值嵌入组成。mTAN通过学习连续时间值的表示，TE-ESN利用必要的时编码机制从不规则数据中学习表示，而TimeFlow使用超网络调节隐式神经表示。这些方法展示了时间序列表示学习神经架构的多样化创新，包括随机扭曲序列、分层相关池化、解耦表示学习等技术。转换器应用展示了注意力机制对时间序列分析的适应性，而轻量级转换器的模型压缩技术解决了边缘设备的挑战。总体而言，这些进步提高了时间序列表示学习的可解释性、效率和性能。

4 以学习为导向的方法

学习过程应设计创新的任务或客观函数，可根据学习目标分为三种：监督、无监督和自监督学习。无监督学习基于输入重构，而自监督学习利用伪标签作为自我监督信号，使学习过程更客观有效。因此，自监督学习在多个领域具有广泛应用前景。

4.1 监督学习

监督表示学习算法通过在标记数据集上解决分类、预测和回归等任务，训练参数化特征编码器。它旨在自动学习通用特征提取器，而无需手动特征工程。针对特定任务的损失函数已开发，以端到端的方式训练模型，同时实现填充和预测。在弱监督设置中，使用软动态时间伸缩来计算相同类别的两个视频之间的损失。最后，提出了MSD-Mixer，并使用一种新颖的损失函数来约束分解残差的大小和自相关性，与目标下游任务的监督损失一起训练。监督学习方法利用标记实例来训练模型，针对下游任务（如分类）等特定目标函数进行定制化训练。然而，由于时间序列数据集中的标签不足，因此监督学习无法引起普遍表示学习社区的太多关注。此外，训练模型的可泛化性也有限。

4.2 无监督学习

无监督表征学习不需要标签样本来学习编码器，通过在数据集D上使用无监督损失函数来解决无监督任务。这种方法更实用，因为不需要标记实例。与有监督学习相比，无监督表征学习更适用于需要自我预测和重建输入的情况。

4.2.1 重建损失

重建损失是一种计算输入和输出之间差异的方法，用于自编码器等模型。Seq2Vec是一种无监督方法，通过预测单符号和序列模式来学习序列数据的低维连续特征向量。Chen等人提出了一种无监督音频Word2vec训练方法，结合了无监督的发音单词边界分割和音频Word2vec。Yuan等人提出了Wave2Vec，用于联合建模生物信号的内在和时间表示。Sanchez等人提出了一种卫星图像时间序列的方法，通过结合无监督学习技术来学习图像到图像的转换。Tonekaboni等人提出了一种生成方法，通过变分逼近将时间序列数据的局部和全局表示解耦。TiMAE是一种掩码自编码框架，通过学习较少启发式或分层技巧的强大表示来解决分布转移问题。Dong等人提出了SimMTM，另一种掩码自编码器，通过序列相似性学习和点式聚合从多个掩码时间序列重构原始时间序列。

4.2.2 掩码预测

掩码预测是一种关注预测输入的被掩码部分的方法，主要应用于无监督学习。这种方法使用编码器/解码器的架构，通过训练Transformer编码器来提取多变量时间序列的密集向量表示，使用随机掩码输入时间序列的去噪目标来实现无监督学习。例如，TST利用未标记的时间序列，通过训练Transformer编码器来提取多变量时间序列的密集向量表示，使用随机掩码输入时间序列的去噪目标来实现无监督学习。TARNet通过使用数据驱动的掩码策略来学习重建重要的时间戳来提高下游任务的性能。UniTTab在预训练阶段使用时间依赖异构表格数据的行和时间戳掩码以及邻域标签平滑来处理异构性问题。这些方法强调了无监督学习在从各种数据集中捕捉复杂模式和结构的灵活性和潜力。

4.3 自监督学习

自监督表征学习类似于无监督学习，因为它不需要标记的数据。然而，与无监督学习不同的是，自监督学习的损失函数（即预训练任务）不是直接使用输入数据进行学习，而是使用在数据集D={(X,y)}中被称为伪标签的自监督信号进行训练。由于标签的成本很高，自监督学习算法的流行度正在激增。在计算机视觉中，对比学习表现出色，对比损失在时间序列分析中引起了关注，展示了出色的性能。在这里，我们回顾了非对比和对比自监督学习的方法。

4.3.1 非对比损失

非对比损失利用数据中的内在结构、关系或模式作为训练的有效监督信号，例如基于参考时间序列片段预测给定片段是过去还是未来的数据。最近的工作中，Liang等人基于视频连续性将剪辑切割为三个连续的短剪辑，引入了新的预训练任务，包括剪辑连续性预测、断点定位和缺失部分近似。此外，还通过学习视频与其时间洗牌之间的近似编辑距离来捕捉视频的动态细节。这些方法旨在捕捉视频的内在特性，如速度，并评估变换的相对幅度。同时，还提出了多元时间序列建模方法来捕捉所有实例共享的空间关系。这些方法为自监督视频表示学习提供了新的思路。

4.3.2 对比损失

对比学习在时间序列分析中用于区分正样本和负样本，主要通过多种方法如T-Loss、时空对比（TS-TCC）、TNC、TS2Vec、自监督预训练策略、TimeCLR、自我监督相似性传递框架等。这些方法适用于学习时间序列的鲁棒表示，其中T-Loss的TS-Rep适用于不同长度时序，无需填充技术。对于不规则时间序列数据，TimeAutoML和PrimeNet利用对比学习框架实现自动化配置和超参数优化，并促进不规则模式表示学习。对于视频表示，Morgado等人使用360°视频数据进行音视频空间对齐作为对比学习中的负例。自监督表征学习在时间序列分析中降低了标签成本，所讨论的方法展示了不同策略在捕捉时间依赖和空间关系方面的优势，突显了自监督学习在提高效率和鲁棒性方面的多功能性。

5 数据为中心的方法

这一组的方法着重于探索新途径来优化现有训练数据的价值。为揭示时间序列的内在模式、趋势及特征，这些方法聚焦于数据工程，而非模型架构或损失函数设计。具体来说，数据为中心的方法包括三种技术：数据扩充、分解与变换以及样本选择。

5.1 数据扩充策略

此类研究旨在增加训练数据的规模和多样性。特别是在表征学习中，大多数对比学习方法通过数据扩充生成正例和反例样本。与其它类型的数据不同，时间序列数据扩充需要考虑时间序列的独特属性，如时间依赖性、多尺度依赖性和变量之间的依赖性。我们将每种方法进一步分类为随机或基于策略的扩充。

5.1.1 随机扩充

TS2Vec通过随机选择两个重叠的时间段进行对比学习，生成上下文，并考虑频率信息来提高表示质量。TF-C通过随机添加或删除频率成分引入频率域扩充，使模型暴露于一系列频率变化。TS-CoT通过增强对噪声时间序列的鲁棒性来促进对比学习，有助于表征学习整体的有效性。这些方法都旨在提高时间序列的表示质量，并促进对比学习。

5.1.2 基于策略的增强

TimeCLR通过动态时间扭曲的增强，诱导时间序列数据的相位偏移和振幅变化，同时保留其结构和特征信息。BTSF将整个时间序列作为输入，使用dropout作为实例级增强，以生成不同视图，更有效地捕捉时间序列的长程依赖性。InfoTS是一种自适应数据增强方法，使用信息意识的标准来选择最佳的数据增强，以生成用于对比学习可行正样本。RIM通过使用递归插值函数生成更多样本，控制增强的时间序列轨迹偏离原始轨迹的程度。上下文附加增强将目标实例的前后实例添加到目标实例中以形成其增强的实例，以充分利用时间序列的一致性特征。此外，还提出了使用频率域信息的方法，基于非平稳准周期时间序列的mixup技术，将同一类样本连接在一起，以在潜在空间中找到秩序。对于视频数据，提出了重叠增强的技术，强调空间和时间特征的新的自监督视频表示学习技术，以及FreqAug和DynaAugment等方法。这些增广技术增强了模型处理嘈杂和多样性的时间序列数据的能力，还确保了基本的时间和频谱属性的保留。

5.2 分解和变换

与增加样本数量的上述技术不同，本子类别中的方法旨在从训练数据中提取更有意义的信息。

5.2.1 时间序列分解

mWDN[48]是早期将多层次离散小波分解与深度神经网络结合的方法，旨在保留频率学习优势并优化微调参数。方等人[97]将多变量时间序列的空间关系分解为先验图和动态图，模拟共同和独特相关性。Behrmann等人[129]通过对比学习，将视频表示空间分为静态和非静态特征，以增强视频级别任务如分类和动作分割。Zeng等人[128]通过学习局部/全局空间-时间特征，提高下游任务泛化能力，捕获视频全局和本地信息。Yang等人[130]提出统一框架，将视听语音分解为特定和不变模态特征，增强视觉和音频模态间的语言表示对齐。

5.2.2 输入空间变换

研究人员将一维时间序列转换为二维图像或张量，以利用视觉模型。这种方法通过捕获时间序列内个体周期和跨多个周期的变化来增强表示能力，打破了原始一维空间中表示能力的瓶颈。为了解决涉及不规则时间序列数据的问题，一些输入空间变换技术已被提出，如SplineNet和MIAM。SplineNet从输入时间序列生成样条并直接将其用作神经网络的输入，引入了可学习的样条内核以处理输入样条。MIAM考虑了输入数据的多个视图，包括时间间隔、缺失数据指示器和观测值，这些变换后的输入数据由多视图集成注意力模块处理以解决下游任务。时序图网络通过在时序边缘之间创建一个稀疏的接近性矩阵来训练边表示，显著增强了深度模型分析和处理时间序列和视频数据的能力，扩大了视觉骨干网络的适用性和性能。

5.3 样本选择的方法

这一组中的方法旨在基于可用训练数据生成或选择最有用的样本，以增强所学习表示的实用性。

5.3.1 生成方法

样本生成是一种技术，当数据稀缺时，它可增加训练数据的规模和多样性。Nguyen等人提出了一种新型的抗噪声采样策略，利用无参数离散小波变换低通滤波器来生成原始时间序列的微扰版本。LAVILA使用可用的视频-文本数据，通过微调大型语言模型（LLM）来学习更好的视频-语言嵌入，并利用微调后的叙述器密集注释的视频进行视频-文本对比学习。这些方法有助于增强对噪声的抵抗力。

5.3.2 重新采样策略

重新采样策略在时间序列表示学习中起着关键作用，通过选择最佳样本来优化表示学习。早期工作使用基于时间的负采样（T-Loss），通过从其他时间序列中选择子系列来创建负样本，而引用时间序列内的子系列被视为正样本。MTRL利用有鉴别力的样本设计了一个加权距离采样策略，以提高收敛速度和准确性。

生成方法和采样策略在增强训练数据的功效和多样性方面发挥着关键作用，但大多数时间序列表示学习方法专注于提取对下游任务有用的特征，因此样本生成可能不太受欢迎。由于缺乏可用于样本生成的通用基础模型，与其他数据类型相比，时间序列表示学习更具挑战性。

6 实验设计

本节介绍了用于比较时间序列通用表示学习方法的典型实验设计，包括评估每个模型以确定最佳模型的方法，以及将表示空间映射到标签空间的函数。通过学习到的表示能够泛化到未知的下游任务中，常见的评估方法是学习到的表示如何帮助解决下游任务。通常，使用简单的函数如线性回归、支持向量机或浅层神经网络来实现映射。

6.1 评估程序

我们定义了下游数据集D，并使用特定评估指标来比较编码器𝑓𝑒。评估程序包括训练编码器𝑓𝑒和𝑔𝑑，然后比较特定任务的评估指标值。评估编码器有两种常见协议：冻结和微调。冻结协议中，我们不对预训练的𝑓𝑒进行更新，训练𝑔𝑑使用的计算预算较少，收敛速度更快。微调协议中，我们同时训练预训练的𝑓𝑒和𝑔𝑑，以获得下游任务的性能提升。微调协议比冻结协议需要更多的计算预算，但在实践中表现得更好。

6.2 基准数据集和下游任务的度量标准

我们总结了多种时间序列任务（如预测、填补、分类、聚类、回归、分割和异常检测）所使用的基准数据集和评估指标。一些数据集适用于特定任务，而其他则更通用。这些数据集涵盖了电力、交通、气象学、金融和控制系统等多个应用领域。

对于预测和填补任务，常用的数据集包括ETT、Traffic、Weather、Exchange和MoJoCo等。评估这些任务时，常用的指标是均方误差（MSE）和平均绝对误差（MAE）。
对于分类和聚类任务，我们通常采用如UCR、UEA、HAR和PhysioNetSepsis等数据集。评估分类任务时，我们使用准确性、精度、召回率和F1分数等指标。而评估聚类任务时，则使用轮廓系数、调整随机指数（ARI）和归一化互信息（NMI）等指标。
时序回归任务使用的数据集较少，例如心率监测和空气质量数据集。评估时，主要使用MSE、MAE、RMSE和R平方（R^2）等指标。
对于时间序列分割任务，常用的数据集有UTSA和TSSB。评估时，主要使用F1分数和覆盖分数。
异常检测任务中，我们建议使用ASD、TimeSeAD和TSB-UAD等数据集。评估时，点调整F1分数是常用的指标，但存在过度估计的问题。因此，更稳健的评价指标如VUS、PA%K和eTaPR正在被采用。
在检索中，尽管某些研究使用了特定数据集（如EK-100、Howto100M和MUSIC）进行检索任务，但此任务可使用任何基准数据集评估，因为它基于任意查询时间序列。对于时间序列检索，常使用分类的基准数据集（如UCR）。评估采用top-k召回率作为标准度量，用于检查top-k结果与地面真实的重叠百分比，k值一般设为5、10和20。

6.3 附加内在表示质量指标

最近研究采用中心化核配准（CKA）相似性评估学习表示的内在质量。CKA相似性高则表示相似。底层表示含低级信息，相似性低则顶层与底层不同，模型倾向学习高级或抽象信息。预报和异常检测精度与CKA相似性高相关，而填充和分类结果与低CKA相似性对应。低CKA相似性表示分层表示。这些结果揭示不同任务所需的表示属性，因此可用此指标评估编码器对不同任务的适应性。

7 开放挑战和未来的研究方向

在这一部分，我们将讨论时间序列分析方面的开放挑战，并概述有望增强现有通用时间序列表示学习方法的未来研究方向。

7.1 时间序列注释和主动学习

时间序列数据标注具有挑战性，因为时间序列数据的复杂性和长度增加了成本，特定领域性质和缺乏公开访问的来源使得获得带标注的时间序列具有挑战性。领域专家也可能难以提供一致的标注，因为不同标注者对时间序列形状的感知可能不同。主动学习通过选择最具信息含量的未标记实例并请专家对其进行标注来最小化标记成本，有望成为一种有效的标注过程，为时间序列表示学习提供更强大的监督信号。因此，开发利用主动学习的有效标注过程预计将成为一项有前途的研究方向。

7.2 分布迁移与适应

训练数据和测试数据之间的分布迁移是导致模型在测试阶段表现不佳的因素之一。为了解决这些问题，研究人员应该考虑使用基于差异和对抗性方法来开发适用于通用表示学习的分布迁移适应算法。在测试阶段解决分布迁移对于学习各种下游环境的表示非常重要。同时，概念漂移和领域迁移也可能导致分布迁移，降低模型性能。

7.3 可靠的数据增强

数据增强在时间序列分析中至关重要，但现有技术如抖动、移动、缩放和弯曲等可靠性尚未得到充分验证。近期研究开始关注数据增强的可靠性，并开发新技术或适应性策略，但仍然依赖经验方法确定数据增强。因此，需要设计一种评估方法，以评估时间序列数据增强的可靠性，并估计选择最佳增强策略的可靠性和有效性。

7.4 神经架构搜索

近年来，神经架构搜索被用于自动设计高效深度学习模型以进行通用表示学习，但在时间序列领域的应用仍较少。未来的重要方向是自动发现适用于时间序列的通用神经架构，特别是对于高维度和大量新生成时间序列的行业规模时间序列。这将有助于提高时间序列表示学习的性能和效率。

7.5 大型语言模型和基础模型

大型语言模型（LLMs）的应用改变了自然语言处理和计算机视觉领域。将LLMs集成到时间序列表示学习模型中，可提升模型的表示能力，捕捉时间依赖模式中的含义。LLMs与现有深度学习方法的性能相当，未来研究有望将时间序列表示与语言嵌入对齐，提高多模态或多元时间序列领域的性能。

7.6 不规则采样时间序列的表示

不规则时间序列在众多领域均有应用，但现有的深度学习模型处理起来困难。一些方法尝试修改模型或使用神经微分方程，但存在训练时间不稳定和隐藏状态限制等问题。因此，以数据为中心的研究方向是整合不规则性原因到学习过程中，以获取更精确的不规则时间序列表示。

7.7 多模态和多视图表示学习

视觉语言模型在零样本学习和视觉相关下游任务中表现优异，利用人类语言语义，可通过多视图表示时间序列。构建大型多模态时间序列-文本数据集将成为有前途的方向，因注释时间序列数据具挑战性且领域特定。时间序列-语言表示学习将更具表现力和精细语义。