SOFTS：新SOTA，纯MLP模型架构实现高效多元时序预测

VachelHu

发布于 2024-06-25 20:33:40

3740

发布于 2024-06-25 20:33:40

文章被收录于专栏：时序人

多变量时间序列预测在金融、交通管理、能源和医疗保健等多个领域中扮演着至关重要的角色。最近的研究强调了通道独立性在抵抗分布漂移方面的优势，但忽视了通道间的相关性，限制了进一步的改进。一些方法通过使用注意力或混合器等机制来捕捉通道间的相关性，但它们要么引入了过多的复杂性，要么过于依赖相关性，在分布漂移下，尤其是在大量通道的情况下，难以取得满意的结果。

本文介绍最近的一篇探索如何在更好地建模通道(channel)之间的相关性的多元时间序列文章。文章旨在解决通道独立(channel independent)方法缺乏对通道之间相关性的利用，以及通道依赖(channel dependent)方法不够鲁棒的问题。研究者提出了一种新颖的中心化结构传递不同通道的信息，相比于分布式结构如 Attention，Mixer 等中心化的结构，既降低了计算开销，而且提高了对于异常通道的鲁棒性，以更低的复杂度获得更好的性能。

【论文标题】SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion

【论文地址】https://arxiv.org/abs/2404.14197

【论文源码】https://github.com/Secilia-Cxy/SOFTS

论文概述

在多元时间序列领域，存在两种建模方式，一种是通道独立（channel independent）方法，另一种是通道依赖（channel dependent）方法。如下图所示：

图来自论文Lu Han, Han-Jia Ye, De-Chuan Zhan:

The Capacity and Robustness Trade-off: Revisiting the Channel Independent Strategy for Multivariate Time Series Forecasting, TKDE2024.

通道独立策略将多元时间序列分解为多个单一时间序列，并应用统一的单变量预测模型进行处理。这种方法因其对非平稳数据的强大鲁棒性而受到广泛青睐，但它未能考虑通道间的相互关联，限制了其性能的进一步优化。

相比之下，通道依赖策略通过引入专门的通道信息融合机制来促进通道间的信息交流。然而，这类方法面临两难：一方面，它们可能过度依赖通道间的相关性，从而在面对序列非平稳性时缺乏足够的鲁棒性；另一方面，它们可能采用如注意力机制等复杂的关系建模技术，导致计算复杂度增加，难以在大规模应用中扩展。

因此，如何利用通道独立的鲁棒性，并且设计更鲁棒和高效的通道交互模块，是学术界优化多元时序预测方法所必须要考虑的问题。

为了解决上述问题，该文章提出了以下 3 个贡献：

提出了基于序列核心融合的时间序列（SOFTS）预测器，这是一个基于多层感知机（MLP）的简单模型，它以较低的复杂度展示了最先进的性能。
提出了 STAR（STar Aggregate-Redistribute）模块，它是 SOFTS 的基础。STAR 被设计为一个集中结构，使用一个核心来聚合和交换来自各个通道的信息。与注意力机制这样的分布式结构相比，STAR 不仅降低了复杂度，还提高了对通道中异常情况的鲁棒性。
通过广泛的实验，研究者验证了 SOFTS 的有效性和可扩展性。同时，STAR 的普适性也在各种基于注意力的时间序列预测器上得到了验证。

SOFTS方法及架构

SOFTS (Series-cOre Fused Time Series forecaster) 是一个简单且高效的基于 MLP 的方法。该方法通过多个通道的序列表示和整个多元序列的核心表示融合来实现通道之间关系的建模。

SOFTS 架构

SOFTS 和 iTransformer 一样，使用序列级别的 embedding，提取每个通道的表示。不同的是，SOFTS 通过一种星型聚合分发模块（STar Aggregate Redistribute module, 简称 STAR）提取不同通道的序列之间的相关性，交换不同序列的信息。最后，SOFTS 通过线性层对每个通道的未来做出预测。

SOFTS 主要架构

STAR 模块

STAR 是整个 SOFTS 方法的核心，它针对性地解决了现有通道交互模块的两个问题：

（1）Attention 等模块需要两两对比不同通道并计算相似度，导致平方级别的复杂度；

（2）这种两两比较易受通道本身的质量影响，而在现实的非平稳数据上，往往存在很多异常通道。

因此，研究者提出了 STAR 模块来解决分布式交互模块的效率低下问题。STAR 受到软件工程中星形集中式系统的启发，在该系统中，不是让客户端相互通信，而是有一个服务器中心来聚合和交换信息，其优点是高效且可靠。基于这一思想，STAR 通过一个核心代表所有通道的全局表示，将相互序列交互替换为间接交互。与分布式结构相比，STAR利用了通道统计信息的聚合带来的鲁棒性，从而实现了更好的性能。下图展示了 STAR 的主要思想以及它与现有模型（如注意力机制、图神经网络（GNN）和 Mixer）之间的区别。

具体而言，多个通道的序列表示首先通过一个 MLP 映射，然后通过一个 pooling 操作得到一个核心（core）向量，这个核心向量综合了不同序列的特征，代表了整个序列的全局信息，然后将这个核心向量拼接到每个表示后，并用另一个 MLP 层进行融合。整个过程的计算复杂度只与通道数量，序列长度等呈线性关系。

实验结果

在实验效果上，本文提出的 SOFTS 模型结构在现有的多元时序预测 benchmark 上均取得了比较明显的提升。这些显著的改进表明，SOFTS 模型在多变量时间序列预测任务中具有稳健的性能和广泛的适用性，特别是在具有大量通道的任务中在下表展示出的 24 个结果中，有 21 个是第一，3 个是第二。

基于纯 MLP 结构，SOFTS 能以更小的计算和存储代价获得更好的性能。下图(b)展示了在 Traffic 数据集上，不同模型在回看窗口 L=96、预测范围 H=720 和批量大小为 4 时的内存和时间使用情况。尽管基于线性或 MLP 的模型如 DLinear 和 TSMixer 资源消耗较低，但在通道数量较大时表现不佳。下图(a)探讨了图(b)中表现最佳的三种模型在内存需求方面的表现。该图显示，随着通道数量的增加， PatchTST 和 iTransformer 的内存使用量显著上升。相比之下，SOFTS 模型保持了高效的操作，其复杂度与通道数量呈线性关系，有效地处理了大量通道的情况。

通过 STAR 模块，SOFTS 能够调整异常序列的表征，下图(a)表示了进入 STAR 之前的序列表示，异常的通道出现在远离正常分布的位置，在这种表示上预测仅能获得 0.414 的预测误差，而通过 STAR 调整后，这些通道的表示被重新调整，根据不同序列的特征聚类到类似的正常通道附近，其预测性能也被提升至 0.374，提升幅度达 9%。其性能受通道噪声的影响也更小，如下图(c)。因此，采用 STAR 结构的 SOFTS 更具鲁棒性。

总结

尽管通道独立已被证明是提高多变量时间序列预测鲁棒性的有效策略，但通道间的相关性是进一步提升性能的重要信息。先前的方法在提取相关性时面临着模型复杂性和性能之间的两难困境。在本文中，研究者通过引入Series-cOre Fused Time Series预测器（SOFTS）解决了这一难题。SOFTS 在保持低复杂度的同时，实现了最先进的性能，并且通过创新的STar Aggregate-Redistribute（STAR）模块高效地捕捉了通道间的相关性。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-06-18，如有侵权请联系 cloudcommunity@tencent.com 删除

架构