前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >KDD 2023 | TSMixer: 效果比肩 Transformer 的轻量级多元时序预测模型

KDD 2023 | TSMixer: 效果比肩 Transformer 的轻量级多元时序预测模型

作者头像
VachelHu
发布2023-09-27 17:00:53
2.3K0
发布2023-09-27 17:00:53
举报
文章被收录于专栏:时序人时序人

#TSer#

Transformer因其捕捉长序列交互的能力而在时间序列预测中备受青睐。然而,尽管计算感知的自注意力模块取得了许多进展,但其对内存和计算的需求仍然是长期预测的一个关键瓶颈。

最近,来自IBM研究机构的研究者们为了解决上述问题,提出了TSMixer,这是一种轻量级的仅由多层感知机(MLP)模块组成的神经架构。TSMixer的灵感来自于在计算机视觉中成功使用的MLP-Mixer模型,并且特别为时间序列数据设计。研究者强调了在将MLP-Mixer应用于时间序列数据时所面临的挑战,并提出了一些创新的组件来提高准确性。这些组件包括在线协调头,用于建模时间序列的属性,如层次结构和通道相关性,一种混合通道建模方法来处理噪声通道相互作用,以及一种门控注意力机制来优先处理重要特征。

目前,该工作被数据挖掘领域顶级会议KDD 2023收录。那么,具体方法是什么样?本文将为大家简要介绍。

论文地址:https://arxiv.org/abs/2306.09364

论文源码:暂未公布

训练方法

01

训练方法

监督训练:

通过“预测”工作流进行训练。首先,输入的历史时间序列经过一系列的转换(归一化、分块和排列)。然后,进入TSMixer主干进行主要的学习过程。预测头将主干的输出嵌入转换为基础预测值。模型可以通过最小化基础预测的均方误差(MSE):

来进行训练。

自监督训练:

分为两个阶段。首先,使用自监督目标对模型进行预训练。(参见图1中的“pretrain”工作流程)然后,通过监督训练流程对预训练模型进行微调。自监督预训练在NLP、视觉和时间序列任务中已被证明是有效的。在本文中,采用了掩码时间序列建模(MTSM)任务作为自监督目标。

图1: 高级模型体系结构

MTSM任务会随机对输入patches应用掩码,并训练模型从未被掩码的输入patches中恢复被掩码的patches。预训练工作流程中的其他输入变换与预测工作流程中的相同。MTSM任务最小化了被掩码patches上的MSE重构误差。由于TSMixer的模块化设计,它可以通过仅更改模型头(并保持backbone不变)来用于有监督或自监督训练。

02

模型组件

本文中,研究者讨论了为了提高性能而引入到基本的MLP-Mixer模型中的建模组件。高级架构如图1所示。对于随机梯度下降(SGD),每个小批量数据

是通过移动窗口技术从𝑿中生成的。图1展示了一个小批量数据的前向传播过程以及其形状。

实例归一化。输入时间序列段通过可逆实例归一化(RevIN)进行处理。RevIN对数据分布进行标准化(即去除均值并除以标准差),以解决时间序列中的数据偏移问题。

Patching。每个单变量时间序列被分割成具有步长𝑠的重叠/非重叠patch。对于自监督训练流,patch必须是严格非重叠的。小批量

被重塑为

,其中𝑝𝑙表示patch长度,𝑛是patch数量(因此,𝑛=⌊(𝑠𝑙−𝑝𝑙)/𝑠⌋+1)。然后将patch后的数据排列为

并将其输入到TSMixer主干模型中。Patching将模型输入tokens的数量减少了𝑠倍,因此与标准的点对点Transformer方法相比,显著提高了模型运行时间性能。

TSMixer主干网络。研究者提出了两种新型主干网络:通道独立的骨干网络(CI-TSMixer)和跨通道骨干网络(IC-TSMixer)。它们在MLP混合层架构上有所不同。CI-TSMixer骨干网络受到PatchTST模型的启发,其中MLP混合层在通道之间共享,迫使模型在通道之间共享可学习的权重。这导致模型参数减少。在IC-TSMixer中,骨干网络中激活了一个额外的跨通道混合模块,以显式捕获跨通道依赖性。

MLP Mixer层。TSMixer主干堆叠了一组混合层,类似于Transformer中的编码器堆叠。直观上,每个混合层(图2b)试图学习三个不同方向上的相关性:(1)不同patch之间,(2)一个patch内的隐藏特征之间,(3)不同通道之间。前两个混合方法是从视觉MLP-Mixer中采用的,而最后一个是为多变量时间序列数据特别提出的。跨patch混合模块使用共享MLP(权重维度=𝑛×𝑛)来学习不同patch之间的相关性。intra patch混合块共享的MLP层混合了隐藏特征的维度,因此权重矩阵的维度为ℎ𝑓×ℎ𝑓。

图2:TSMixer 中的不同主干网和mixer layers的组织架构

门控注意力(GA)块。时间序列数据往往有很多令人困惑的重要特征。为了有效地过滤掉这些特征,研究者在每个混合组件的MLP块后添加了一个简单的门控注意力。GA起到一个简单的门控函数的作用,基于其特征值,以概率方式放大主要特征并缩小不重要的特征。通过将注意力权重与从混合模块中获得的隐藏张量进行点积运算,可得到门控注意力的输出:

(如图3b)。使用标准混合操作增强GA可以有效地引导模型关注重要特征,从而改善长期交互建模,而无需复杂的多头自注意力。

图3: 论文的 MLP block 设计对比原始的 MLP-Mixer

模型头。基于训练方法(即监督学习或自监督学习),要么向主干添加预测头,要么添加预训练头。两个头都采用简单的线性层,并在将所有patch的隐藏特征展平后使用dropout(如图4)。默认情况下,头在通道间共享相同的权重。预测头的输出是预测的多变量时间序列(

),而预训练头的输出是与输入相同维度的多变量序列(

)。

图4: 预训练与推理预测中的head

Forecast online reconciliation。研究者提出两种新的方法(在预测工作流中,请参见图1)来调整原始预测,即

,基于时间序列数据的两个重要特征:固有的时间层次结构和跨通道依赖性。研究者所提出的TSMixer模型可以激活其中任意一个或两个特征,以获得reconciled预测。

实验设置

在数据集处理方面,研究者使用了7个流行的多元数据集对所提出的TSMixer模型进行了性能评估,这些数据集在文献[1][2][3]中广泛用于基准测试多元预测模型,并可在[4]中公开获得。研究者遵循与[1]相同的参数设置(例如训练/验证/测试拆分比例)。

[1] Yuqi Nie, Nam H. Nguyen, Phanwadee Sinthong, and Jayant Kalagnanam. 2022. A Time Series is Worth 64 Words: Long-term Forecasting with Transformers.

https://doi.org/10.48550/ARXIV.2211.14730

[2] Ailing Zeng, Muxi Chen, Lei Zhang, and Qiang Xu. 2022. Are Transformers Effective for Time Series Forecasting? arXiv preprint arXiv:2205.13504(2022).

https://arxiv.org/pdf/2205.13504.pdf

[3] Haixu Wu, Jiehui Xu, Jianmin Wang, and Mingsheng Long. 2021. Autoformer:

Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting. In Advances in Neural Information Processing Systems.

[4] Ailing Zeng, Muxi Chen, Lei Zhang, and Qiang Xu. 2022. Github Repo: Are Transformers Effective for Time Series Forecasting? arXiv preprint arXiv:2205.13504(2022). https://github.com/cure-lab/LTSF-Linear

该论文的实验部分主要比较了TSMixer模型与其他基准模型在多变量时间序列预测任务上的性能。首先,比较了不同的通道混合技术,结果表明CI-TSMixer模型在均方误差(MSE)指标上相对于V-TSMixer模型有13.5%的改进(见表1)。

表1: 通道混合技术比较 (MSE)

研究者还将TSMixer模型与其他自监督学习的基准模型进行了比较,结果显示CI-TSMixer-Best模型相对于现有的基准模型在预测准确性上有50-70%的改进(见表2)。

表2:通过表征学习进行预测 (MSE)

此外,论文还分析了TSMixer模型中的各个关键组件和设计选择的影响,例如通道独立性、门控注意力和层次调和等。总体而言,TSMixer模型通过引入通道独立性和其他增强组件,在多变量时间序列预测任务中取得了较好的性能改进。

总结

研究者在受到视觉领域MLP-Mixers成功启发后,提出了TSMixer,这是一种纯粹设计的MLP架构,具有经验上验证的针对时间序列的特定增强功能,用于多元预测和表示学习。特别是研究者引入了一种新的混合架构,将各种reconciliation heads和Gated attention增强到通道独立的骨干网络中,这极大地增强了简单MLP结构的学习能力,使其超越了复杂的Transformer模型。

通过广泛的实验,研究者表明TSMixer显著减少了计算资源,且优于所有流行的基准。在未来的工作中,研究者计划将TSMixer扩展到其他下游任务(如分类、异常检测等),并提高跨数据集的转移学习能力。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-09-26 19:30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 时序人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档