时序论文32｜AAAI24通过DropPatch增强时间序列建模

科学最Top

发布于 2024-12-19 21:26:10

3010

文章被收录于专栏：科学最Top科学最Top

论文标题：Enhancing Masked Time-Series Modeling via Dropping Patches

前言

读本文首先要了解掩码建模这种自监督预训练方法，既通过基于未掩码部分重建掩码内容来改进表征学习，促使模型学习到更具鲁棒性和通用性的表征，这种方法早先已广泛应用到CV和NLP等领域。

Patch TST就应用掩码建模方法来进行时间序列分析，方法是将时间序列分割成片段（相邻值的片段）并应用片段级掩码策略，但本文作者观察到，以PatchTST为代表的掩码时间序列建模面临着一个困境：相对较低的掩码比例会降低学习有用特征的效率，此外被掩码的片段可以在不理解潜在模式的情况下被恢复，从而导致表面学习和过拟合，如图1（A）所示。当然一个改进策略是增加掩码比例，但另一个问题出现了：过多的掩码片段的存在会进一步稀释注意力机制专注于数据相关和有信息部分的能力，既分散注意力，如图1（C）所示。

本文模型

本文提出了一种名为 DropPatch 的方法，通过随机丢弃时间序列子序列级别的切片来增强掩码时间序列建模，缓解过拟合和注意力分散问题。DropPatch随机丢弃预先确定比例的片段。然后，剩余的片段在Transformer编码器中用于掩码和重建。

特别注意：在预训练背景下区分丢弃和掩码操作，丢弃是在掩码和重建之前执行，因此在当前轮次中，被丢弃的片段被排除在所有训练过程之外。相反，由零张量叠加位置编码组成的掩码片段则包含在所有训练过程中。

如上图所示，跟着数据流向基本能理解模型结构，DropPatch的核心步骤为：

首先，对多元时间序列进行预处理，将其分割为非重叠的patch片段并排列数据维度，同时位置编码（注意位置编码是在丢弃操作之前计算得到）；
然后，依据设定的丢弃比例随机丢弃部分片段，得到剩余片段及其位置编码；
之后，对剩余片段应用掩码策略生成掩码数据，再将掩码数据嵌入并添加之前丢弃的位置编码形成编码器输入，输入编码器得到序列表示；
最后，将该表示输入重建头获得重建结果，计算掩码片段的重建损失。

分析与实验

实验和分析部分篇幅较大，本文为验证DropPatch方法的有效性，在多种场景和数据集上进行了一系列实验，包括在域内、跨域、少样本学习和冷启动等设置下开展时间序列预测任务，在12个流行数据集（如Weather、ECL、Traffic、ETT系列等）上评估方法性能，还在包含大量数据点的两个合成数据集STS66M和STS162M上进行实验。

在Discussion部分还探讨了DropPatch策略与PatchTST的差异及DropPatch性能提升的原因，注意力机制方面：PatchTST注意力集中于中距离信息，模式单一，易出现“秩崩溃”；DropPatch能使模型关注不同尺度信息，引入归纳偏差。注意力系数分布上，PatchTST多数头注意力分布接近均匀，DropPatch则使多数头KL散度大，分布尖锐，能捕捉更多信息。注意力分布差异中，PatchTST不同头信息冗余，DropPatch不同头学习信息独特，增强学习能力。

模型表示能力方面：中央核对齐分析显示，跨域任务DropPatch降低CKA相似度，域内任务提高CKA相似度，表明其提升了模型处理域转移和学习潜在模式的能力，增强了表示的泛化性和鲁棒性。此外，通过Weather和ETTm1数据集注意力矩阵热图可视化，发现随着层数增加，PatchTST注意力分散，DropPatch能聚焦特定信息，避免“注意力秩崩溃”，进一步证明DropPatch使预训练模型注意力更集中。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-12-15，如有侵权请联系 cloudcommunity@tencent.com 删除

论文