论文标题:Enhancing Masked Time-Series Modeling via Dropping Patches
读本文首先要了解掩码建模这种自监督预训练方法,既通过基于未掩码部分重建掩码内容来改进表征学习,促使模型学习到更具鲁棒性和通用性的表征,这种方法早先已广泛应用到CV和NLP等领域。
Patch TST就应用掩码建模方法来进行时间序列分析,方法是将时间序列分割成片段(相邻值的片段)并应用片段级掩码策略,但本文作者观察到,以PatchTST为代表的掩码时间序列建模面临着一个困境:相对较低的掩码比例会降低学习有用特征的效率,此外被掩码的片段可以在不理解潜在模式的情况下被恢复,从而导致表面学习和过拟合,如图1(A)所示。当然一个改进策略是增加掩码比例,但另一个问题出现了:过多的掩码片段的存在会进一步稀释注意力机制专注于数据相关和有信息部分的能力,既分散注意力,如图1(C)所示。
本文提出了一种名为 DropPatch 的方法,通过随机丢弃时间序列子序列级别的切片来增强掩码时间序列建模,缓解过拟合和注意力分散问题。DropPatch随机丢弃预先确定比例的片段。然后,剩余的片段在Transformer编码器中用于掩码和重建。
特别注意:在预训练背景下区分丢弃和掩码操作,丢弃是在掩码和重建之前执行,因此在当前轮次中,被丢弃的片段被排除在所有训练过程之外。相反,由零张量叠加位置编码组成的掩码片段则包含在所有训练过程中。
如上图所示,跟着数据流向基本能理解模型结构,DropPatch的核心步骤为:
实验和分析部分篇幅较大,本文为验证DropPatch方法的有效性,在多种场景和数据集上进行了一系列实验,包括在域内、跨域、少样本学习和冷启动等设置下开展时间序列预测任务,在12个流行数据集(如Weather、ECL、Traffic、ETT系列等)上评估方法性能,还在包含大量数据点的两个合成数据集STS66M和STS162M上进行实验。
在Discussion部分还探讨了DropPatch策略与PatchTST的差异及DropPatch性能提升的原因,注意力机制方面:PatchTST注意力集中于中距离信息,模式单一,易出现“秩崩溃”;DropPatch能使模型关注不同尺度信息,引入归纳偏差。注意力系数分布上,PatchTST多数头注意力分布接近均匀,DropPatch则使多数头KL散度大,分布尖锐,能捕捉更多信息。注意力分布差异中,PatchTST不同头信息冗余,DropPatch不同头学习信息独特,增强学习能力。
模型表示能力方面:中央核对齐分析显示,跨域任务DropPatch降低CKA相似度,域内任务提高CKA相似度,表明其提升了模型处理域转移和学习潜在模式的能力,增强了表示的泛化性和鲁棒性。此外,通过Weather和ETTm1数据集注意力矩阵热图可视化,发现随着层数增加,PatchTST注意力分散,DropPatch能聚焦特定信息,避免“注意力秩崩溃”,进一步证明DropPatch使预训练模型注意力更集中。