前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >时序预测不同注意力机制哪种更好?亚马逊这篇文章讲明白了

时序预测不同注意力机制哪种更好?亚马逊这篇文章讲明白了

作者头像
圆圆的算法笔记
发布2023-08-17 08:42:54
1.4K0
发布2023-08-17 08:42:54
举报

今天介绍的这篇文章是亚马逊发表的时间序列预测工作,详细介绍了不同domain(时域、频域)做attention的差异,总结出不同类型的时间序列,在哪个domain做attention效果最好,并基于这些发现,提出了新的时间序列预测模型TDFormer。

文章标题:First De-Trend then Attend: Rethinking Attention for Time-Series Forecasting

下载地址:https://arxiv.org/pdf/2212.08151v1.pdf

1、问题背景

随着Transformer在时间序列中的应用,如何对时间序列做attention成为一个学术界关注的焦点。最常见的两种方式,一种是在时域做attention,即直接在时间序列上计算两两时间步之间的attention;另一种是在频域做attention,即将时间序列通过傅里叶变换或者小波变换映射到频域,在频域进行attention。那么,在哪个domain进行attention效果更好,不同domain的attention有哪些特点呢?本文深入分析了不同domain的attention表现,并根据这些分析结果,提出了TDFormer时间序列预测模型。

2、不同domain的attentioon分析

文中主要对比了三种attention方式的效果,分别为time attention(在时域直接进行attention)、Fourier attention(进行傅里叶变换后在频域attention)以及wavelet attention(小波变换后在不同scale上分别进行attention)。这三种方式的attention计算对比方法如下图所示。

上述三种方式,文中首先从数学的角度证明了,这三种attention在纯线性的情况下,理论上得到的结果是完全等价的。但是由于attention计算中softmax的存在,会使得三种方式有其各自适应的场景。Softmax的一个重要特点是赢者通吃,即对于大值放大,对于小值忽略。

既有softmax的特点和三种attention的方式,文中分析了不同类型时间序列数据上的应用场景,主要包括3类:具有强周期性的时间序列、就有强趋势性的时间序列、具有凸起点的时间序列。

首先对于季节性较强的时间序列,频域attention好于时域attention。因为在频域中,可以很清晰的获取到频度分布,季节性对应的频度取值非常高,结合softmax可以很容易获取到正确的季节性信息。而对于多重季节性的序列,即在频域中对应多个频度突出点,使用wavelet attention更好,因为wavelet attention会在不同scale分别做attention,不同scale之间不会相互影响。而Fourier attention在softmax赢者通吃的性质下,会导致模型只关注最突出的频度,忽略一些可能对于预测也十分重要的次要频度。

对于趋势性强的时间序列,所有带attention的模型都表现出比较差的泛化性,线性模型更具有优势。因为attention本身是在序列内部做关系建模,缺少外推能力,而这正是线性模型所擅长的。

最后,对于有高点的时间序列,频域attention更有效。这是因为这些点取值太大,在时间维度上进行attention,会导致这些点经过softmax后对于最终attention计算起到了决定性重要,而在频域内就不存在这个问题。也就是说,频域内对于这种极值点的鲁棒性更强,傅里叶变换会减弱这些极值点的影响。

下图是各种时间序列下,不同attention的分析结果图。

3、TDFormer模型结构

基于上述的分析,本文提出了TDFormer模型结构。模型的整体采用趋势项和季节项分解的方式,因为从上面得到分析可以看出,趋势项和季节项分别适合采用不同的建模方法。针对趋势项,使用标准化(RevIN)和全连接(MLP)进行线性建模,类似DLinear。对于季节项,使用傅里叶变换在频域进行attention计算。整体TDFormer的设计架构,原来就来源于上一节对不同attention方式在不同类型数据上的分析结果。

4、实验结果

在case上,可以看到TDFormer相比另一个Transformer时序预测模型FEDformer有明显优势,特别是在趋势项上,FEDformer在趋势项也用了attention,而TDFormer则在趋势项中采用了线性模型,取得了更好的预测效果。

整体的实验效果如下表,TDFormer取得了SOTA效果。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 圆圆的算法笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档