前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >时序论文27|Fredformer:频域去偏差的时序预测Transformer模型

时序论文27|Fredformer:频域去偏差的时序预测Transformer模型

作者头像
用户4434621
发布2024-09-27 16:22:10
680
发布2024-09-27 16:22:10
举报
文章被收录于专栏:科学最Top

论文标题:Fredformer: Frequency Debiased Transformer for Time Series Forecasting

论文链接:https://arxiv.org/abs/2406.09009

代码链接:https://github.com/chenzRG/Fredformer

前言

这篇文章发表于KDD2024,作者的出发点以及写作思路特别好,属于先通过定量分析发现时序预测任务中,频域信息利用不合理的问题,然后有针对性的设计了Fredformer模型,最后进行实验评估。所以论文读下来很顺畅,模型设计也让你感觉有据可循。

所以理解这篇文章,首先要跟着作者的思路。来看上面这张图,作者挑选了三个模型,分别是FEDformer、Patch TST和本文模型。其中绿线是真实数据,红线是模型预测的曲线,很明显FEDformer和Patch TST的预测,对数据大幅变化的情况预测的比较准,然而小幅波动却几乎不敏感。其实如果从频域的角度看,就是经过傅立叶变换后,已有的模型对低频特征敏感,但对高频特征不敏感。

归根结底,是因为Transformer中普遍存在的一个学习偏差问题。上面左图中的k1表示低频特征,模型成功捕捉到了低频成分k1的振幅,但未能捕捉到k2和k3,所以下方的relative error热图值基本只在k1有优化,表明模型主要集中于学习k1成分。核心问题在于自注意力机制往往会优先考虑低频特征,而牺牲高频特征。这个问题在时间序列预测中,可能会使模型结果产生偏差,并导致信息损失。但是我们知道,高频特征实际代表了短期变化,而且在频谱中占据相当大的部分,忽视低频特征就可能会增加时间序列预测中频率偏差的可能性。

上图是作者对时域特征、时域特征+normalization和频域特征+normalization做的对比。很明显,效果是逐渐变好的,说明对频域特征进行归一化,有助于避免建模过程中低频特征占主导的问题!

本文模型

好了,现在我们理解了作者定义的问题,那么现在的工作就是想办法:调和高频特征和低频特征的比例,让两者都能发挥作用而不是仅仅低频特征占据主导。

有了思路和目标,我们看作者设计的模型,如上图所示,总共包含4部分,分别是:(1)从DFT到IDFT的骨干网络;(2)频域建模模块;(3)Transformer 编码模块;(4)频域Summarization模块。

模型具体过程概述:(1)从DFT到IDFT很容易理解,因为本篇文章主要从频域的角度做,所以首先使用傅立叶变换把时域转到频域,经历过一系列中间操作后,再逆变换回时域。(2)然后是频域建模模块,这块主要对频域特征进行patch,然后归一化,是本文的核心创新点,据作者所说经过该步骤后,Fredformer模型能够更公平地对待所有关键频率成分,减少由于振幅比例差异导致的学习偏差。(3)然后是Transformer编码器模块,这块主要从频域角度做了注意力机制的设计。(4)进行线性变换,最后转回时域。

本文实验

个人感想

优点简评

这是我特别喜欢的文章风格,类似Patch TST,首先有一个分析,把问题和目标交代的很清楚,然后有依据的设计模型。通过深入的实证分析,作者定义了时间序列预测中的频率偏差问题。提出Fredformer框架结合频域归一化、注意力机制设计减轻了这一偏差。

未来改进

可以进一步扩展其在更多样化数据集上的测试,包括那些带有噪声和异常值的真实世界数据,以验证模型的鲁棒性。同时,研究超参数优化、长期预测能力、模型解释性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科学最Top 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 本文模型
  • 本文实验
  • 个人感想
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档