论文标题:TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods
作者:Xiangfei Qiu ; Jilin Hu(胡吉林) ; Lekui Zhou ; Xingjian Wu ; Junyang Du ; Buang Zhang ; Chenjuan Guo(郭晨娟) ; Aoying Zhou(周傲英) ; Christian S. Jensen ; Zhenli Sheng ; Bin Yang(杨彬)
机构:华东师范大学,华为云,奥尔堡大学(AAU)
关键词:时间序列预测, 基准测试, 领域覆盖, 评估策略, 公平比较, 自动化流程
链接:https://arxiv.org/abs/2403.20150
Cool Paper:https://papers.cool/arxiv/2403.20150
代码:https://github.com/decisionintelligence/TFB
TL; DR:该论文提出了TFB(时间序列预测基准测试),这是一个新颖的自动化基准测试框架,旨在通过包含来自十个不同领域的数据集,并提供一个灵活、可扩展且一致的评估流程,对包括统计学习、机器学习和深度学习在内的多种时间序列预测方法进行全面且无偏见的评估。
应该ED&B(Experiment, Analysis and Benchmark)的VLDB论文。
时间序列在经济、交通、健康和能源等不同领域生成,其中未来值的预测具有许多重要的应用。毫不奇怪,人们提出了许多预测方法。为了确保进展,必须能够以全面、可靠的方式对这些方法进行实证研究和比较。为了实现这一目标,本文提出了 TFB,一种时间序列预测 (TSF) 方法的自动化基准。TFB 通过解决与数据集、比较方法和评估流程相关的缺点来推进最先进的技术,即:1)数据域覆盖范围不足,2)对传统方法的刻板印象偏见,以及 3)不一致且不灵活的流程。为了实现更好的领域覆盖,包含来自 10 个不同领域的数据集:交通、电力、能源、环境、自然、经济、股票市场、银行、健康和网络。还提供时间序列特征,以确保所选数据集的全面性。为了消除对某些方法的偏见,提供了多种方法,包括统计学习、机器学习和深度学习方法,并且还支持多种评估策略和指标,以确保对不同方法进行更全面的评估。为了支持将不同方法集成到基准测试中并实现公平比较,TFB 具有灵活且可扩展的流程,可以消除偏差。接下来,使用 TFB 对 8,068 个单变量时间序列的 21 种单变量时间序列预测 (UTSF) 方法和 25 个数据集的14 种多元时间序列预测 (MTSF) 方法进行全面评估。
不同时间序列特征可视化
A: 这篇论文提出了一个名为TFB(Time Series Forecasting Benchmark)的自动化基准测试,旨在全面和公正地评估时间序列预测(TSF)方法。论文试图解决的问题包括:
为了解决这些问题,TFB提出了以下解决方案:
总的来说,TFB旨在为时间序列预测方法提供一个全面、可靠和用户友好的评估平台,以促进新方法的发展和现有方法的改进。
VAR,LR的传统方法在特定设置下的特定数据集上也能有很好的结果
A: 这篇论文在“相关工作”部分提到了以下几类相关研究:
这些相关研究表明,虽然已经有许多方法和基准用于时间序列预测,但它们在方法多样性、数据集覆盖、以及评估流程的一致性和灵活性方面存在不足。TFB旨在通过提供一个全面的、支持多种方法和评估策略的基准来解决这些问题,从而推动时间序列预测领域的发展。
不同时序基准比较
不同基准涉及的多元时许数据集
TFB和TSlib中多元数据集特征标准化值变化的箱线图
TFB
A: 为了解决上述提到的问题,论文提出了TFB(Time Series Forecasting Benchmark),一个全面的、自动化的时间序列预测方法评估基准。具体的解决方案包括:
通过这些解决方案,TFB旨在为时间序列预测研究者提供一个可靠、全面和用户友好的评估平台,从而推动该领域的进一步发展。
单变量数据集统计信息
hexbin图
(这个图没有完全看懂,就翻译一下) 单变量时间序列,由于时间序列有不同的长度,首先将时间序列表示为由五个特征指标组成的向量:趋势、季节性、平稳性、漂移和转换。为了便于可视化,采用PCA(主成分分析)降维后的密度分析,观察到 TFB 和 M4 覆盖了最多的单元格,而所有其他基准均小于 TFB。这强调了TFB数据集在特征分布多样性方面的覆盖范围。此外,与 M4 相比,TFB的数据集涵盖了更广泛的领域。此外,注意到 M4 的样本量要大得多,总计 100,000 个,而TFB的数据集仅包含 8,068 个时间序列。
多变量数据集统计信息
统计,机器学习和深度学习三种方法分类
不同时间序列预测评估策略(a):固定时间步预测;(b):滚动划窗预测
DropLast
关于“Drop last”的讨论: “Drop last”是指在时间序列预测的测试阶段中,如果测试数据的最后一个批次(batch)的样本数量少于设定的批次大小(batch size),则通常会选择丢弃这个不完整的批次。这种做法是为了在测试过程中保持数据的一致性和加速计算。 然而,论文指出这种做法可能会导致不公平的比较。因为如果不同的方法在处理最后一个批次时采用不同的策略,比如一些方法丢弃了最后一个批次而另一些方法则没有,这可能会导致评估结果的偏差。 为了解决这个问题,论文提出了一种改进的评估流程,即在测试时不丢弃最后一个批次,而是确保所有方法在相同的策略下进行评估。这可以通过调整批次大小或采用其他方法来实现,以确保所有数据都被公平地考虑在内。 论文中通过实验表明,改变批次大小会影响方法的性能,因此建议在评估时间序列预测方法时,应该采用一致的批次处理策略,避免因“Drop last”操作而导致的潜在偏见。这种设计有助于提高评估的一致性和公平性,从而得到更准确的方法性能比较结果。
评价指标
单变量预测
Ranks表示MSMAPE在该数据集上有多少次取得最佳性能
6个不同领域数据集的MAE雷达图比较
相关性方法比较
通道独立(CI) VS 通道依赖(CD) 渠道独立性与渠道依赖性。在多元数据集中,变量有时被称为通道。为了研究多变量时间序列中通道依赖性的影响,在十个数据集上比较 PatchTST(CI方法) 和 Crossformer(CD方法),依赖性从弱到强。。观察到,随着数据集中相关性的增加,Crossformer 的性能逐渐超过 PatchTST,这表明当相关性很强时最好考虑通道依赖性。但是, 当变量之间相关性不明显时,不考虑通道依赖性的PatchTST更好。 因此深入探索通道依赖性,在设计新方法和改良现有方法是值得未来研究的问题。 比如之前介绍过的CCM: AI论文速读 | CCM:从相似到超越:时间序列预测的通道聚类
多元预测1
多元预测2
参数量和推理时间比较
A: 论文中进行了以下实验来评估和验证TFB基准测试的有效性和实用性:
这些实验不仅验证了TFB作为一个全面和公正的评估工具的有效性,而且为时间序列预测领域的研究人员提供了有价值的见解和建议。通过这些实验,研究人员可以更好地理解和比较不同方法的性能,从而为特定应用场景选择或设计最合适的预测模型。
3类方法(CNN,线性,transformer)在6个时序属性(季节性,趋势性,平稳性,转换,漂移,相关性)上的表现
上述图,从左到右,所示数据集的时序属性(季节性,趋势性,平稳性,转换,漂移,相关性)逐步增强。
A: 这篇论文的主要内容可以总结如下:
总体而言,TFB基准旨在提供一个综合性的评估框架,以推动时间序列预测领域的研究和实践。
如果觉得有帮助还请分享,在看,点赞