首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI论文速读 | QuitoBench:支付宝开源高质量时间序列预测基准测试

AI论文速读 | QuitoBench:支付宝开源高质量时间序列预测基准测试

作者头像
时空探索之旅
发布2026-04-02 12:31:58
发布2026-04-02 12:31:58
1010
举报
文章被收录于专栏:时空探索之旅时空探索之旅

论文标题:QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

作者: Siqiao Xue, Zhaoyang Zhu, Wei Zhang, Rongyao Cai, Rui Wang, Yixiang Mu, Fan Zhou, Jianguo Li, Peng Di, Hang Yu

机构:蚂蚁集团(支付宝)

论文链接https://arxiv.org/abs/2603.26017

Cool Paperhttps://papers.cool/arxiv/2603.26017

Hugging Facehttps://huggingface.co/datasets/hq-bench/quitobench

主页https://hq-bench.github.io/quito/

TL;DR:蚂蚁集团(支付宝)针对时间序列预测缺乏优质统一基准的问题,提出 QUITO(十亿级数据集)与 QUITOBENCH(TSF 八类均衡基准),解决了旧基准分类粗、分布偏、有泄漏等缺陷,通过实验给出模型选择指南,为该领域提供可靠评测工具。

关键词:时间序列预测、基础模型、基准测试、模型选择

点击文末阅读原文跳转本文arXiv链接

摘要

时间序列预测在金融、医疗与云计算领域至关重要,但其发展却受制于一个核心瓶颈:大规模、高质量基准数据集的匮乏。为弥补这一缺口,本文推出QuitoBench—— 一个面向时间序列预测的状态均衡( regime-balanced )型基准,覆盖趋势 × 季节性 × 可预测性(TSF) 八大状态,其设计旨在捕捉与预测相关的核心属性,而非基于应用场景划分的领域标签。该基准构建于Quito之上,后者是源自支付宝、横跨九大业务领域的十亿级应用流量时间序列语料库

本文基于 232,200 个评估实例,对深度学习模型、基础模型与统计基线模型共 10 类模型开展基准测试,得出四项核心发现:

  1. 上下文长度交叉效应:深度学习模型在短上下文(L=96) 场景下表现领先,而基础模型则在长上下文(L≥576) 场景下占据主导。
  2. 可预测性是核心难度驱动因素:不同状态间的平均绝对误差(MAE)差距达 3.64 倍,凸显可预测性对预测难度的决定性影响。
  3. 参数效率优势:深度学习模型在参数规模仅为基础模型 1/59的情况下,性能可与之持平甚至超越。
  4. 数据规模比模型规模更关键:对两类模型而言,扩大训练数据量带来的性能增益,远大于单纯扩大模型参数规模

上述发现经跨基准、跨指标的一致性验证,具备充分可靠性。本文的开源版本为时间序列预测研究提供了可复现、可感知状态的评估框架。

Q1: 这篇论文试图解决什么问题?

A: 这篇论文旨在解决时间序列预测(Time Series Forecasting)领域缺乏大规模、高质量、 regime平衡的基准测试(benchmark)这一核心问题,具体表现为以下三个相互关联的挑战:

1. 缺乏统一的基准测试生态系统

与计算机视觉(ImageNet、COCO)、自然语言处理(GLUE)和语音处理(LibriSpeech)等领域不同,时间序列预测领域尚未形成被广泛接受的统一标准基准。现有研究往往使用临时组装的、难以比较的数据集集合进行评估,导致研究结果的可比性和可复现性受限。

2. 现有基准测试存在结构性缺陷(Challenge 2: Flawed existing benchmarks.)

现有的大规模基准(如GIFT-Eval和Timer)存在四个关键弱点:

  • 粗粒度分类:按应用领域(如电力、交通、天气)而非内在统计特性(趋势、季节性、可预测性)对序列进行分类,无法系统解释预测难度的来源;
  • 分布倾斜:数据高度集中在特定TSF(Trend×Seasonality×Forecastability)regime(如Timer中76.2%的序列集中在单一regime),导致聚合指标被最常见(通常也是最简单)的数据类型主导;
  • 信息泄露:由于使用多用途的公共数据集,存在训练集与测试集的直接重叠,以及时间相关序列因共享因果驱动因素而产生的间接泄露;
  • 短序列偏差:50%的GIFT-Eval序列包含少于200个时间点,无法支持长上下文(long-context)评估。
三个基准测试中的8网格TSF状态分类
三个基准测试中的8网格TSF状态分类

三个基准测试中的8网格TSF状态分类

3. 缺乏实用的模型选择指导(Challenge 3: No practical model selection guidance.)

随着超过20个时间序列基础模型(foundation models)的涌现,实践者面临关键问题:何时应该部署2亿参数的基础模型而非100万参数的深度学习模型?现有基准由于缺乏规模、平衡性和评估严谨性,无法在上下文长度、预测范围、预测模式和数据内在特征等关键维度上提供可靠的模型选择依据。

解决方案概述

为应对上述挑战,论文提出了QUITO(一个来自支付宝生产平台的十亿级单来源时间序列语料库)和QUITOBENCH(首个在八个TSF regime上实现近均匀覆盖的regime平衡基准测试)。该设计通过基于内在统计特性(趋势、季节性、可预测性)的分类、无泄露的时间分割、统一的长序列支持,以及受控的数据扩展能力,实现了对深度学习模型、基础模型和统计基线的严格评估,并揭示了上下文长度交叉点、regime专业化、参数效率和数据扩展等关键发现。

QUITO的关键指标
QUITO的关键指标

QUITO的关键指标

Q2: 有哪些相关研究?

A: 该论文的相关研究主要集中在时间序列预测模型时间序列预测基准测试两个维度,具体如下:

1. 时间序列预测模型

统计模型(Statistical Models)

  • ARIMA (Box & Pierce, 1970):经典的自回归积分滑动平均模型,基于对时间序列结构和数据分布的显式假设建模未来值。

深度学习模型(Deep Learning Models)

  • DeepAR (Flunkert et al., 2017):基于自回归循环网络的概率预测模型。
  • DLinear (Zeng et al., 2023):简单的线性投影模型,对Transformer架构的有效性提出质疑。
  • PatchTST (Nie et al., 2023):基于Patch的Transformer模型,将时间序列分割为补丁进行处理。
  • Crossformer (Zhang & Yan, 2023):利用跨维度依赖关系进行多变量时间序列预测的Transformer模型。
  • 其他架构:包括Pyraformer (Liu et al., 2022)、Autoformer (Wu et al., 2021)、Informer (Zhou et al., 2021) 等,用于捕捉长程依赖和非线性动态。

基础模型(Foundation Models)

  • Chronos-2 (Ansari et al., 2025):基于T5编码器-解码器架构的通用时间序列预测模型,采用分词化表示和交叉熵损失。
  • TimesFM-2.5 (Das et al., 2023):解码器-only的Transformer基础模型,通过回归头直接映射连续值输入到连续值预测。
  • Moirai (Woo et al., 2024):大规模通用时间序列预测模型。
  • TiRex (Auer et al., 2025):采用检索增强架构的零样本预测模型。
  • 领域综述:Jin et al. (2023) 对大型时间序列和时空数据模型进行了全面综述。

2. 时间序列预测基准测试

现有大规模基准

  • GIFT-Eval (Aksu et al., 2024):包含55个跨领域数据集的通用时间序列预测评估基准,但存在分布倾斜和短序列偏差问题。
  • Timer (Liu et al., 2024b):基于生成式预训练Transformer的评估套件,包含ETT、ECL、Traffic、Weather和PEMS等公共数据集,但76.2%的序列集中在单一TSF regime。
  • LOTSA (Woo et al., 2024):大规模时间序列数据集集合。

评估方法论与危机

  • 信息泄露挑战:Meyer et al. (2025) 指出时间序列基础模型时代存在(未知的)信息泄露挑战,包括直接的训练-测试重叠和间接的时间相关序列泄露,系统性地虚高性能估计。
  • 基准认识论:Freiesleben & Zezulka (2025) 系统梳理了当前基准测试实践中的方法论陷阱。
  • 领域对比:论文指出与计算机视觉(ImageNet、COCO)、自然语言处理(GLUE)和语音处理(LibriSpeech)等领域相比,时间序列领域缺乏统一的基准生态系统,其基准论文占比最低(4.2% vs. NLP的9.9%)。

3. 其他相关技术

时间序列特征分析

  • STL分解 (Cleveland et al., 1990):用于计算趋势强度和季节性强度的季节性-趋势分解方法。
  • 谱熵 (Welch, 1967):用于计算序列可预测性(forecastability)的归一化谱熵方法。
  • 特征聚类 (Wang et al., 2006):基于特征的时间序列聚类方法,影响了TSF regime的分类思想。

云工作负载分析

  • Azure VM工作负载 (Cortez et al., 2017)、Google Borg (Tirmazi et al., 2020)、Alibaba微服务追踪 (Luo et al., 2021):公共云操作追踪数据,用于验证TSF regime分类的普适性。

Q3: 论文如何解决这个问题?

A: 论文通过构建QUITO(十亿级单来源时间序列语料库)和QUITOBENCH(regime平衡基准测试),并辅以大规模实证研究,系统性地解决了上述三个挑战。具体解决方案如下:

1. 解决"缺乏统一基准生态系统"(挑战1)

构建标准化、开源的评估框架

  • 发布QUITOBENCH作为统一基准,包含1,290个测试序列、232,200个评估实例(1,290序列 × 18种配置 × 10个模型),覆盖多变量(MV)和单变量(UV)两种模式
  • 提供标准化的Apache Parquet数据格式、全局时间截断点(2023-07-28 00:00:00)确保时间顺序,以及开源评估代码库
  • 建立基于MAE Rank的公平聚合方法,消除不同序列量级差异对评估结果的影响

2. 解决"现有基准结构性缺陷"(挑战2)

论文通过四个设计原则(D1-D4)针对性修复现有基准的四大弱点:

D1. 基于内在统计特性的分类(替代粗粒度领域标签)

  • 提出TSF(Trend×Seasonality×Forecastability)三维分类体系:
    • Trend Strength(T):通过STL分解计算趋势成分解释的方差比例,衡量长期漂移
    • Seasonality Strength(S):同理计算季节性成分强度,衡量周期性结构
    • Forecastability(F):基于Welch谱熵计算,,衡量信号规律性和内在可预测性,其中 为归一化谱熵(normalized spectral entrop)
  • 以阈值 τ 将每个维度二分为HIGH/LOW,形成8个TSF regime cell(如HIGH HIGH HIGH、LOW LOW LOW等)
  • 解决的问题:取代"交通"、"电力"等无法预测难度的领域标签,直接暴露预测难度的统计驱动因素(实证显示forecastability是主导难度因素,高低F值间MAE差距达3.64倍)

D2. Regime平衡的层次化采样(替代分布倾斜)

  • 采用分层抽样(stratified sampling):在每个TSF regime细胞中固定配额(约162个序列),确保8个regime近均匀分布(10.5%–13.2%)
  • 对比现有基准的极端倾斜:GIFT-Eval中50.7%序列集中在单一regime(LOW LOW LOW),Timer中65.8%集中在HIGH HIGH HIGH,而QUITOBENCH实现~12%的均匀覆盖
  • 解决的问题:防止聚合指标被最常见(通常最简单)的regime主导,支持微平均(micro-averaged,反映整体期望性能)和宏平均(macro-averaged,各regime等权重)两种互补视角

D3. 单来源无泄露设计(替代信息泄露风险)

  • 单一来源:全部数据来自支付宝生产平台的应用流量监控,涵盖金融、电商、广告、基础设施等9大业务场景,无公共数据集混入
  • 时间切割协议:全局测试截断点(2023-07-28)确保训练/验证/测试严格时序分离,消除未来信息泄露
  • 无预训练重叠:由于数据为专有业务流量,与任何公开预训练语料库(如Chronos、TimesFM的训练数据)无重叠,消除直接泄露;同时单来源避免多数据集中因共享因果驱动器导致的间接泄露
  • 解决的问题:从根本上消除Meyer et al. (2025)指出的两种信息泄露渠道,确保评估反映真实泛化能力

D4. 统一长序列支持(替代短序列偏差)

  • 序列长度:所有序列包含5,900–15,300个时间点(QUITO-MIN: 5,904点;QUITO-HOUR: 15,356点)
  • 长上下文评估:支持上下文长度 的严格评估,远超市售基准(GIFT-Eval中50%序列<200点)
  • 密集滚动窗口:采用单位步长的滚动评估(stride=1),每个序列产生高达1,489个评估窗口(对比GIFT-Eval的稀疏非重叠窗口,上限20个),显著稳定每序列误差估计
  • 解决的问题:首次实现对长上下文()模型行为的严格评估,揭示深度学习与基础模型在不同历史长度下的性能交叉现象

3. 解决"缺乏实用模型选择指导"(挑战3)

通过D5. 可控数据扩展支持和大规模对比实验,提供实证指导:

规模化评估揭示选择规律

  • 上下文长度交叉点:发现深度学习模型在短上下文()领先,但基础模型在长上下文()反超,为"何时使用基础模型"提供明确阈值
  • Regime专业化图谱:基础模型在6/8个regime(高季节性或高可预测性)占优,深度学习在2/8个regime(低季节性)占优,支持基于数据特征的模型路由策略
  • 参数效率量化:证明深度学习模型(平均1.9M参数)可达到或超越基础模型(平均110M参数)性能,参数效率优势达59倍,且随预测范围增长退化更平缓
  • 数据vs模型扩展法则:发现对两类模型,增加训练数据量(从10K到100M tokens,MAE降低66%)比增加模型规模带来的收益更大,指导资源分配决策

实用决策框架 基于上述发现,论文提供明确的模型选择建议:

  • 短上下文/资源受限:选择紧凑深度学习模型(如CrossFormer,~1M参数)
  • 长上下文(L≥576)且强季节性:选择基础模型(如Chronos-2,~100M参数)
  • 低可预测性/长预测范围:深度学习模型表现更稳健
  • 通用策略:优先扩展训练数据而非模型参数

综上,QUITOBENCH通过其单来源无泄露TSF regime平衡长序列支持的设计,结合大规模 regime-aware 评估,为时间序列预测领域提供了首个能够可靠回答"何时使用何种模型"这一实践问题的基准测试平台。

Q4: 论文做了哪些实验?

A: 论文开展了大规模、多维度的实证评估,涵盖 10 个模型在 18 种任务配置下的 232,200 个评估实例,通过核心实验与补充实验系统揭示模型行为规律,且实验现象与对应图表形成清晰呼应。具体实验如下:

一、实验基础设置

  • 基准模型(10 个):含 5 个深度学习模型(CrossFormer、DLinear 等,参数量 0.3M–5M)、3 个基础模型(Chronos-2、TimesFM-2.5 等,参数量 30M–200M)、2 个统计基线(指数平滑 ES、季节性朴素 SNaive)。
  • 评估配置(18 种):涵盖 3 种上下文长度、3 种预测范围、2 种预测模式(多变量 MV、单变量 UV),总评估实例由 1290 个测试序列、18 种配置与 10 个模型组合而成。
  • 评估协议:采用单位步长的密集滚动窗口评估(对应图 12),生成的预测数量远高于传统稀疏方案;深度学习模型经超参数调优、训练、评估三阶段流程,基础模型采用零样本推理;以 MAE 为主指标,结合 Rank 分数与 MSE 进行稳健性验证。
项目主页的Leaderboard
项目主页的Leaderboard

项目主页的Leaderboard

二、核心实验与对应图表

  1. 整体性能基准实验:在全部评估实例上对比 10 个模型的综合表现,CrossFormer 取得最佳排名与最低 MAE,Chronos-2 为基础模型中最优,统计基线显著落后(对应表 3),验证了基准的区分度。
  1. 数据与模型扩展法则实验:以 CrossFormer 和 TimesFM-2.5 为代表,探究数据量与模型参数规模对性能的影响。数据量增加时,两类模型性能均提升且 CrossFormer 提升更显著,模型参数增加至一定规模后性能进入平台期(对应图 4),证明数据扩展收益远大于模型扩展。
  1. 上下文长度效应实验:对比不同历史长度下两类模型的表现,发现存在上下文长度交叉点 —— 短历史下深度学习模型更优,长历史下基础模型反超(对应表 4、图 14),因基础模型能更好利用长程依赖。
  1. 预测范围稳健性实验:分析模型在不同预测范围内的性能退化情况,深度学习模型退化率低于基础模型,DLinear 退化最平缓但基线 MAE 较高,CrossFormer 在各范围均保持最低绝对 MAE(对应表 6),体现任务特定架构对长程预测不确定性的稳健性。
  1. TSF Regime 分析实验:在 8 个 TSF(趋势 × 季节性 × 可预测性)regime 上分解模型行为,可预测性为难度主导因素,不同 regime 间难度差距显著,基础模型在高季节性或高可预测性 regime 占优,深度学习在低季节性 regime 领先,HIGH LOW LOW 为病态 regime(对应图 2、表 5、表 7)。
  1. 参数效率前沿实验:对比模型参数规模与性能的关系,深度学习模型以远少于基础模型的参数达到或超越其性能(对应图 5、表 17),凸显深度学习模型的参数效率优势。
  1. 排名稳健性验证实验:验证跨指标与跨基准的排名一致性,MAE 与 MSE 排名高度相关,QUITOBENCH 与 Timer 基准排名也显著相关(对应图 6、表 19、表 20),证明实验发现的普适性。

三、附录补充实验

  • TSF 阈值敏感性分析:验证不同 TSF 阈值范围内结论的稳定性(对应图 13、表 16)。
  • 跨基准详细对比:提供 QUITOBENCH 与 Timer 在 regime 级的性能对比(对应表 26)。
  • MSE 与 MAE 的 regime 级对比:验证 8 个 regime 下两种指标的排名一致性(对应表 22、表 30、表 31)。
  • 统计显著性检验:通过 Friedman 检验和 Wilcoxon 符号秩检验,确认模型间性能差异的显著性(对应表 18)。

这些实验形成了全面的 regime-aware 评估体系,实验现象与图表相互印证,为时间序列预测的模型选择和架构设计提供了扎实的实证依据。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 时空探索之旅 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • Q1: 这篇论文试图解决什么问题?
    • 1. 缺乏统一的基准测试生态系统
    • 2. 现有基准测试存在结构性缺陷(Challenge 2: Flawed existing benchmarks.)
    • 3. 缺乏实用的模型选择指导(Challenge 3: No practical model selection guidance.)
    • 解决方案概述
  • Q2: 有哪些相关研究?
    • 1. 时间序列预测模型
    • 2. 时间序列预测基准测试
    • 3. 其他相关技术
  • Q3: 论文如何解决这个问题?
    • 1. 解决"缺乏统一基准生态系统"(挑战1)
    • 2. 解决"现有基准结构性缺陷"(挑战2)
    • 3. 解决"缺乏实用模型选择指导"(挑战3)
  • Q4: 论文做了哪些实验?
    • 一、实验基础设置
    • 二、核心实验与对应图表
    • 三、附录补充实验
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档