前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ICML 2024 | BayOTIDE:针对多变量不规则时间序列的高效插补算法

ICML 2024 | BayOTIDE:针对多变量不规则时间序列的高效插补算法

作者头像
VachelHu
发布2024-07-20 11:11:04
1330
发布2024-07-20 11:11:04
举报
文章被收录于专栏:时序人

在交通和能源管理等现实场景中,常会遇到大量具有缺失值、噪声和不规则采样模式的时间序列数据。尽管目前已经提出了许多插值方法,但大多数倾向于在局部范围内运行,这涉及到将长序列分割成固定长度的片段进行模型训练,这种局部范围往往导致忽略全局趋势和周期性模式。更重要的是,大多数方法假设观测值是在规则的时间戳上采样的,无法处理各种应用中复杂的不规则采样时间序列。此外,大多数现有方法是以离线方式学习的,不适合处理快速到达的流式数据。

本文介绍一篇 ICML 2024 Spotlight 中的研究工作,其中研究者为应对上述挑战,提出了 BayOTIDE,一种基于功能分解的贝叶斯在线多变量时间序列插值方法。该方法将多变量时间序列概念化为具有不同模式的低秩时间因子组的加权组合。研究者采用一系列具有独特核函数的高斯过程(GPs)作为这些因子的函数先验。实验证明,所提出的方法不仅可以处理任意时间戳的插值,还可以为下游应用提供不确定性量化和可解释性。

【论文标题】BayOTIDE: Bayesian Online Multivariate Time series Imputation with functional decomposition

【论文地址】https://arxiv.org/abs/2308.14906

【论文源码】https://github.com/xuangu-fang/BayOTIDE

论文背景

为了更好的论证所提出的 BayOTIDE 方法,研究者解释了为什么需要在线插补方法,以及如何利用 GP 和 SSM 来构建一个能够有效处理不规则采样时间序列的插补模型。

01、多变量时间序列插补问题

经典的多变量时间序列插补问题定义如下。一个N步长的多变量时间序列

,其中

表示第 n 步的 D 维值,而

表示在第 d 个通道上的值。存在一个掩码矩阵

,指示序列中的值是被观测到的还是缺失的。目标是利用观测到的值(即

的情况)来估计缺失的值

,其中

在上述设置中,默认情况下,两个连续时间戳之间的间隔被认为是恒定的。如果时间戳是不规则采样且连续的,则问题更具挑战性。并且在进行插补时,应在插补模型中考虑确切的时间戳 {𝑡1,...,𝑡𝑁}。在本文中,研究者的目标是学习一个通用函数

,以便在任何时间

上插补缺失的值。

02、高斯过程和状态空间模型

高斯过程(GP):GP 是一种强大的贝叶斯先验,用于函数逼近。它由均值函数(通常假设为零)和协方差函数(或核函数)定义。核函数的选择至关重要,因为它决定了 GP 能够模拟的函数类型。论文提到了 Matérn 核和周期核,分别用于模拟具有非线性和周期性模式的函数。

计算挑战:尽管 GP 非常灵活,但完整的 GP 模型在处理 𝑛 个观测数据时具有 𝑂(𝑛3) 的推理成本,这在实际应用中是不可行的。

状态空间模型(SSM):为了解决这一挑战,研究者引入了 SSM。SSM 是一种将GP转换为线性时不变随机微分方程(LTI-SDE)的方法,这使得在任意时间戳集合上,GP 可以被离散化为具有高斯转移的马尔可夫模型。这种转换允许使用经典的卡尔曼滤波器等方法以线性成本高效地解决 SSM。

LTI-SDE和SSM的参数:所有 LTI-SDE 及其 SSM 的参数(如矩阵 𝐹, 𝐿,以及稳态协方差矩阵 𝑃∞)都是时间不变的常数,并且可以从给定的平稳核函数中导出。

平稳核函数:平稳核是 GP 中常见的选择,它要求核是两个输入之间距离的函数。例如,Matérn 核和周期核都是平稳核,可以从中导出它们的 LTI-SDE 和 SSM 的封闭形式公式。

BayOTIDE方法

通过功能分解和贝叶斯推断,BayOTIDE 能够有效地处理多变量时间序列数据中的缺失值,并提供了一种可扩展的在线学习策略。

01、功能分解

BayOTIDE 基于这样一个事实:现实世界中的多变量时间序列通常在不同通道之间存在相关性,并且可能存在跨通道的共享模式。因此,研究者提出将时间序列分解为一组功能基(因素)和通道特定的权重。

分解假设:假设存在两组因素,分别表示不同的时间模式。第一组因素用于捕捉非线性和长期模式,第二组表示周期性部分,即趋势和季节性。时间序列函数 𝑋(𝑡) 被分解为两组功能因素的加权组合。

02、GP先验和模型的联合概率

观察值模型:假设 𝑋(𝑡) 在时间戳集合 {𝑡1,...𝑡𝑁}上部分被观测到,并带有缺失值和噪声。使用高斯分布作为观测值的似然函数。

高斯过程(GP):使用具有不同核的GP来模拟不同的时间模式。Matérn 核用于模拟趋势因素,周期核用于模拟季节性因素。

先验假设:为权重 𝑢𝑑 假设了高斯先验,为噪声水平 𝜏 假设了 Gamma 先验。然后,定义了包含所有模型随机变量的联合概率模型。

03、在线推断

在线推断算法:提出了一种在线推断算法来估计模型参数的后验分布。当新的观测 𝑦𝑛+1在时间 𝑡𝑛+1到达时,目标是更新后验分布 𝑝(Θ∣𝐷𝑡𝑛∪𝑦𝑛+1) 而不需要重新使用之前的观测数据 𝐷𝑡𝑛。

增量贝叶斯规则:使用增量版本的贝叶斯规则来更新后验分布。然而,由于确切的后验分布不是可处理的,研究者首先应用均值场分解来近似后验。

条件期望传播(CEP):采用条件期望传播(CEP)和 Z(t) 的链结构,通过条件矩匹配技术,提出了一种新颖的在线更新方法,以闭式形式更新后验分布。

04、任意时间戳的概率插补

预测分布:利用当前的后验分布和GP先验的功能性和链性质,在任意时间戳进行概率插补。

插补公式:对于未见过的时间戳 𝑡∗,可以确定在训练中观察到的 𝑡∗ 最近的邻居

,然后根据状态空间模型的转换和协方差矩阵,给出在 𝑡∗ 的预测分布。

实验结果

研究者采用了两种数据集进行实验验证,分别是合成数据集和真实世界数据集。

01、合成数据集

在合成数据上,研究者添加了高斯噪声,并使用Matérn核和周期核作为趋势和季节性因素的先验,还定义了趋势和季节性因素的数量。

插补结果如图1a所示。可以看到,BayOTIDE 很好地恢复了序列,并且估计的不确定性是合理的。此外,图1b、1c、1d和1e中展示了按通道估计的因素,表明 BayOTIDE 能够捕获数据的潜在多尺度模式。

02、真实数据集

在真实数据集方面,研究者选取广州交通数据(Traffic-Guangzhou)、太阳能发电数据(Solar-Power)和Uber车辆移动数据(Uber-Move)进行评估BayOTIDE。

  • 确定性和概率性性能

表2和表3分别展示了在观测比率为 50% 和 70% 的三个数据集上进行插补的RMSE、MAE 和 CRPS分数。可以看到,BayOTIDE 作为一种在线方法,只需处理数据一次,就击败了离线基线,并在大多数情况下表现最佳。

  • 在线插补性能

研究者展示了 BayOTIDE 在观测比率为 50% 的三个数据集上的在线插补性能。图2a展示了在 Traffic-Guangzhou 数据集上的在线结果。BayOTIDE 的结果合理,即当处理更多时间戳时,评估误差逐渐降低,这意味着模型可以持续学习和改进。而 BayOTIDE-fix-weight 的性能非常差,这表明将 GP-SS 模型简单地用于多变量时间序列插补可能并不可行。

  • 可扩展性和敏感性

可扩展性评估:研究者评估了 BayOTIDE 在数据规模和因素数量上的可扩展性。实验结果显示, BayOTIDE 的运行时间在线性和通道大小上呈线性增长,并且因素数量决定了斜率。

超参数敏感性:研究者还检验了 BayOTIDE 对不同超参数的敏感性,包括趋势和季节性因素的数量、核长度尺度和核方差。实验结果显示,模型性能通常随着因素数量的增加而提高,但对某些超参数如 Matérn 核的平滑度更敏感。

  • 不规则和全通道缺失时间戳的插补

BayOTIDE 在具有功能和连续设计的不规则时间戳上也能很好地工作,因此能够处理全部通道缺失的复杂情况。

总结

这篇论文提出了提出了一种新的贝叶斯在线多变量时间序列插补方法 BayOTIDE。该方法通过功能性分解,将时间序列数据表示为不同模式的低秩时间因子的加权组合,为时间序列分析提供了新的视角。基于高斯过程的随机微分方程(SDE)表示和矩匹配技术,研究者开发了一种高效的在线推理算法。在合成数据集和现实世界数据集上的结果表明,BayOTIDE 在估算精度和不确定性量化方面均优于最先进的方法。特别针对多变量时间序列数据,BayOTIDE 能够处理不同变量之间的相关性和模式,这对于多源数据融合和分析具有重要价值。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 时序人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档