前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AAAI 2022 | 一种支持任意场景下时序表征学习的模型 TS2Vec

AAAI 2022 | 一种支持任意场景下时序表征学习的模型 TS2Vec

作者头像
VachelHu
发布2023-02-28 15:51:56
7330
发布2023-02-28 15:51:56
举报
文章被收录于专栏:时序人时序人

时序表征学习的基本思想就是“以向量嵌入的形式提供时间表示,以便自动进行特征工程过程并以更好的方式对时间建模”,有点类似于NLP中最初的词嵌入层(Embedding),这一过程区别于基于ML/专家经验的特征工程手段,往往是无监督的训练任务。

这个方向吸引了很多研究者进行探寻,有不少著名的研究工作,如:Time2Vec。最近,来自北京大学和微软的几位研究者提出了新的 TS2Vec 模型,支持任意场景下时间序列特征的静态表示。

本期文章为大家简要介绍这一工作。

论文地址:https://arxiv.org/abs/2106.10466

论文源码:https://github.com/yuezhihan/ts2vec

概述

TS2Vec 模型针对的场景比较广泛,包括但不限于时间序列分类、预测和异常检测等任务。该论文的研究者们旨在研究一种通用的时序表示方法,通过分层和时间维度两个方向,并对上下文一致性进行对齐,实现了时序特征的自动表示。模型的结构如下图所示:

01

编码器

编码器由三个组件组成:一个输入投影层(input projection layer)、时间戳Mask模块(timestamp masking )和一个空洞卷积层(dilated CNN)。

Input Projection Layer

对于每个输入xi,输入投影层其实就是一个全连接层,它的作用是:将时间戳 t 处的观测值 Xt 映射成一个高维隐含向量 Zt

Timestamp Masking

时间戳掩码模块将随机mask高维隐含向量,以生成增强的上下文视图。请注意,我们屏蔽了隐含向量 Zt 而不是原始向量 xi,因为时间序列的值范围可能是无限的,我们不可能为原始数据找到一个特殊的掩码,但是对高维向量可以。

Dilated Convolution

空洞卷积层有10个残差(residual)block,每个block包含2个 1-D 卷积层,用于提取每个timestamp的上下文表示。

02

层次对比

层次对比下的损失函数由两部分组成:

时间对比损失

令 i 为输入时间序列样本的索引, t 为时间戳。然后 rt 和 r't 表示相同时间戳 t 但来自 xi 的两个增强的context表示。时间戳 t 处第 i 个时间序列的时间对比损失可以表示为:

实例对比损失

实例对比用 (i; t) 索引的损失可以表示为:

这两种损失是相辅相成的。例如,给定一组用电量数据/多个用户,实例对比损失可以学习用户特定的特征,而时间对比损失旨在挖掘动态随时间变化的趋势。总损失定义为:

实验

TS2Vec 的模型效果验证采取了对比学习的思路,那么正样本(postive pairs)的构建和选择就至关重要。如下图所示,黄色是原始时序,绿色为评估所用的正样本。

业界现有的,主要可以归纳为以下几种策略:

  1. Subseries consistency(子序列一致性):采样的子序列拿来当作正样本;
  2. Temporal consistency (时序一致性):局部平滑后,通过选择相邻的片段作为正样本;
  3. Transformation consistency (转换一致性):通过缩放、变换原始序列等操作,生成正样本;

上述策略的缺陷也很明显,基于比较强的数据分布假设,当TS出现水平偏移(Level shifts)或者局部异常(Anomalies)的时候,就很容易引入错误正样本。如下图所示:

为了克服这个问题,TS2Vec提出了一种新的策略,即上下文一致性(contextual consistency),它将两个“增强上下文”(augmented contexts)中相同时间戳的表示视为正对。而一个context就是通过对原始输入应用时间戳掩码( timestamp masking)和随机裁剪(random cropping)来生成的。

这样做有两个好处:

  1. 上述两个操作不会改变TS的震级(magnitude)[见附录]
  2. 强制每个TS从不同的context中重建自身以增强模型鲁棒性

最终在时序分类,时序预测等场景下均取得了SOTA的效果:

下图是 TS2Vec 的时序预测效果:

总结

时序表征学习的优势在于可以自动捕捉细粒度的时序特征,从而更好地适应一些精度要求比较高的下游任务,并且不受时间窗口切割约束,可以生成多种时间粒度的子序列,在这个过程中还借助池化手段使得子序列中包含了上下文时序信息。这些都是传统特征工程手段所无法实现的。

TS2Vec这个模型的主要贡献在于:

  • 提出了一种(hierarchical contrasting method )“层次对比方法“,通过综合实例/时间维度构建损失函数,去更好地捕获TS上下文信息;
  • 针对对比学习过程中,正样本(positive pairs)的选择上提出了一种(contextual consistency)”上下文一致性“方法。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-12-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 时序人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档