前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >量化研究--时序分类最新NN框架ShapeNet

量化研究--时序分类最新NN框架ShapeNet

作者头像
炼丹笔记
发布2021-09-24 11:05:18
1.4K1
发布2021-09-24 11:05:18
举报
文章被收录于专栏:炼丹笔记

作者:杰少,炼丹笔记嘉宾

ShapeNet_A Shapelet-Neural Network Approach for Multivariate Time Series Classification(AAAI21)

简介

快到周末了,就分享一篇处理MTSC问题的最新时间序列论文休闲放松一下。

时间序列shapelet是一种短的判别子序列,

  • 它不仅准确,而且对于单变量时间序列(UTS)的分类问题也是具有可解释性的

然而,由于多变量时间序列分类(MTSC)的候选shapelets可能来自不同长度的不同变量无法直接进行比较

为了处理该挑战,本文提出了ShapeNet模型,

  • ShapeNet模型将不同长度的shapelet候选嵌入到统一的shapelet选择空间中。该网络使用类的triplet损失进行训练,其中考虑了anchor和多个正(负)样本之间的距离以及正(负)样本之间的距离,这对收敛非常重要。

我们计算具有代表性和多样性的最终形状元素,而不是直接使用所有嵌入来构建模型,以避免大量非判别的shapelet候选。

方案

01

背景知识

目前处理MTSC的shapelet方案主要面临三大挑战,

  1. 多元时间序列,有大量的变量,Shapelet候选可以是大量的、异构的。对shapelet的穷举搜索可能不准确;
  2. 不同的变量的Shapelet候选有不同的长度,这样的Shapelet事很难比较;
  3. 大多数现有的研究都是基于黑盒的方法,很少有方案能提供可解释的方法;

02

ShapeNet

1. Multi-length-input Dilated Causal CNN(Mdc-CNN)

ShapeNet采用采用dialted因果卷积神经网络(Dc CNN)学习时间序列子序列的新表示。dialted因果网络对于序列建模任务的有效性已被证明。dialted的卷积被用来改变卷积的感受野。因果卷积的设计应确保未来数据不会影响对过去数据的学习.

虽然输出可以与输入长度相同,但Dc-CNN无法处理不同长度的输入。因此,我们建议引入一个全局最大池化层和一个线性层,它们堆叠在最后一个DcCNN层的顶部,以将所有候选shapelet嵌入统一空间(如上图中1中的绿色框所示)。我们称之为多长度输入dialted因果CNN(Mdc CNN)。

上图进一步说明了Mdc CNN。编码器有i+1层residual模块,其中是dialted因子,全局最大池化层和线性层堆叠在residual模块的顶部。编码器的输入是时间序列是各种长度和变量的子序列,其输出是它们的统一表示。我们称之为输出shapelet候选嵌入

2. Unsupervised Representation Learning

训练(类似于word2vec)的目标是确保相似的时间序列获得相似的表示,反之亦然。然而,word2vec假设的第二个要求并不总是适用于时间序列。主要有以下三点:

我们可以很容易地观察到:

  • 波形的某些波峰相距很远,但彼此并不遥远(如下图)。
  • 一批中只包含一个正样本来训练网络,这在shapelets的表示学习中通常是不稳定的。
  • 之前未考虑正负样本之间的距离。

此处我们设计了下面的Loss

L(f(x), f(x^+), f(x^-)) = log\frac{D_{AP} + \mu}{D_{AN}} + \lambda D_{intra}

该函数的意义如下,我们希望和anchor的正样本距离尽可能的近,负样本的距离尽可能远,与此同时,类内的距离尽可能近。

3.Multivariate Shapelet Transformation

在确定shapelet候选的统一表示之后,我们建议选择高质量和多样化的候选作为最终shapelet。最后,我们对MTS采用shapelet变换的过程,然后应用一个经典的分类器来解决MTSC问题。

Multivariate Shapelet Transformation

我们根据上面的式子在所有Y簇中选择top-k候选,并检索原始时间序列子序列作为最终的shapelets.

Multivariate Shapelet Transformation是一种将多元时间序列转化为一个新的数据空间通过计算和一个最终的shaplets 的距离,表示为,其中

实验

我们发现:

  • 在所有四个数据集中,随着shapelets的数量从5个增加到50个,精度迅速提高,然后略有下降。
  • 这种趋势在ArticularyWordRecognition数据集中比其他数据集中更明显,因为ArticularyWordRecognition有25个类。因此,当shapelet数很小时(例如,5),进行分类要困难得多。基于此观察,默认的shapelet所有数据集的数量设置为50。

小结

提出了一种新的用于MTSC的shapelet神经网络方法——ShapeNet。我们建议将Mdc CNN将不同长度的时间序列子序列学习到统一的空间中,并提出一种基于聚类的triplet损失以无监督的方式训练网络。

我们采用MST来获得时间序列的MST表示。在变换后,我们使用带线性核的支持向量机进行分类。

实验结果表明,ShapeNet

  • 分类精度优于七种比较方法
  • 学习算法收敛速度快,效用函数有效。
  • 具有不错的解释性。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 炼丹笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Multi-length-input Dilated Causal CNN(Mdc-CNN)
  • 2. Unsupervised Representation Learning
  • 3.Multivariate Shapelet Transformation
    • Multivariate Shapelet Transformation
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档