前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR2021|引入记忆模块,突破长距离依赖视频预测的性能瓶颈

CVPR2021|引入记忆模块,突破长距离依赖视频预测的性能瓶颈

作者头像
CV君
发布2021-05-08 10:22:55
7140
发布2021-05-08 10:22:55
举报

Video Prediction Recalling Long-term Motion Context via Memory Alignment Learning

论文:https://arxiv.org/abs/2104.00924

1. 动机

计算机视觉领域中的视频预测技术目前已经应用到天气预测、交通情况预测和自动驾驶等领域中,但其面临的主要技术瓶颈来自于捕获长距离的高维的运动动态信息。

先前的工作大多使用RNN网络来捕获长距离信息,但由于RNN中的隐层状态是通过提取当前序列内部的关系信息来得到,所以其很难预测未来帧的走向。

本文专门对长距离动态上下文进行建模来进行视频预测,解决了RNN方法捕获动作上下文的固有问题,并提出了一个LMC-Memory记忆对齐模块建立起当前输入序列与历史动作上下文的映射关系,方便后续的上下文重建。

此外,为了解决运动特征的高维表征问题(由动作的复杂性和外观的多样性造成),作者对记忆特征进行解藕将全局运动和局部运动区分开来,可以提升对局部运动预测的准确性。

2. 方法

本文方法主要由动作上下文驱动的视频预测模块和长距离动作上下文记忆模块构成。

2.1 总体流程

下图为LMC-memory进行视频预测的总体流程,模型的输入为一系列连续的视频帧以及它们的差分序列,分别输入到上侧的未来帧预测支路和下侧的动作上下文记忆支路。

差分序列反映了当前动作的连续信息,通过运动匹配编码器得到匹配向量,从LMC-memory模块中查询得到全局动作上下文记忆向量,LMC-memory由全部的训练数据训练得到,包括了多样的运动上下文模式,所以查询得到的记忆向量可以看作为当前输入序列所对应的长距离信息,随后再其拼接到上侧支路参与未来帧的预测。

上侧支路首先对输入序列进行编码表示,提取视频外观特征,随后通过ConvLSTM进行循环处理得到输入序列的历史依赖。

但是当前得到的特征向量只含有输入序列本身的内部信息,不足以预测动作未来的走向,所以将该特征与下侧支路得到的匹配记忆向量进行注意力拼接得到长距离动作上下文表示,再输入到图像解码器中得到最后的帧预测结果。

2.2 LMC-Memory记忆模块

LMC-Memory模块主要用来保存和提供长距离依赖的动作上下文信息,LMC的优化分为两个阶段,分别为运动上下文存储阶段和输入序列上下文匹配阶段,如下图所示:

由于短暂的输入序列包含的动作信息很有限,如何有效的提取其中的信息并与记忆模块中存储的长距离信息进行匹配,是该模块的关键所在。

作者提出了一种新颖的记忆对齐学习算法,在存储阶段,需要输入较长的序列帧来提取长距离动作上下文信息,使用C3D提取得到编码向量作为初始记忆向量

进行存储得到记忆池

,随后输入的的编码向量作为查询向量

与当前记忆池中存储的内容计算相似度得到相似度权重

,计算公式如下:

作者将该权重看作当前输入运动特征在记忆池

中的寻址向量(权重越大表明当前输入序列所包含的运动上下文已经存在于记忆池中),可以根据该权重将当前输入特征通过加权求和的方式不断更新记忆池中对应的长距离运动记忆向量:

记忆池更新结束后进入上下文匹配阶段,这一阶段的操作流程基本与上一阶段保持一致,不同的是,在匹配阶段,模型的输入是短暂的序列,而且需要固定记忆池中的参数,编码器同样使用C3D,对短序列提取特征后,从记忆池中提取与其最为相似的长距离运动上下文,然后拼接到视频预测模块进行未来帧的预测,模型的损失函数为常规的像素级预测损失:

3. 实验效果

本文在三个数据集上进行了实验,分别是虚拟合成的Moving-MNIST,和真实场景中收集的动作数据集KTN Action和Human 3.6M,使用MSE、PSNR、SSIM和LPIPS作为评价指标。

在Moving-MNIST上的实验结果如下表所示:

可以看到,本文的方法在预测结构一致性方面都超过了其他SOTA方法,同时由于加入了记忆模块,本文方法在计算资源方面相比其他方法也有很大的优势。

下图为KTH Action的可视化效果,输入序列为9帧,且画面中的走路动作刚刚出现,其所包含的运动上下文信息非常有限,本文的方法可以在较长范围内精确的预测到画面中人物走动的位置,其他方法预测的结果逐渐退化,并且没有捕捉到核心的运动信息。

论文:

https://arxiv.org/abs/2104.00924

代码:

https://github.com/sangmin-git/LMC-Memory

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-05-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档