前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >无卷积!谷歌提出ViViT:视频视觉Transformer

无卷积!谷歌提出ViViT:视频视觉Transformer

作者头像
Amusi
发布2021-05-10 16:46:45
1.1K0
发布2021-05-10 16:46:45
举报
文章被收录于专栏:CVerCVer

作者:请叫我东少 | 已授权转载(源:知乎) https://zhuanlan.zhihu.com/p/370200419

ViViT: A Video Vision Transformer

论文: https://arxiv.org/abs/2103.15691

背景

  • 利用Transformer解决视频的问题,是ViT在视频输入上的应用
  • 视频的输入是图像输入的数多倍,Transformer的性能和输入token之间是平方关系,处理性能是一个很大的问题
  • 本文探究了视频数据在ViT上的优化,再进一步探究了四种不提供的特征融合提取方式的性能和效果

图像输入

本文讨论了两种直观的输入方式,一种为不同帧之间图像直接按照ViT的处理,转换为tokens,然后按照frames的顺序进行组合,另一种则将多帧直接进行组合,同时获取时间,空间上的一个token,这样能更有效融合时空信息

举个例子, 当输入32frames到模型中,t=4,则我们可以得到8 frames的tokens

模型结构

Model 1:Spatio-temporal attention

简单的将token直接拼接起来,输入到bert中

因为输入token和MSA的计算量成平方关系,所以这种方面效率最低

Model 2:Factorised encoder

使用后融合方面,每一组图像分别过L层的Atten,然后再融合,计算量大大减少

计算量为 O((h*w)^2+t*2)

层数会比model 1更多

Modal 3:Factorised self-attention

该结构将时间和空间的交互进行拆分,在空间上交互,只计算单独的attention,然后在时间上再计算一次atten,这样也能降低计算量

We observed that the order of spatial-then-temporal selfattention or temporal-then-spatial self-attention does not make a difference

先时间和先空间没有较大区别

本模型上不适用cls emb,这样更有利于进行维度变换

Model 4: Factorised dot-product attention

个模型和Model3十分相似,相当于并行版的Model3

训练细节

模型是以Vit为基础进行训练的,所以初始化需要进行特殊处理

Position emb: 复制t份出来,来适应多帧的处理

Therefore, at initialisation, all tokens with the same spatial index have the same embedding which is then fine-tuned.

Embedding emb:

2d的输入没什么好说的

对于3d的输入,提供了两种不同的方式

公式9可以实现在初始的情况下,等价于只用的1帧的情况,参数由模型自己去学习

Transformer Weight:

In this case, we initialise the spatial MSA module from the pretrained module, and initialise all weights of the temporal MSA with zeroes

实验结果

ViViT-B是使用3d输入的ViT,论文的改进版本

We also consider an additional baseline (last row), based on Model 2, where we do not use any temporal transformer, and simply average pool the frame-level representations from the spatial encoder before classifying.

model3和model4虽然参数更少,但是时延都增加了不少,猜测是因为向量维度变换的关系

model1在空间和时间上都可以做到最灵活的特征融合,所以效果也是最好的

论文还附带了几个消融实验,感兴趣的可以查一下原文

1. 输入Frames融合

L_t为Model2上,单个分支上帧的数量,从这个结果上看,还是提前进行融合,能带来更好的效果

2. 模型大小

论文中测试了Large和Base两种规模, 从结果上看,L对性能的增益远不及计算量的增加

3. Tubelet的效果

16x4应该是指16帧图像,按照t=4来进行融合,所以实际输入帧的数量应该为4

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-05-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ViViT: A Video Vision Transformer
  • 论文: https://arxiv.org/abs/2103.15691
  • 背景
  • 图像输入
  • 模型结构
    • Model 1:Spatio-temporal attention
      • Model 2:Factorised encoder
        • Modal 3:Factorised self-attention
          • Model 4: Factorised dot-product attention
          • 训练细节
          • 实验结果
            • 1. 输入Frames融合
              • 2. 模型大小
                • 3. Tubelet的效果
                相关产品与服务
                图像处理
                图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档