前段时间,何恺明团队提出MAE在CV届引起极大轰动,自上传到arxiv之后,各种"YYDS", "Best Paper预定"等,关于MAE的介绍可参考以下两个介绍:
NLP向CV跨界,何恺明提出简单实用的自监督学习方案MAE,ImageNet-1K 87.8%
一起来动手实现 MAE吧 : https://zhuanlan.zhihu.com/p/439554945
就在今天,恺明团队对MAE进行了扩展,将其用于视频表达学习,再一次表达MAE的优异性:最优Mask比例高达90%,在可以学习到强表达能力的同时在空时方面具有almost no inductive bias特性。总而言之,Masked AtuoEncoding(如BERT、MAE等)是一种统一的具有最小领域知识表达学习方法。
恺明的paper最精彩的有两点:(1) idea足够简单;(2) 实验足够充分。所以本文仅为抛转引玉之述,更精彩的实验部分请移步原文: https://arxiv.org/pdf/2205.09113.pdf,原文更精彩。
本文方案为MAE的一个简单的扩展,即将图像领域的MAE向视频领域扩展。其目的在于:在尽可能少的领域知识下,研发一种广义且统一的框架。
上图给出了本文所提出方案的整体架构示意图,它主要包含以下几点技术点:
MAE一文的研究表明:最优Mask比例与数据的信息冗余相关。加持上非结构化随机Mask,BERT的15%与MAE的75%表明:相比语言,图像具有更强的信息冗余。本文的研究(高达90%的Mask比例)进一步支撑了该假设,上图给出了90%与95%Mask比例的MAE在未知验证集上重建结果。
相比结构感知采样策略(如上图b-d),本文的空时不可知采样策略(见上图a)更加高效。由于近邻块在空时维度上的相关性,结构感知采样策略的最优Mask比例往往比较低。相反,空时不可知采样策略可以更好的利用有限数量的可见块(visible patches),进而达成更高的Mask比例。
上表给出了Kinetics-400(K400)数据集上的性能对比,可以看到:相比SOTA方案,本文方案极具竞争力。本文方案是仅有的vanilla ViT方案,其他方案均为分层架构或转为视频而设计的架构。
上表给出了AVA数据集上的性能对比,可以看到:仅需16\times 224^2 ,所提方案取得了与MaskFeat(其输入分辨率更高40 \times 312 ^2 )相当的性能。更重要的是,该方案采用了PlainViT架构,无需在检测任务上表现更好的分层特征。
上表给出了SSv2数据集上的性能对比,可以看到:仅需16\times 224^2 输入的VanillaViT方案具有与40 \times 312 ^2 输入的MaskFeat方案相当的性能。