专栏首页机器学习爱好者社区FAIR最新无监督研究:视频的无监督时空表征学习

FAIR最新无监督研究:视频的无监督时空表征学习

近期,FAIR的Kaiming He组发布了关于视频的无监督学习研究:A Large-Scale Study on Unsupervised Spatiotemporal Representation Learning,这篇论文被CVPR2021收录。论文的核心是将近期图像中的无监督学习方法应用在视频的无监督训练中。这个工作实验非常充分,也只有Facebook和Google 这样的大厂才有足够的资源来做这样的大规模实验。

论文中共选取了四种无监督学习方法:MoCo,BYOL,SimCLR,SwAV。其中MoCo和SimCLR是需要负样本的对比学习方法,而BYOL和SwAV是只依赖正样本的无监督学习方法。从另外一个角度看,MoCo和BYOL都采用了momentum encoder,而SimCLR和SwAV并没有。这里的四种方法有两类是Facebook提出的(MoCo和SwAV),另外的两类SimCLR和BYOL则是Google提出的 。

这四种方法原本都是用于图像的无监督训练,视频相比图像只是多了一个时间维度,这些方法可以非常容易地扩展到视频的无监督学习中。无论是图像分类还是视频分类,无监督就是要学习到特征不变量。具体到图像上,上述方法其实都是要同一个图像做不同的augmentation送入一个encoder网络来学习到不变的特征。那么对于视频分类来说,除了图像本身的变换外,还增加了时序维度。论文的做法是从同一个视频中sample不同的视频片段clips来做无监督学习(这其实可看成video独有的augmentation),这其实是希望学习到temporally-persistent features。论文中选择的是SlowFast R-50来最为encoder。下图展示了从一个视频中抽取3个不同的clips:

如果只抽取一个clips,那么学习就其实只依赖图像本身的变换,这对于视频分类显然不够。论文实验也证明了:more clips are beneficial。从下表可以看出,随着clips的增加,四类方法的性能均会提升,这说明对视频的无监督学习来说:learning space-time persistence within a video is important

另外一点是在采样时timespan between positives越大越有效,这点也不难理解,因为图像中也是越hard augmentation越好。不同clips时间差越大,将会产生hard positive,对于学习反而是有利的。不过如果是长视频,那么时间差比较大的clips可能会发生语义变化,从论文实验结果来看,对效果影响反而很小(图像分类的random crop其实也会改变语义,比如crop到了背景区域,不过看起来训练是能够容许noise的)。如下表所示,对于IG-Curated-1M数据集,当timespan大于60s时,性能还有提升;而对于IG-Uncurated-1M数据集,当timespan大于600s时,性能也只是有稍微下降。

具体到四种方法上,从实验结果来看,虽然4种方法性能没有太明显的差距,但是MoCo和BYOL的效果要稍高于SimCLR和SwAV,前面已经说话前者都采用了momentum encoder,momentum encoder的作用是尽量保持模型输出的一致性,可能视频分类这个问题上影响更大。论文里面也没有给出具体的解释。对于视频分类来说,由于训练所需资源更多,会不会无法采用较大的batch sizes(论文中是64*8=512),导致SimCLR效果稍差?这里面的变量较多,可能还需要进一步的研究。

当无监督用于下游任务时,无监督训练方法在某些数据集上甚至可以超过有监督训练的方法,如基于BYOL在K400-240K无监督训练后应用在AVA和SSv2数据集上性能可以超过直接基于K400-240K的有监督训练后再在两个数据集上finetune。

论文还有更多的实验,更多可以详见论文:https://arxiv.org/pdf/2104.14558.pdf

这篇论文通过大量的实验证明了无监督学习在视频分类问题上的有效性,正如论文结尾所述,未来还有继续提高的空间:

We observed that linear readout on Kinetics is a good indicator of the performance on other datasets and that unsupervised pre-training can compete with the supervised counterpart on several datasets, but there is room for improvement. We hope that our baselines will foster research and provide common ground for future comparisons.

·合作、交流请关注:公众号「机器学习爱好者社区」(ML_shequ)

·转载请添加微信:yimudeguo

本文分享自微信公众号 - 机器学习爱好者社区(ML_shequ),作者:我是小将

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-05-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • FAIR 这五年!

    作者:Yann Lecun、Jerome Pesenti、Mike Schroepfer

    机器之心
  • CVPR 2020 论文大盘点-动作识别篇

    本文盘点所有CVPR 2020 动作识别(Action Recognition )相关论文,该方向也常被称为视频分类(Video Classification ...

    CV君
  • CVPR 2020 论文大盘点-动作识别篇

    本文盘点所有CVPR 2020 动作识别(Action Recognition )相关论文,该方向也常被称为视频分类(Video Classification ...

    小白学视觉
  • 何恺明最新一作论文:无监督胜有监督,迁移学习无压力,刷新7项检测分割任务

    这一次,涉及的是无监督表征学习。这一方法广泛应用在NLP领域,但尚未在计算机视觉中引起注意。

    量子位
  • 成立 5 周年:一文览尽 Facebook 人工智能研究院历年重要成果

    AI 科技评论按:五年前,Yann LeCun 等人创建了 Facebook 人工智能研究院 (Facebook AI Research,FAIR),试图通过开...

    AI科技评论
  • 学界 | 顶会见闻系列:NeurIPS 2018 论文精选

    AI 科技评论按:本篇属于「顶会见闻系列」。作为一个研究人员们欣赏彼此论文、讨论学术话题的严肃学术顶级会议,NIPS 今年颇为热闹,前有「11 分钟售罄门票」事...

    AI研习社
  • 学界 | 顶会见闻系列:NeurIPS 2018 论文精选

    AI 科技评论按:本篇属于「顶会见闻系列」。作为一个研究人员们欣赏彼此论文、讨论学术话题的严肃学术顶级会议,NIPS 今年颇为热闹,前有「11 分钟售罄门票」事...

    AI科技评论
  • 用这种方法实现无监督端到端图像分类!

    FAIR 的研究者提出了一种为卷积网络进行大规模端到端训练的聚类方法。他们证明了用聚类框架获得有用的通用视觉特征是可实现的。

    数据派THU
  • Facebook AI实验室最新论文:图像检测的无监督学习(下载)

    新智元导读】Facebook最近在美国的日子不算好过。据英国《卫报》报道,Facebook平台上广受欢迎的新闻推送功能实际上严重依赖于编辑团队来决定新闻内容的取...

    新智元

扫码关注云+社区

领取腾讯云代金券