专栏首页新智元DeepMind视频行为分类竞赛,百度IDL获第一,新算法披露

DeepMind视频行为分类竞赛,百度IDL获第一,新算法披露

【新智元导读】ActivityNet竞赛是目前视频动作分析领域影响力最大的赛事。上月,2017年竞赛组织者通过官网宣布了本届比赛的成绩。其中,来自百度深度学习实验室(IDL)的Genome团队获得子命题、由DeepMind主办的“Kinetics行为分类比赛”第一名,中国香港中文大学获得第二名,德国创业公司TwentyBN获得第三名。本文将具体介绍在ActivityNet Kinetics竞赛排名第一的视频识别任务解决方案。

作为重要的内容载体,视频已经成为信息获取的重要来源之一。与文章不同,视频通常需要预先标注出关键字才能被用户检索到,进而决定是否打开。但大量的视频因缺乏内容标签,一方面无法被检索,另一方面用户也很难快速知道视频内容。如何分析视频内容并进行有效分类,成为业界关注的核心问题之一。

目前视频理解的难点在于,理解视频需要在图像的基础上获得更多场景信息,例如不仅仅需要知道短视频的画面里面有人,还要知道这个人是在做什么动作。此外,在算法层面上视频理解也需要用到多帧的信息,而且视频理解天然是一个多模态的问题,除了图像,还有语音数据,运动信息等。因此,如何合理提取多帧多模态特征中的有效信息是视频理解问题的重点。

常见的视频分类方法主要分为两部分,一是从视频中抽取特征,更好地建模图像、语音以及光流等多模态信息,另一部分则是对多帧的信息进行更好的时序建模。此前,在特征的时序建模上,并没有很好的处理方法。有人使用LSTM模型, 但浅层的LSTM容易导致过拟合,而深层的LSTM会遇到优化问题难以收敛。此外,由于视频包含了图像连续的时间和空间域,怎样构建一个端到端的框架,将这些图像的时空特点表示出来,也是研究的难点。

ActivityNet:视频界行为分类界的ImageNet

ActivityNet数据集和竞赛专为促进视频理解而推出。与ImageNet类似,研究人员可以在这个数据集的基础上提出更好的视频分类方案,也可以得到很好的预训练视频模型,能够迁移到其他垂直领域。

ActivityNet竞赛是目前视频动作分析领域影响力最大的赛事,被誉为视频界的ImageNet竞赛。虽然刚刚推出2年,但每年都吸引到MSR、CUHK、CMU、UTS等众多高校和科研机构积极参加。

其中,Kinetics是ActivityNet今年最新推出的一个大规模视频分类任务,本次Kinetics视频行为分类比赛由DeepMind主办,有400个动作类别,24万训练语料,每个视频长10秒左右,一个视频就是一个完整的类别,是迄今为止开放视频内容的最大视频分类数据集。

获胜技术关键:如何学到更好的特征、基于这些特征时序建模,以及融合多模态数据

根据ActivityNet竞赛规则,参赛者需要预测每一个视频的5个可能类别,系统依据预测类别Top1和Top5的平均准确率来排序。值得一提,每支参赛队伍只能提交4次结果,组织方也是在比赛结束前一个多月才将数据集放出来,都是为了防止参赛者拟合数据集

百度IDL视频分析团队Genome此次获得ActivityNet Kinetics竞赛第一名,获胜的关键主要有三点:如何学到更好的多模态特征表达,基于这些特征建立时序关系,最终将各种不同模态信息融合到一起。

1. 如何通过训练学到更好的特征 获奖方案主要使用了3种类型特征:RGB特征、光流特征和语音特征。团队使用基于双路卷积神经网络的方法学习RGB特征和光流模型,并将RGB模型迁移到语音特征上去,都得到很好的结果。提取更好的特征表示是视频理解的基础。

2. 如何基于这些特征建立更好的时序关系 时序关系建模有基于CNN和基于LSTM/GRU两种思路,Genome团队都做了尝试。在基于LSTM/GRU思路探索序列模型时,他们提出了Fast Forward处理视频时序建模的框架,使用一个深度达到7层的双向LSTM/GRU网络(一共14层)建模深层次的时序关系,堪称视频界的ResNet。通过引入 Fast Forward 连接,不仅能有效防止过拟合,还能加速模型的收敛,提升模型的性能。该模型是本次比赛中单模型性能最佳的时间序列模型。

在本次比赛中,单模型性能排名第二的快速传导网络(FFLSTM),也是性能最好的时间序列模型

经过不断实验,团队在建模时序特征时发现单独使用Attention机制非常有效,于是他们就尝试移除LSTM/GRU,引入更多Attention组合参数来捕获更多的时序模式,提出了一个名叫Multi-Group Shifting Attention Network的模型,这也是本次比赛表现最好的单模型。这种架构的设计跟前人的工作也有异曲同工之处。在此前谷歌云联合Kaggle举办的YouTube-8M大规模视频理解竞赛(Genome团队也在其中取得了第三名的成绩),冠军团队使用的是VLADNET算法,这是一种优化过的传统视频分类算法。本次Genome团队在ActivityNet中使用的Multi-Group Shifting Attention Network,可以看作是对VLADNET算法的一次创新,将沿着每一帧的特征去做卷积改为沿着序列去做卷积,由此实现了性能的提升。

在这次比赛中,单模型成绩最好的Multi-group Shifting Attention Networks架构

3. 如何让多模态更好地融合在一起 传统的多模态数据融合只是将不同特征拼接在一起去学习,而难以学习得到不同模态的特征的有效组合。Genome团队在本次竞赛过程中也针对这个问题提出了相应的优化方案。

团队提出的4种新视频行为分类方法(也即最后4种单模型)的性能数据。

该项技术已经应用到视频个性化推荐和视频自动化打标签等百度产品中,解决了视频推荐的冷启动和视频关键词缺乏等实际问题。

了解更多请查看论文:

Revisiting the Effectiveness of Off-the-shelf Temporal Modeling Approaches for Large-scale Video Classification

https://arxiv.org/abs/1708.03805

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-08-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • MIT 对抗学习和无监督学习最新进展:机器学会创作视频,预测人类行为

    【新智元导读】LeCun曾在演讲中提到,2016年深度学习领域最让他兴奋的技术莫过于对抗学习,而无监督学习一直都是人工智能研究者孜孜追求的“终极目标”之一。MI...

    新智元
  • DeepFakes天敌来了!伯克利紧急研发“火眼金睛”防伪克星

    DeepFake假视频的泛滥早已经不只是恶搞和娱乐的问题了!这些假视频衍生出的假新闻可能会成为2020美国大选的一场噩梦。

    新智元
  • 微软视觉智能技术突破: 首次 bot 生成视频标题,将开源大型数据库

    【新智元导读】台湾国立清华大学与微软合作,首次实现了让机器自动生成视频标题。他们创建了一个系统,可以由机器人观看视频、找出视频中的亮点,然后生成简洁、吸引眼球的...

    新智元
  • 这项技术可以合成以假乱真的奥巴马视频

    安妮 编译自 IEEE Spectrum 量子位出品 | 公众号 QbitAI ? △ 奥巴马镇楼 可能奥巴马也要分辨不出自己视频的真假了,这也不能怪他。 一种...

    量子位
  • RTSP_Onvif安防互联网摄像头实现H265 H264 Web端无插件直播流媒体服务EasyNVR录像回放关于按需直播与非按需直播如何选择问题

    随着互联网基础设施建设的发展,4G/5G/NB-IoT各种网络技术的大规模商用,视频随时随地可看、可控的诉求越来越多,互联网思维、架构和技术引入进传统监控行业里...

    EasyNVR
  • 流量红利减退,资本退潮明显:短视频行业该如何应对?

    在经历了早期“三国”乱战之后,短视频行业的发展开始回归到相对较为理性、平静的发展状态。然而,作为一种全新的内容展示方式,短视频所带来的风口同样让我们震撼。以抖音...

    孟永辉
  • struts2学习视频第一天第一节

    视频内容

    Java帮帮
  • 视频AI智能分析高效快速解决视频取流、分发、级联等流媒体基础设施建设的难题

    很多做视频分析的厂家,在基础视频传输这一块的积累和沉淀还不是很多,而用传统的一些开源产品是无法达到稳健可靠视频调取与传输的,也就是视频的基础建设是需要时间积淀,...

    EasyNVR
  • 【探秘】如何使用视频核心指标洞察潜在用户行为数据

    译者 黄文博,iCDO翻译志愿者 审校 朱玉雪,iCDO翻译志愿者 本文长度为2048字,建议阅读10分钟,请细嚼慢咽噢! 今天来自伦敦的资深行业专家Anish...

    iCDO互联网数据官
  • 喜提苹果“年度趋势奖”,美图WIDE“解密”短视频新趋势

    12月2日,苹果公司评选出2019年度最佳应用和游戏,从iPhone、iPad和Mac三端数百万个APP中挑选出6款年度最佳APP、游戏以及8款年度趋势APP(...

    曾响铃

扫码关注云+社区

领取腾讯云代金券