专栏首页机器之心业界 | 从视频到语句,优必选获TRECVID 2017子任务冠军

业界 | 从视频到语句,优必选获TRECVID 2017子任务冠军

机器之心发布

优必选科技

近日,由优必选悉尼 AI 研究院和浙江大学网络与媒体实验室组成的 DL-61-86 队伍参加 TRECVID 2017 和大规模电影描述与理解挑战 Large Scale Movie Description and Understanding Challenge (LSMDC 2017)的多项任务,并获得了 TRECVID 2017 VTT matching and ranking 任务的第一名,以及 LSMDC 2017 两个任务的第二名。

TRECVID 2017

随着深度学习在计算机视觉方面大放异彩,近几年视频领域的研究也得到了飞速的发展。数据显示,人们在视频上花费的时间是图片的 2.6 倍,因此视频领域的研究具有巨大的研究意义和应用价值。与图像相比,视频拥有更加丰富的信息,该领域的研究也更富挑战性。TRECVID(http://trecvid.nist.gov)是视频检索领域最权威的国际评测,由美国国家标准技术局(National Institute of Standards and Technology, NIST)组织,得到了包括美国国防部高级研究计划局 (DARPA) 在内的美国多个政府部门的支持,代表国际视频相关技术的领先水平。今年,优必选悉尼 AI 研究院组队参加了 TRECVID 2017 视频到句子匹配和排序的任务(VTT matching and ranking)。

图 1 TRECVID 2017 VTT matching and ranking 任务的结果

VTT matching and ranking 任务吸引了来自全球 35 支队伍报名参赛(包括卡内基梅隆大学、阿姆斯特丹大学、中国香港城市大学、悉尼科技大学、北京大学、中国人民大学、卡内基梅隆大学博世(BOSCH)研究中心等国内外大学和研究所),是今年报名参加队伍数量排名第二的任务,从侧面也反应了该任务在研究领域的受欢迎程度。VTT matching and ranking 任务的内容是给定一个视频,参赛者需要从大量的候选句子中选出一个最好的句子来描述视频。该任务的难点在于视频和句子属于两种模态的数据,因此视频和句子不能直接进行比较。这也是跨媒体检索领域的重要研究问题,因此这项任务具有广泛的实际意义。

图 2 DL-61-86 队伍的解决方案框架

在 VTT matching and ranking 任务上,优必选悉尼 AI 研究院的解决方案 (https://ai.ubtrobot.com/sharelink/TRECVID2017_DL-61-86_VTT.pdf) 是利用两个神经网络分支分别把视频和句子编码映射到一个共同的空间里(common space),在这个空间计算视频和句子的相似度(similarity),从而可以根据相似度对所有候选的句子进行排序,网络框架如图 2 所示。

对于视频编码分支网络,优必选悉尼 AI 研究院提出了空间信息增强的视频表达,通过结合 Gated Recurrent Units (GRU) 和 skip connections 来加强对视频空间信息的表达。同时,优必选悉尼 AI 研究院引入注意力机制(Attention mechanism)让模型重点关注视频中的关键帧,从而避免视频帧之间信息的冗余。对于句子编码分支,优必选悉尼 AI 研究院引入了多尺度的句子编码。多尺度的句子编码同时考虑了单词尺度以及句子尺度的信息,让模型自己学习如何组合这些来自不同尺度的信息,从而学习得到一个更好的句子特征编码器。该解决方案以大幅度的优势获得了 VTT matching and ranking 任务的第一名。

LSMDC 2017

Large Scale Movie Description and Understanding Challenge (LSMDC 2017) 是由普朗克信息学研究所、多伦多大学、迪士尼研究院、Facebook 人工智能研究院等大学和研究机构联合创办。今年的 LSMDC 2017 比赛,作为 ICCV 2017 的一个 workshop,吸引了来自全世界的众多队伍参加。优必选悉尼 AI 研究院参加了该比赛的两个任务,分别是电影描述(Movie Description)以及电影的标注与检索(Movie Annotation and Retrieval)。

图 3 DL-61-86 队伍在 Movie Description 任务中的解决方案

Movie Description 的任务内容是通过自动生成一句话来描述给定的电影片段。优必选悉尼 AI 研究院的解决方案 (https://ai.ubtrobot.com/sharelink/03-Dong.pdf) 是利用编码和解码的网络框架(encoder-decoder framework)来实现,首先利用空间信息增强的视频表达来对电影片段进行编码,然后通过 GRU 把编码后电影解码成一句话。该方案在 7 个评测指标中获得 3 个第一、2 个第二以及 2 个第三。Movie Annotation and Retrieval 任务分成两个子任务,分别是 Movie Multiple-Choice Test 和 Movie Retrieval。Movie Multiple-Choice Test 任务是给定一个电影片段,参赛者需要从 5 个句子中挑选一个句子来描述电影片段,而 Movie Retrieval 任务是给定一个句子,参赛者需要对所有候选电影片段进行排序。这两个任务的核心问题都是如何计算电影片段和句子的相似度,因此优必选悉尼 AI 研究院采用了 TRECVID 2017 VTT matching and ranking 任务上的相同方案,最终都获得了第二名的成绩(图 4、图 5 和图 6 为 LSMDC 2017 比赛任务的排行榜)。

图 4 LSMDC 2017 Movie Description 任务排行榜

图 5 LSMDC 2017 Movie Multiple-Choice Test 任务排行榜

图 6 LSMDC 2017 Movie Retrieval 任务排行榜

CVPR 2017

除了 TRECVID,今年 7 月,在 CVPR 2017 的 VQA 比赛中,优必选悉尼 AI 研究院与杭州电子科技大学、北卡罗来纳大学夏洛特分校组成联合队伍 HDU-USYD-UNCC,在来自全球最顶级的几十支大学、研究机构和企业队伍中获得了第二名的成绩,仅次于阿德莱德大学与微软研究院组成的联合队伍。VQA(视觉问答,Visual Question Answering)以一张图片或者一段视频和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA 就是给定的图片进行问答。这是未来机器人通过视觉系统认知和理解世界,并与人互动的关键技术。VQA 是一种涉及计算机视觉和自然语言处理的学习任务,是近年来非常热门的一个研究领域,也是 AI 落地的一项重要技术领域。

同时,在 CVPR 2017 的 ILSVRC 2017(ImageNet Large Scale Visual Recognition Challenge 2017)视频物体检测(Object Detection from Video)竞赛的四个项目(包括给定训练数据条件下的视频物体识别、额外训练数据条件下的视频物体识别、给定训练数据条件下的视频物体识别/追踪,以及额外训练数据条件下的视频物体识别/追踪)中,优必选悉尼 AI 研究院与帝国理工学院组成的联合队伍 IC-USYD 都以领先第二名超过 5% 的成绩取得了第一名。ILSVRC 2017 视频物体检测竞赛主要考察在视频里中获取物体的能力,对于机器人而言这是一项非常重要的工作,例如它在行走过程中就能知道这个场景里有多少物体,有什么物体。人眼看到的视觉不是一张张照片,而是连续的视觉的信息,未来机器人的视觉系统也将是对连续视觉的理解。

图 7 优必选与清华合作的仿人形机器人获得 RoboCup 人形组 AdultSize 比赛第二名

2017 年 7 月 30 日,优必选还与清华大学联队参加了 RoboCup(机器人世界杯)人形组 AdultSize 的比赛,并以 13 分的成绩获得了该组技术挑战赛的第二名,仅次于拿下了 15 分的德国 NimbRo 队。RoboCup 是目前全球规模最大、水平最高、影响最广的机器人专业赛事,其机器人足球项目被分为仿真组、小型组、大型组、标准平台组和人形组五个组别,代表了未来几年双足人形机器人进行足球比赛的技术方向。

本文为机器之心发布,转载请联系本公众号获得授权。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-11-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 学界 | 通过流量识别加密视频内容:以色列学者提出神经网络攻击模型

    选自GitHub 作者:Roei Schuster等 机器之心编译 参与:李泽南、Smith、吴攀 深度学习在数据特征识别上的能力强大,目前已成为计算机视觉、图...

    机器之心
  • 让视频里的你完全消失,Adobe最新SOTA模型实现无痕修图,无需先验知识

    Adobe 提出的这种新型视频修图算法可以同时修复缺失图像和移动(光流)信息,基于 Deep Image Prior(DIP)提出。DIP 利用卷积网络架构来修...

    机器之心
  • Tumblr扫黄正式开始!AI鉴黄也许是老司机们的头号敌人

    12 月初,美国著名图片博客网站 Tumblr 宣布将全面禁止任何成人内容。新规定将于 12 月 17 日正式施行。这一行为看来是主动在和「互联网的 30% 流...

    机器之心
  • 免费看VIP电影、电视剧、综艺等软件(PC版本)

    Rookie
  • Easy Basic HTTP authentication with Tornado

    I recently got a chance to play around with Tornado, which is pretty neat (altho...

    党志强
  • Django 中间件 请求前

    正常调用顺序是从上往下,但如注册了多个中间件类中包含 process_exception函数的时候,process_exception函数调用的顺序跟注册的顺序...

    py3study
  • bootstrap treeview级联勾选的正确姿势

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/hotqin888/article/det...

    hotqin888
  • python note #1

    To record my process of studying python and to practice my English meanwhile, I'...

    py3study
  • Python笔记(二)——python调

    前一篇讲了简单的C/C++调用Python脚本模块(.py)。既然是用于诸多游戏程序的脚本语言,那肯定是缺不了互调(礼尚往来)。因此,本篇讲一个简单的pyth...

    py3study
  • Python入门之Python Colorama模块

    Jetpropelledsnake21

扫码关注云+社区

领取腾讯云代金券