CVPR2016 主旨演讲及焦点论文速览,深度学习垄断地位遭质疑

【新智元导读】计算机视觉国际顶尖会议CVPR2016近日召开,从提交论文和口头报告内容看,深度学习成为主流。本文介绍会议概况及相关成果,比如谷歌教计算机学会分辨并预测视频中关键目标。同时也介绍法国 Inria 研究所 Nikos Paragios 的担忧:眼下计算机视觉领域过于关注深度学习,如果是一时的热潮还好,但研究者应该保持研究多样化,坚持基础理论研究。

2016年的计算机视觉领域国际顶尖会议 Computer Vision and Pattern Recognition conference(CVPR2016)昨天在美国拉斯维加斯召开,会议将持续到当地时间6月30日下午。

本届会议共收到论文 2145 篇,创下历史记录(有效 1865 篇)。会议接收论文 643 篇(接收率 29.9%)。其中,今年的大会还特别开设 Spotlight Session,让 123 篇论文的讲者有 4 分钟的时间口头介绍其研究核心。

大会共有 3 位主旨演讲人。第一天是 Amnon Shashua,著名计算机视觉算法公司 Mobileye 的联合创始人。第二天,也就是今天的主旨演讲,由哈佛大学心理系教授 Elizabeth Spelke 进行,主题是科学研究中的男女性别平等。明天的主旨演讲者是牛津大学人类未来研究所的教授 Nick Bostrom。这样看,不仅仅是计算机视觉和模式识别,主办方连科研性别平等和人工智能发展趋势都考虑了进去。

【点击查看大图】CVPR2016 活动日程表。短短三天,承载这么多的内容。

深度学习一统计算机视觉江湖

根据 Twiiter 上的消息,主要展台都各有看点。例如 Twitter Cortex,刚刚收了 Magic Pony,展台前聚集了很多人。

Twitter Cortex 展台前人群聚集。来源:Twitter

MIT的研究者在会议上发布了给视频配音的研究。

谷歌也在 Google Research Blog 刊登出了 CVPR 2016 相关内容,论文、口头报告、研讨会,加起来总共十几项。

TechCrunch 具体报道了谷歌与几所高校合作的项目。

其中,谷歌与斯坦福大学合作,教计算机学会分辨场景中的关键信息。这项研究的目的是在同时有多人场景的视频中跟踪关键目标。论文以篮球比赛视频为例,计算机需要识别出场上最应该注意的球员。

从画面中识别出关键目标才能提供更大信息量

研究人员利用递归神经网络设计了一个计算机视觉系统,下图就是计算机查看每一帧画面时的“注意力模式”(attention mask)。图中红框标注场上球员,五角星代表篮球,持球运动员则用蓝框表示。

三分球、成功抢到篮板球和投篮失败的场景

经过训练后,这个使用递归神经网络的系统不仅能够识别出当前画面中的关键目标,也可以预测接下来即将成为关键目标的是什么,这样画面与画面之间的动作变化则将前后的关键部分连接起来。

谷歌与爱丁堡大学合作的一项研究,图像识别系统的任务是学会找出每一帧画面里,老虎的四条腿是如何运动的,并且预测接下来它将如何迈步。以往的研究是将画面中活动的物体当做一个整体,这项研究则分别跟踪老虎的四条腿,并分别预测接下来每条腿的运动轨迹。

谷歌与 UCLA、牛津大学以及约翰霍普金斯大学合作的研究,训练图像识别系统理解照片中不同部分的互动关系,生成更精确的描述。

当然,上面介绍的这三篇论文都使用了深度学习。实际上,正如 TechCrunch 报道最后所说,放眼望去,深度学习几乎成了如今计算机视觉研究的标配。

同样,本届 CVPR 2016最佳学生论文、斯坦福大学的 “Structural-RNN: Deep Learning on Spatio-Temporal Graphs”,也是使用深度学习做图像识别。

深度学习 ≠ 唯一选择

不过,也有人对此表示了担心。

法国 Inria 研究所的研究员 Nikos Paragios 在 LinkedIn 撰文指出,直到 2010年,计算机视觉领域相关会议所涉及的专题,无论是从内容上还是从方法上都相对完善,包括早期视觉、分割和组合、运动检测和跟踪、视觉识别以及三维视觉,而且几乎所有研究都用到了统计、几何和优化的方法。参加这样的一次会议,能让人对计算机视觉技术的现状、问题及发展获得全面的了解。

但如今,绝大部分研究都使用了深度学习。当然,Paragios 也表示,每个时期都自有其主导的潮流:20 世纪 80 年代是立体视觉(stereo)、20 世纪 90 年代是连续方法和分割组合,世纪之交离散方法上位,人们也开始再次关注视觉识别和描述。与此同时,机器学习作为最新一股后浪随着前浪袭来,但尽管如此,当时的计算机视觉研究还算多样化,任选一个子领域就能看见新的想法。

但现在情况则大不相同。各个研究都专注于使用深度学习的方法解决计算机视觉问题,会议接收的论文里,发表的论文中有 80% 到 90%,口头报告更是接近 100% 都来自深度学习领域。Paragios 在文章中写道,虽然这样做没有问题,这些论文也都体现了实力,但他想知道这些研究“增加的”科学价值在哪里。

在 Paragios 看来,除了一小部分人还在坚持做基础研究,探索深度学习方法的理论概念,大部分人似乎都跑去搭建更复杂、更庞大的框架——而且从所提交的论文看,基本上所有描述的框架都是不可扩展的。也就是说,尽管表面上看去成果丰硕,但深究起来这些论文背后几乎没有什么理论论证,因此也谈不上为某个基准增添了性能。Paragios 指出,这并不是做学术研究的方法。众人的注意力都放在更快的速度更高的效率上,但追求的目标还是与以往一样,并不远大,而且众人眼中实现目标的方法也仅剩一条了。

不仅会议如此,科研基金也如此,而这就直接导致了计算机视觉研究“理论深度”变浅,研究方向单一。Paragios 接着写道,如果这只是因为近年来计算力和大数据崛起推动所致,那么这股热潮自会过去,计算机视觉也会遵循计算机图形的发展轨迹,从活动和学术研究的量上说,逐渐成为一门边缘学科。

如果不是的话,Paragios 表示——那么问题来了:计算机视觉的下一步发展将是什么?“你怎么让那些刚从学校出来,很有可能连统计学习、模式识别、欧氏几何、连续和离散优化都没听说过的的博士生提出新的想法?”

虽然事情不至于这么极端,但照这样发展下去,Paragios 写道,结果就只有两条:要么是大家走向共和,实现 David Marr 的假说——单一计算框架能解决所有视觉感知问题,当然这也是一项成就;但万一要是沿着深度学习走下去,最终却无法解决各种各样的计算机视觉问题……

Paragios 称自己是深度学习怀疑论者、接受者、倡导者中的后两种,但对前景还很迷茫。不过,他主张的研究多样化,的确值得深思。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-06-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

20 道面试题助你拿下微软 AI offer

微软在业界的霸主地位人尽皆知。它引领了云计算的风潮:第一季度的财报显示,微软提供的Azure服务和Office365在线版本的收入分别飙升了90%和42%。

18640
来自专栏PaddlePaddle

AI不思议|打Dota2和辩论都赢了,AI真的要超过人类?

继Alpha Go对战围棋天才柯洁取胜后,近期AI技术又出现新战绩。前有IBM的Project Debater与人类辩论胜出,后有Dota2中OpenAI的战队...

12420
来自专栏机器之心

前沿 | 受AlphaGo启发,AI重建量子系统新方法登上Nature Physics

选自Nature等 作者:Giacomo Torlai等 机器之心编译 参与:刘晓坤、许迪、李泽南 这是第一次,物理学家证明了机器学习可以利用相对较少的实验测量...

29060
来自专栏企鹅号快讯

科学家:大脑有860亿神经元!能生活在11维度的世界?

最近一项科学研究发现,人类大脑有超过860亿神经元,而每个神经元都有好几个方向上的其它神经元进行着链接,这就形成了一个超级巨大的蜂窝结构。科学家们称,这样的结果...

19380
来自专栏新智元

发表 NIPS 论文后,Salakhutdinov 打算如何塑造苹果的人工智能

【新智元导读】苹果公司 AI 研究主管 Russ Salakhutdinov 近日在 NIPS 2016 的一次闭门分享会上畅谈了苹果的 AI 研究现状。从其流...

423110
来自专栏AI研习社

如何用 3 个月零基础入门机器学习?

写这篇文章的初衷是大部分私信我的朋友都想了解如何入门 / 转行机器学习,搭上人工智能这列二十一世纪的快车。再加上这个问题每隔一阵子就会在知乎时间线上出现一次,因...

392100
来自专栏机器之心

专访 | 三角兽首席科学家王宝勋:热度之下的对话生成

机器之心原创 作者:邱陆陆 从 EMNLP 入选论文《Neural Response Generation via GAN with an Approxima...

416110
来自专栏腾讯音视频实验室

Interspeech 2017:腾讯音视频实验室王燕南博士论文入选,并获邀做口头报告

2017年8月20日,语音通信领域国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开。 Interspeech是由国际语音通信协会ISCA(...

50960
来自专栏CDA数据分析师

你的歌单无聊吗?关于音乐和机器学习的数据分析

Spotify 是全球最大的正版流媒体音乐服务平台,深受全球用户的喜爱。那么你的歌单无聊吗?一位程序员小哥对自己的Spotify歌单进行了数据分析。 几天前,我...

23150
来自专栏华章科技

【MIT计算机视觉预测城市衰落】下一个北上广在哪?人才比钱重要

【导读】 一个社区,一个城市的未来会发展成什么样?计算机视觉可以告诉我们答案。MIT 媒体实验室的研究员分析了160万组拍摄于不同年份的照片。使用比较的结果,研...

9010

扫码关注云+社区

领取腾讯云代金券