李飞飞:为什么计算机视觉对机器人如此重要? | IROS 2017

AI科技评论按:9 月 26 日,机器人领域的顶级学术会议 IROS 2017 进入第二日。上午,著名华人计算机视觉专家、斯坦福副教授李飞飞,在温哥华会议中心面向全体与会专家学者作了长达一小时的专题报告。

根据Guide2Research的排名,IROS是计算机视觉领域排名第四的学术会议,前三名分别为CVPR、ICCV、ECCV。计算机视觉在机器人的发展史中起着非常重要的作用,与之相关的“感知”也正是历年IROS大会上的重要内容,随着机器人研究的发展和“越来越接近人类”这个目标的进一步深入,越来越多的学者更深刻认识到了计算机视觉对机器人整个行业发展的重要性。AI科技评论认为,随着近几年深度学习在计算机视觉领域的突破,计算机视觉在机器人领域的应用也将会迎来一个新的时期,这也是今年的IROS大会邀请李飞飞教授做大会报告的原因。

如李飞飞开场所言,这是她第一回参加IROS,但她希望和做机器人研究的朋友们进行交流,分享在她眼中计算机视觉对机器人意味着什么,并介绍她在ImageNet后,与其斯坦福研究团队正在从事的其他研究项目,而这些项目对未来机器人的感知和认识我们所处的环境尤为重要。

“希望可以说服做机器人研究的朋友,(计算机)视觉是机器人的杀手级应用。”在演讲前一天,李飞飞在Twitter上这么说。

由于篇幅限制,报告分为上下两篇。在上半部分,李飞飞解释了为什么计算机视觉会是机器人的杀手级应用,AI科技评论作了不改变愿意的删减。

李飞飞在 IROS 2017

李飞飞:我会与大家分享最近在做的视觉工作,聊一聊计算机视觉与视觉智能领域的历史背景。这些都是仍在进行中的研究,欢迎自由讨论。

视觉究竟有多重要?

朋友建议我,在机器人大会演讲至少要放一张机器人的图片。我挑了一张最喜欢的:

问题来了:为什么在这幅儿童画里,机器人是有眼睛的?

我认为这与进化演进有关。不管是智慧动物还是智能体,眼睛/视觉/视力都是最基本的东西(儿童在潜意识里也这么认为)。让我们回到 5.4 亿年前的寒武纪——在寒武纪生物大爆发之前,地球上的生物种类算不上多,全都生活在水里,被动获取食物。但在距今约 5.4 亿年的时候,非常奇怪的事情发生了(如下图):短短一千万年的时间内,各种各样的新物种纷纷涌现,这便是“寒武纪大爆发”。

这背后的原因是什么?

最近,一名澳大利亚学者提出了一套非常有影响力的理论,把寒武纪大爆发归功于——视觉。在寒武纪,最早的三叶虫进化出了一套非常原始的视力系统,就像最原始的德科相机,能捕捉到一丁点光。但这改变了一切:能“看”之后,动物开始主动捕食。猎手和猎物之间从此开始了持续数亿年的“追踪—躲藏”游戏,行为越来越复杂。从这个节点往后,几乎地球上所有动物都进化出了某种形式上的视觉系统。5.4 亿年之后的今天,对于人类,眼睛已成为我们最重要的传感器,超过一半的大脑都会参与视觉功能。

在地球生物向更高智慧水平进化的过程中,视觉真的是非常重要的推动力量。

这套如此神奇的感知系统,便是我今天想要讲的主题。这也是我们对机器的追求——让机器拥有人类这样的视觉智能。

从人类到机器视觉

下面,我讲一个小故事,关于人类视觉系统的令人惊叹之处。

在 1960 年代的好莱坞,诞生了一个非常有里程碑意义的历史电影《The Pawnbroker》(首部以幸存者角度表现二战中犹太人大屠杀的美国电影) 。随着这部电影诞生了一种全新的为电影插入视频剪辑的技术,导演 Sidney Lumet 对此做了个很有意思的实验——插入的画面需要显示多久才能让观众抓住内容。

他不断缩短画面播放的时间,从十几秒到几秒,最后到三分之一秒——他发现这是一个相当好的时长,足够观众看清楚并且充分理解画面。

心理学家和认识科学家们受此启发,开展了更进一步的实验:向参与者播放连续多帧画面,每帧的显示时间仅有 100 微秒。其中,仅有一幅画面里有一个人,要求参与者找出这个人。

而大家确实都能够找出来。这非常令人惊叹,只需 100 微秒,我们的视觉系统就能检测到从来没见过的人。

1996 年,神经心理学家 Simon J. Thorpe 在 《自然》发表了一项研究,通过脑电波观察人脑对复杂图像进行分类的速度。他发现,仅需 150 微秒,大脑就会发出一道区分信号,对画面中的物体是否为动物做出判断。

后来,哈佛人体视觉学者 Jeremy Wolfe 在论文中写道,虽然很难去衡量一个人究竟看到了什么、对某个画面达到了什么程度的理解,但直觉告诉我们,画面中的物体应当是我们观察的对象之一。

看起来很显而易见,但这提醒我们,对物体的识别是视觉最基础的部分之一,计算机视觉也在这个领域攻关了许多年。从 2010 到 2017,ImageNet 挑战赛的目标识别(object recognition)错误率一直在下降。到 2015 年,错误率已经达到甚至低于人类水平。

我不会说目标识别是个已经攻克的领域。许多关键问题尚待研究,其中不少和机器人息息相关。比如 3D 轮廓理解,目标局部理解,对材料、纹理的理解等等。这些方面的研究非常活跃,我也感觉到做这些比组织 ImageNet 分类任务挑战赛更有意思。

后目标识别时代的计算机视觉

接下来,我想分享一些新的、探索性的工作,而不是列出识别对象清单(inventory list of objects)这样的基础研究。让我们回到 Jeremy Wolfe 的论文,他继续写道:“物体之间的关系,必须写进 gist。”

假设有两张图片:把一盒牛奶倒进玻璃杯;把一盒牛奶倒出来(倒在空中),旁边放着一只玻璃杯。两者不是一回事。两张图片中的物体都一样,但它们之间的关系不同。

仅凭图片的对象清单,无法完整传递其内容。下面是另一个例子:

两张照片都是人和羊驼,但是发生的事情完全不同。当然,过去在这方面也有不少研究,包括空间关系,行为关系,概率关系等等,就不一一阐述了。这些工作基本都在小型封闭环境中开发测试,探索的也不过十几、二十几种关系。而我们希望把视觉关系的研究推向更大的尺度。

我们的工作基于视觉表达和 leverage model 的结合,通过把图像空间的 embedding 以及关于对象关系的自然语言描述以巧妙的方式结合起来,避免了在对象和对象之间的关系做乘法带来的计算负担。

上图展示的便是可视化结果的质量。给定该照片,我们的算法能找出空间关系、比较关系、不对称空间关系、动词关系、行为关系以及介词关系。

更有意思的是,我们的算法能实现 zero-shot (零样本学习)对象关系识别。举个例子,用一张某人坐在椅子上、消防栓在旁边的图片训练算法。然后再拿出另一张图片,一个人坐在消防栓上。虽然算法没见过这张图片,但能够表达出这是“一个人坐在消防栓上”。

类似的,算法能识别出“一匹马戴着帽子”,虽然训练集里只有“人骑马”以及“人戴着帽子”的图片。当然,这个算法还很不完美。例如当两个类似的对象(如两个人)部分重叠在一起,算法就容易判断失误。如下图,算法错误得认为是左边的人在扔飞碟:

这是一个计算机视觉下面飞速发展的领域。在我们团队的 ECCV 2016 论文之后,今年有一大堆相关论文发表了出来,一些甚至已经接近了我们的模型效果。我非常欣喜能看到该领域繁荣起来。

(以上是李飞飞老师 IROS 2017 大会报告的上半部分,更多关于 Visual Genome Dataset 的介绍,敬请期待AI科技评论的后续报道)

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-09-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

神经网络到底要做多少层?沈向洋专访

【新智元导读】 沈向洋在专访中表示,神经网络到底要多少层?这个问题一直没有得到回答。我觉得应该有人写这样一篇基础的论文(来回答这个问题),这肯定会是一篇获奖论文...

42012
来自专栏AI科技评论

儿子转眼就长大:Hinton、LeCun、Bengio 口述神经网络简史

AI 科技评论按:经过过去五年的发展,AI 已经从一种玄学概念发展成了科技产业最大的希望之一。计算机已经能够识别人脸和事物、理解人类说出的话,以及翻译多种语言。...

1054
来自专栏量子位

香港科技大学教授冯雁:How to Build Empathetic Machines

主讲人:冯雁 | 香港科技大学 屈鑫 整理编辑 量子位 出品 | 公众号 QbitAI 本文为冯雁教授8月18日于北京创新工场的分享实录整理,分享主题为《How...

2906
来自专栏大数据挖掘DT机器学习

知乎观点收集:关于机器学习和数据挖掘找工作

甲:数据挖掘 很多地方招聘还是挺喜欢这样专业的,但是前提是你得过笔试关。 为了笔试,学习C和数据结构 数据挖掘的时候学习算法和推理机制等,看看数据分析,神经网络...

3867
来自专栏媒矿工厂

利用人工智能提升足球直播效果

人工智能技术代表着未来无限的可能性,已经在很多领域带来巨大的冲击。在足球直播这一领域,版权方需要提供更多更优质的内容以应对日益增长的多元化需求,因此急需提高运营...

3122
来自专栏新智元

【Science AI特辑】变革了人类社会的基础科学,正在遭遇AI革命

【新智元导读】 7月7日,Science发布最新一期杂志,本期为 AI 特辑。人工智能本身是一门科学,现在,它也在变革科学。《Science》以AI在科学研究...

3213
来自专栏AI科技评论

洞见|加拿大皇家科学院李明院士: 唯有理论的进化才能给人工智能带来质变

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人...

2875
来自专栏人工智能头条

微软沈向洋:计算机视觉未来在语义层 “两大一精”是关键

1283
来自专栏CSDN技术头条

概念,算法,应用全部有,迄今为止对大数据研究最透彻的文章……

一、 大数据基本概念 大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集;大数据是目前存储模式与能力、计算...

2146
来自专栏AI科技评论

前沿 | 引起巨大争议的新技术Face2Face:当科技先进到让人害怕

面部追踪技术并不是什么新鲜的技术,但是今年3月公布的Face2Face无疑彻底改变了它的意义。这项技术可以非常逼真的将一个人的面部表情、说话时面部肌肉的变化完美...

3809

扫码关注云+社区