李飞飞:为什么计算机视觉对机器人如此重要? | IROS 2017

AI科技评论按:9 月 26 日,机器人领域的顶级学术会议 IROS 2017 进入第二日。上午,著名华人计算机视觉专家、斯坦福副教授李飞飞,在温哥华会议中心面向全体与会专家学者作了长达一小时的专题报告。

根据Guide2Research的排名,IROS是计算机视觉领域排名第四的学术会议,前三名分别为CVPR、ICCV、ECCV。计算机视觉在机器人的发展史中起着非常重要的作用,与之相关的“感知”也正是历年IROS大会上的重要内容,随着机器人研究的发展和“越来越接近人类”这个目标的进一步深入,越来越多的学者更深刻认识到了计算机视觉对机器人整个行业发展的重要性。AI科技评论认为,随着近几年深度学习在计算机视觉领域的突破,计算机视觉在机器人领域的应用也将会迎来一个新的时期,这也是今年的IROS大会邀请李飞飞教授做大会报告的原因。

如李飞飞开场所言,这是她第一回参加IROS,但她希望和做机器人研究的朋友们进行交流,分享在她眼中计算机视觉对机器人意味着什么,并介绍她在ImageNet后,与其斯坦福研究团队正在从事的其他研究项目,而这些项目对未来机器人的感知和认识我们所处的环境尤为重要。

“希望可以说服做机器人研究的朋友,(计算机)视觉是机器人的杀手级应用。”在演讲前一天,李飞飞在Twitter上这么说。

由于篇幅限制,报告分为上下两篇。在上半部分,李飞飞解释了为什么计算机视觉会是机器人的杀手级应用,AI科技评论作了不改变愿意的删减。

李飞飞在 IROS 2017

李飞飞:我会与大家分享最近在做的视觉工作,聊一聊计算机视觉与视觉智能领域的历史背景。这些都是仍在进行中的研究,欢迎自由讨论。

视觉究竟有多重要?

朋友建议我,在机器人大会演讲至少要放一张机器人的图片。我挑了一张最喜欢的:

问题来了:为什么在这幅儿童画里,机器人是有眼睛的?

我认为这与进化演进有关。不管是智慧动物还是智能体,眼睛/视觉/视力都是最基本的东西(儿童在潜意识里也这么认为)。让我们回到 5.4 亿年前的寒武纪——在寒武纪生物大爆发之前,地球上的生物种类算不上多,全都生活在水里,被动获取食物。但在距今约 5.4 亿年的时候,非常奇怪的事情发生了(如下图):短短一千万年的时间内,各种各样的新物种纷纷涌现,这便是“寒武纪大爆发”。

这背后的原因是什么?

最近,一名澳大利亚学者提出了一套非常有影响力的理论,把寒武纪大爆发归功于——视觉。在寒武纪,最早的三叶虫进化出了一套非常原始的视力系统,就像最原始的德科相机,能捕捉到一丁点光。但这改变了一切:能“看”之后,动物开始主动捕食。猎手和猎物之间从此开始了持续数亿年的“追踪—躲藏”游戏,行为越来越复杂。从这个节点往后,几乎地球上所有动物都进化出了某种形式上的视觉系统。5.4 亿年之后的今天,对于人类,眼睛已成为我们最重要的传感器,超过一半的大脑都会参与视觉功能。

在地球生物向更高智慧水平进化的过程中,视觉真的是非常重要的推动力量。

这套如此神奇的感知系统,便是我今天想要讲的主题。这也是我们对机器的追求——让机器拥有人类这样的视觉智能。

从人类到机器视觉

下面,我讲一个小故事,关于人类视觉系统的令人惊叹之处。

在 1960 年代的好莱坞,诞生了一个非常有里程碑意义的历史电影《The Pawnbroker》(首部以幸存者角度表现二战中犹太人大屠杀的美国电影) 。随着这部电影诞生了一种全新的为电影插入视频剪辑的技术,导演 Sidney Lumet 对此做了个很有意思的实验——插入的画面需要显示多久才能让观众抓住内容。

他不断缩短画面播放的时间,从十几秒到几秒,最后到三分之一秒——他发现这是一个相当好的时长,足够观众看清楚并且充分理解画面。

心理学家和认识科学家们受此启发,开展了更进一步的实验:向参与者播放连续多帧画面,每帧的显示时间仅有 100 微秒。其中,仅有一幅画面里有一个人,要求参与者找出这个人。

而大家确实都能够找出来。这非常令人惊叹,只需 100 微秒,我们的视觉系统就能检测到从来没见过的人。

1996 年,神经心理学家 Simon J. Thorpe 在 《自然》发表了一项研究,通过脑电波观察人脑对复杂图像进行分类的速度。他发现,仅需 150 微秒,大脑就会发出一道区分信号,对画面中的物体是否为动物做出判断。

后来,哈佛人体视觉学者 Jeremy Wolfe 在论文中写道,虽然很难去衡量一个人究竟看到了什么、对某个画面达到了什么程度的理解,但直觉告诉我们,画面中的物体应当是我们观察的对象之一。

看起来很显而易见,但这提醒我们,对物体的识别是视觉最基础的部分之一,计算机视觉也在这个领域攻关了许多年。从 2010 到 2017,ImageNet 挑战赛的目标识别(object recognition)错误率一直在下降。到 2015 年,错误率已经达到甚至低于人类水平。

我不会说目标识别是个已经攻克的领域。许多关键问题尚待研究,其中不少和机器人息息相关。比如 3D 轮廓理解,目标局部理解,对材料、纹理的理解等等。这些方面的研究非常活跃,我也感觉到做这些比组织 ImageNet 分类任务挑战赛更有意思。

后目标识别时代的计算机视觉

接下来,我想分享一些新的、探索性的工作,而不是列出识别对象清单(inventory list of objects)这样的基础研究。让我们回到 Jeremy Wolfe 的论文,他继续写道:“物体之间的关系,必须写进 gist。”

假设有两张图片:把一盒牛奶倒进玻璃杯;把一盒牛奶倒出来(倒在空中),旁边放着一只玻璃杯。两者不是一回事。两张图片中的物体都一样,但它们之间的关系不同。

仅凭图片的对象清单,无法完整传递其内容。下面是另一个例子:

两张照片都是人和羊驼,但是发生的事情完全不同。当然,过去在这方面也有不少研究,包括空间关系,行为关系,概率关系等等,就不一一阐述了。这些工作基本都在小型封闭环境中开发测试,探索的也不过十几、二十几种关系。而我们希望把视觉关系的研究推向更大的尺度。

我们的工作基于视觉表达和 leverage model 的结合,通过把图像空间的 embedding 以及关于对象关系的自然语言描述以巧妙的方式结合起来,避免了在对象和对象之间的关系做乘法带来的计算负担。

上图展示的便是可视化结果的质量。给定该照片,我们的算法能找出空间关系、比较关系、不对称空间关系、动词关系、行为关系以及介词关系。

更有意思的是,我们的算法能实现 zero-shot (零样本学习)对象关系识别。举个例子,用一张某人坐在椅子上、消防栓在旁边的图片训练算法。然后再拿出另一张图片,一个人坐在消防栓上。虽然算法没见过这张图片,但能够表达出这是“一个人坐在消防栓上”。

类似的,算法能识别出“一匹马戴着帽子”,虽然训练集里只有“人骑马”以及“人戴着帽子”的图片。当然,这个算法还很不完美。例如当两个类似的对象(如两个人)部分重叠在一起,算法就容易判断失误。如下图,算法错误得认为是左边的人在扔飞碟:

这是一个计算机视觉下面飞速发展的领域。在我们团队的 ECCV 2016 论文之后,今年有一大堆相关论文发表了出来,一些甚至已经接近了我们的模型效果。我非常欣喜能看到该领域繁荣起来。

(以上是李飞飞老师 IROS 2017 大会报告的上半部分,更多关于 Visual Genome Dataset 的介绍,敬请期待AI科技评论的后续报道)

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-09-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

观点 | 计算机视觉到底是个什么鬼?

翻译 | AI科技大本营(rgznai100) 参与 | Joe 房间的那一边,一个人冲你扔了一个球,你接住了。看上去特别简单,对吧? 事实上,尝试去全面理解的...

3224
来自专栏新智元

《AI寒冬将至》作者:人工智能存在十大问题

【新智元导读】不久前,一篇题为《AI寒冬将至》的文章火了,引发AI领域专家学者、研究人员、学生甚至吃瓜群众的大量讨论。该文对有关深度学习的炒作提出批评,认为深度...

530
来自专栏大数据文摘

业界 | 每个数据科学家都该读的五本无关技术的书

2010年,我在华盛顿大学的一节课上写了我的第一行R代码。当我意识到代码比电子表格更强大时,我立马就迷上了。在过去十年中,我目睹了“数据科学”一词的广泛使用,并...

412
来自专栏机器之心

业界 | DeepMind游戏AI又有新突破,与智能体、人类合作都不在话下

多人电子游戏中的策略掌控、战术理解和团队配合是 AI 研究的重要挑战。现在,通过强化学习的新发展,DeepMind 的智能体在雷神之锤 III 竞技场夺旗模式(...

731
来自专栏新智元

【AI大突破】Ian Goodfellow: 2016年是谷歌翻译,17年看医药领域

【新智元导读】Future of Life 网站采访了 Richard Mallah 和 Ian Goodfellow,讨论 AI 在过去一年取得的进步,以及对...

2395
来自专栏新智元

德勤 | 思维与机器:人工智能时代的预测之术

【新智元导读】预测对经济和社会极其重要。金融、医疗、政治以及反恐、自然灾害预防等等领域,预测都有着不可替代的作用。然而,此前的研究表明,即便是最顶级的专家,在预...

46216
来自专栏大数据文摘

警惕大数据中的“陷阱”

1363
来自专栏PPV课数据科学社区

《财富》万字长文回溯深度学习革命,盘点 16 大历史时刻

【导读】《财富》封面文章报道深度学习推动的人工智能如何在整个计算生态系统引发革命。文章从深度学习发展的历史关键点入手,介绍重大的标志性技术突破,讲述了 Hin...

3478
来自专栏华章科技

大数据技能知多少?

云戒说技术:Linux、Python、大数据、Hadoop、Spark、数据分析、数据挖掘、机器学习、深度学习、安全、Mac、Emacs; 云戒说生活:工作、...

673
来自专栏BestSDK

谷歌发布神经机器翻译

早前,谷歌就曾表示过,他们在谷歌翻译中运用了神经网络技术,但只限于实时视觉翻译这个功能。前段时间,谷歌一名叫Jeff Dean的高级员工曾经告诉VentureB...

2817

扫码关注云+社区