UCSB研究发现计算机与人类视觉差异,用人眼搜索策略提升计算机视觉

【新智元导读】 加州大学圣巴巴拉分校的研究人员发现,当人类在寻找一个特定的物体时,经常容易看漏大小与场景的其余部分不相匹配的物体。他们研究这一现象,试图更好地理解人类和计算机在进行视觉搜索时的区别,提出利用人类的视觉搜索策略提高计算机视觉能力。相关研究发表在最新一期 Current Biology 杂志。

在继续阅读之前,请观察下图,找出图中所有的牙刷。

你注意到图中左边那支巨大的牙刷了吗?可能没有。根据加州大学圣巴巴拉分校心理学与脑科学系的科学家们的说法,这是因为当人类在寻找一个特定的物体时,经常容易看漏大小与场景的其余部分不相匹配的物体。

科学家们正在研究这一现象,试图更好地理解人类和计算机在进行视觉搜索时的区别。他们的发现发表在最新一期 Current Biology 杂志上。

藏在眼皮底下

“当某些东西以不同寻常的大小出现时,你会更经常地看漏,因为你的大脑会自动忽略它,”UCSB教授Miguel Eckstein说,他专门研究计算人类视觉(computational human vision)、视觉注意力和搜索。

该实验使用的是计算机生成的图像中的普通物体的场景,这些图像的颜色、角度和大小不一,并混进“目标缺失”的场景。研究人员要求60名被试者在这些图像中搜索特定物品(例如:牙刷、停车计时器、鼠标),并使用眼球追踪软件监控他们的视线。

研究人员发现,当物体大小与寻常大小差别很大(太大或太小)时,人们往往会更容易忽略目标,哪怕他们已经直直地盯着目标对象。

相比之下,根据科学家们的报告,计算机视觉不会出现这个问题。但是,在实验中,研究人员发现,最先进的计算机视觉技术——深度神经网络——也有其自身的局限性。

人类搜索策略可以改进计算机视觉

深度学习算法将红色框里的键盘错误地识别为手机(来源:UC Santa Barbara)

例如,一个CNN深度学习神经网络错误地将计算机键盘识别为手机,它基于形状的相似性,以及物体相对手的位置(手机经常被拿在手中)。但对人类来说,这个物体的大小(相对于人的手)显然与手机是不一致的。

研究人员在论文中指出:“这种策略可以让人在快速做决策时减少失误。”

Eckstein说:“我们的想法是,当你第一次看到一个场景时,你的大脑会在几百毫秒甚至更短的时间里快速处理这个场景的信息,然后你会使用这些信息来引导你寻找物体出现的典型位置。”“同时,你也会把注意力集中在那些与你所寻找的物体大小一致的物体上。”

也就是说,人类的大脑利用物体间的关系来引导他们的眼睛——这是一个快速处理场景信息的有用策略,可以消除干扰,减少误报。

根据研究人员的说法,通过利用大脑用来减少误报的一些技巧,这一发现可能对改善计算机视觉有所启发。

未来的研究

Eckstein说:“有一些理论认为,患有自闭症谱系障碍的人更关注局部的场景信息,而不是整体的结构。”Eckstein正在计划一项后续研究,他说:“因此,有一种可能性是,患有自闭症谱系障碍的人可能更不容易看漏那些被错误放大的物体,但在我们进行这项研究之前,尚没法确定这一点。”

接下来,研究人员将关注当我们看到错误放大的物体时发生的大脑活动。

博士后研究员Lauren Welbourne说:“有许多研究已经确定了大脑中处理场景和物体的区域,现在研究人员正在努力了解这些场景和物体的哪些特定属性被呈现给大脑的这些区域。”目前的研究主要集中在物体是如何在大脑皮层上呈现,以及场景背景如何影响物体的感知。

他说:“所以我们要做的是找出这些大脑区域对在一个场景中正确或错误地缩放的物体是如何做出反应的。这可能有助于我们确定哪些区域对使我们看漏被错误放大的物体有影响。”

论文:Humans, but Not Deep Neural Networks, Often Miss Giant Targets in Scenes

摘要:

即使机器视觉方面取得了巨大的进步,仍然无法比得上动物在复杂场景的视觉搜索方面的能力。动物,从蜜蜂、鸟类到人类,他们学习视觉环境中的统计关系,并利用来指导和帮助他们寻找目标。在这个研究里,我们调查了人类利用来快速获取有关场景的信息的一种新方式,即利用目标物体的一般大小来指导搜索。我们发现,当物体的大小与场景的其余部分格格不入时,他们往往会忽略该目标。即使目标变得更大、更突出,观察者即使盯着目标也无法察觉。相反,我们发现,最先进的深度神经网络在搜索大小不一致的目标时不会表现出这样的缺陷,但与人类不同的是,它们会被目标形状的干扰所迷惑。因此,当目标物体与场景的大小不一致时,看漏了目标并不是人类的缺陷;相反,它是一种有用的策略的副产品,即大脑能够快速减少潜在的干扰物的影响。

原文:http://www.kurzweilai.net/human-vs-deep-neural-network-performance-in-object-recognition

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-09-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

35页自然语言处理深度学习综述,带你纵览NLP知识全貌

【导读】随着深度学习技术的蓬勃发展,自然语言处理领域也是日新月异,本文为大家带来了最新的基于深度学习的自然语言处理综述,希望能够帮助大家了解NLP领域中的最新进...

6312
来自专栏祝威廉

从内容/用户画像到如何做算法研发

中午和一前同事一起用餐,发现还是有很多碰撞点的。交流了很多正在做的事情, 对方也提供了非常多的思想值得自己很好的思考。

1413
来自专栏机器之心

业界 | 自动捕捉高光时刻:谷歌展示Google Clips全新智能摄影技术

1943
来自专栏CreateAMind

智能机器的现实风险

当人们问我是干什么的,我常常对回答的深度感到困惑。说“人工智能”我很满意,但太宽泛,而说“图像处理”可能又太具体。然而,一听到接下的来的毫不相干的问题我总是气不...

931
来自专栏专知

【下载】深度强化学习实战书籍和代码《Deep Reinforcement Learning in Action》

【导读】亚马逊人工智能部门机器学习专家AlexanderZai最新撰写的深度强化学习实战书籍(预计2018年秋季出版)《Deep Reinforcement L...

2482
来自专栏ATYUN订阅号

伯克利智能体观看视频片段学习动作技能,无需手动标注

无论是像洗手这样的日常动作还是惊人的杂技技能,人类都可以通过观察其他人来学习。随着YouTube等来源的公开视频数据的激增,现在比以往任何时候都更容易找到我们感...

1545
来自专栏人工智能头条

专访微软研究院俞栋:基于深度学习的语音识别及CNTK的演进

1945
来自专栏携程技术中心

干货 | 助理来也胡一川:深度学习在智能助理中的应用

作者简介 胡一川,来也联合创始人和CTO。来也专注于智能对话技术,让每个人拥有助理。此前,胡一川联合创立了影视推荐引擎"今晚看啥"并被百度收购,后加入百度任资深...

4027
来自专栏BestSDK

今日头条公布算法:解密“垃圾信息”是如何诞生的

“算法分发并非是把所有决策都交给机器,我们会不断纠偏,设计、监督并管理算法模型。”曹欢欢希望这次分享能让更多的人理解算法,并共同参与到算法模型的制定中来。此外,...

4378
来自专栏机器之心

前沿 | 不再需要动作捕捉,伯克利推出「看视频学杂技」的AI智能体

作者:Xue Bin (Jason) Peng 和 Angjoo Kanazawa

2043

扫码关注云+社区

领取腾讯云代金券