前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器识别太“像人”,错误也照“学”

机器识别太“像人”,错误也照“学”

作者头像
新智元
发布2018-03-22 11:25:04
7690
发布2018-03-22 11:25:04
举报
文章被收录于专栏:新智元

【新智元导读】让“机器像人”可谓人工智能终极目标。但最近有研究发现,使用深度神经网络识别图像的结果与人眼识别相似——在出错的地方相似。这实在令人哭笑不得:机器识别图像“像人”但又太过“像人”,把错误也“学”过去了。不过研究表明,人类虽然在视觉上很难处理物体深度旋转变换和比例变换,但拥有调节机制提高识别精度,而目前深度神经网络无法做到这一点。最后,研究者如何改善机器视觉识别做了深入讨论。

  • 题目:Humans and deep networks largely agree on which kinds of variation make object recognition harder(人类和深度神经网络在物体识别方面有相同的缺陷)
  • 作者:Saeed Reza Kheradpisheh, Masoud Ghodrati,Mohammad Ganjtabesh,Timothee Masquelier
  • 来源:arXiv.org

关注新智元(AI_era),回复“0511”下载论文(PDF36页)

摘要

基于视角不变的物体识别是一个具有挑战性的问题,吸引了大量来自心理学,神经科学和计算机视觉领域的研究者们。众所周知,人类在这方面非常擅长,即使一些变换相对来说更加难以处理(比如3D旋转)。人类会通过腹侧流进行层级处理逐步地提取更多的不变特征来解决这个问题。这种前馈结构启发了一种名叫深度卷积神经网络的新一代仿生计算机视觉系统,该系统所应用的算法在自然图像的物体识别问题中表现最出色。

本文首次系统地将人类前馈视觉系统和深度卷积神经网络在基于视角不变的物体识别问题上进行对比,并且使用相同的图片和变换方式(位置变换,比例变换,平面旋转,深度旋转)和幅度,这里我们称为变换层。本文将目标分为四类:汽车、船舶、摩托车和动物。所有的2D图片都是从3D模型中渲染得到。共计89名受试者参与了10组试验,每组试验需要他们在快速展示之后在两类或者四类中做出判断。同时,我们也用两套深度卷积神经网络(一个来自Hinton组,一个来自Zisserman组)测试同样的任务。

我们发现人类和神经网络系统在很大程度上对各种变换遇到相同的困难:其中深度旋转是最难处理的变换,接下来是比例变换,然后是平面旋转,最容易的是位置变换。这表明人类识别物体主要是通过2D模板匹配,而不是建立3D物体模型。同时也表明用深度卷积神经网络来接近人类前馈视觉系统是合理的。另外,我们的结果表明变换层中的深度旋转和变换都会严重影响到人类和神经网络系统的识别表现。因此,我们认为这些变换在相关研究使用的图片集内应该进行控制。

1. 引言

早期对人类行为的研究表明,不论在比例,位置和亮度上存在多大的变换,我们都可以稳定地识别目标。可是如果目标发生深度旋转,准确率就会大大下降。然而,这些研究使用的刺激物稍显简单(分别是回形针和PVC的组合)。在很大程度上仍然不能确定实际目标图片上不同类型的独立变换以及相互组合对人类和神经网络系统识别表现的影响。

本文针对这些问题,设计了一系列行为和计算试验来测试人类和神经网络系统在分类不同维度下变换的目标图片的能力。我们将自然物体图片分类四类:汽车、船舶、摩托车和动物。每个目标从比例、位置、深度旋转和平面旋转四个维度中选择一个维度或多个维度的组合进行变换。所有的2D图片都是从3D模型中渲染得到。我们会用相同的图片来系统地对比人类和两套神经网络系统在单维度变换和组合维度变换上的表现。

研究结果表明,人类受试者可以在变换程度很大的情况下用很短的反应时间保持很高的准确率。然而,准确率和反应时间与目标变换类型有重要关系,其中深度变换是最难的。这些发现并没有与3D目标表示理论保持一致,但却表明物体识别主要是依赖于2D模板匹配。有趣的是,深度神经网络系统的结果与人类的试验结果保持高度一致。这表明人类也很难处理计算机难以处理的变换。更进一步地说,某些维度上的变换,比如深度旋转和比例变换都会改变视觉系统输入的信息内容,使得人类和神经网络系统在识别目标时变得更加困难。

2. 研究材料和方法

2.1 图片生成

2.1.1 不同图片数据库

样本目标图像:每一列代表的是一个变量水平,每一行代表的是数据库(点击图片查看大图)

单维度中数据库中的样本图像,每一行指的是一个类型的数据库(点击图片查看大图)

心理实验:快速和超快速物体识别(点击图片查看大图)

为了测试人类和神经网络系统在不变物体识别任务中的表现,我们生成以下3种不同图片数据库:

全维度:该数据库中,对目标做各种维度上的变换,如之前所描述的(比如比例,位置,深度旋转和平面旋转)。目标图片按照变换幅度分为四个层次。

三维度:该数据库中的图片生成过程与前一个数据库方法类似,但目标图片仅仅发生三种组合维度的变换,保持第四个维度不变。比如,保持目标尺寸不变,其他变换都进行。

单维度:该数据库中的目标图片仅仅在一个维度上进行变换(比如,尺寸),这意味着其他维度上都保持不变。

2.2 人类心理试验

2.2.1 快速的不变物体分类

使用全维度数据库

使用三维度数据库

2.2.2 超快速的不变目标分类

使用三维度数据库

使用单维度数据库

2.3 行为数据分析

2.4 深度卷积神经网络

  • Krizhevsky等(2012):这个模型在 ImageNet 数据库分类比赛中表现非常出色,并且以较大优势击败了 ILSVRC-2012 比赛中的其他对手。
  • Very Deep(2014):深度卷积神经网络的一个重要参数是内部层级的数量,直接影响最终的表现。这里,我们使用了一个19层模型,可以在:http://www.robots.ox.ac.uk/~vgg/research/very_deep/ 下载使用

2.5 深度卷积神经网络的评价

3. 试验结果

固定物体快速识别准确度:图A 全维度与三维的比较 图B 目标物体加上背景后的识别准确度

3.1 人类表现取决于目标变换的类型

3.2 人类表现与试验设置无关

3.2.1 缩短展示时间不影响人类表现

3.2.2 人类在单维度试验中表现一致(见下图)

3.3 深度卷积神经网络在不同试验中与人类有相似的表现(见下图)

人类和神经网络在图像识别上的相似性

讨论

众所周知,人类的视觉系统可以轻松识别各种目标,但背后的机制仍是一个迷。大多数的研究都使用在各个维度下变换并不大的目标图片,想必是为了降低试验和分析的复杂度。一些研究只探讨关于神经和行为反应的变换带来的影响(比如比例和位置)。结果表明,不同的变换会被腹侧视觉通路不同对待,比如位置的变换会先于比例的变换被呈现。但并没有任何研究数据可以表明别的变换也存在这样的现象。然而,视觉系统借助于不同类型的变换带来的不同源信息来完成快速物体识别。所以,单独变换或者不同组合变换的响应可以为人类视觉系统提供有价值的信息来识别不变的目标。由于深度卷积神经网络是仿生系统,所以在面对这些变换时表现与人类一致。

这里,我们设计了几组行为试验,研究人类视觉系统在不同维度变换下识别目标的反应时间和分类准确率。为此,我们生成了一系列包括不同分类目标的图片数据库,这些图片都经过4种变换(位置、比例、深度旋转和平面旋转)的相互组合处理。这些数据库被分为3组:1)目标在四个维度上发生变换;2)目标在3个维度上发生变换(各种组合变换);3)目标仅在一个维度上发生变换。另外,每个数据库有两种背景:均匀灰度和自然背景。于是,我们的数据库在研究不变物体识别任务中有很多的优势。首先,包含了大量经过不同类型变换处理的目标图片。其次,我们对图片的变换处理有着精确地控制,保证生成的图片复杂度不同。因此,我们可以不断增加目标变换的复杂度来细致研究人类行为的变化。再次,通过消除目标和背景之间的依赖关系,我们可以不受场景影响研究不变性。

不同的目标变换组合使得我们可以研究每种变换和组合在任务复杂度和人类表现中的重要性。有趣的是,线性组合了不同的变换,但反应时间和准确率并没有达到相应的预期,这表明有些维度上的变换增加了任务的难度。试验结果的整体感觉是,不同维度的变换组合会有不同的反应,某些变换增加了难度,需要更多的处理时间。同时,反应时间和分类精度表明,自然背景严重影响了不变物体识别的效果

结果表明,涉及3D物体旋转是最难的变换。在3D试验中,当没发生深度旋转变换时,人类受试者有着很高的分类精度,显然高精度与其他3种变换息息相关。相似的情况出现在反应时间上,只发生其他3种变换的反应时间会少于发生深度旋转变换的情况。尽管,我们希望平面旋转变换比比例变换更加难,但结果恰恰相反。可能,比例上的变换会引起视觉系统信息量的变化,从而影响到处理时间和准确率。另外,当目标在图片中居中的位置同时经过其他变换时,准确率会非常低,然而改变目标位置,保持其他变换不变时准确率会更高。这表明,人类受试者更加适应目标位置的变换。

此外,我们研究了这些特征是否与低层次的图像特征,比如对比度和亮度有关。结果表明,反应时间和准确率与这些特征关系非常小,这些特征对所有层次,变换类型和目标来说都是微不足道的。这表明,尽管不同类型的变换影响着对比度和亮度,但这些低层次的特征却对反应时间和准确率影响甚微。

我们也在三维度数据库上研究了超快速目标分类与自然背景的关系,考察我们的结果是否与展示的条件有关。此外,为了考察每个维度的重要性,我们进行了单维度试验,即只让目标发生一个维度上的变换。这些试验验证了前面试验的结论。此外,我们在三维度数据库和单维度数据库上测试了两种强大的神经网络系统,取得了与人类相似的惊人结果。这表明,人类同样很难处理好计算机难以处理的变换

除了目标变换,背景的变换也会影响到分类精度和处理时间。这里,我们观察到使用自然图片作为目标背景严重地降低了分类精度,同时增加了反应时间。重要的是,我们使用的背景与目标非常不相干,去掉目标和背景的依赖,纯粹地研究背景对不变物体识别的影响。而目标与周围环境的依赖对不变物体识别任务的影响将会在今后的研究中进行。

本文工作的另外一个局限性在于,我们并没有评估先验知识对于不变识别的影响程度。想必是人类和通过训练之后的神经网络系统都有丰富的经验来分析经过不同变换处理的四类图片,这可能有助于不变识别。重要的是,研究结果表明复杂的变换(深度旋转)会比简单的变化处理更晚,说明人类在解决复杂变换问题时需要更多的训练。用不同年龄段的受试者来做相似的试验将会更加有趣。

在过去的几十年间,模型中增加了比例和位置变换。而且,对于构建一个3D变换的尝试也几近成功。尤其是,最近提出的深度神经网络表明其拥有适应2D和3D变换的优点。当然,对比这些模型和人类的反应,可以对模型的表现和结构特征带来更好地了解。于是,我们用最好的深度网络进行了同样的试验来研究它们是否与人类不同。之前的结果已经表明,这些网络可以做到与人类前馈视觉系统一样的效果。我们的结论表明,人类在处理深度旋转变换和比例变换上同样具有很有难度。

然而,人类的视觉系统可以广泛利用循环反馈信息在视觉表示上改进和消除歧义。于是,如果可以使用反馈信息和连续的视觉输入,人类视觉系统将会有更高的精度。但是,深度网络系统就缺乏这样的机制来帮助它们提高识别能力。深度网络的未来研究应该多聚焦于反馈信息和连续视觉输入。

最后,我们的结果表明变换层会严重影响到人类和深度卷积神经网络识别表现,尤其是深度变换和比例变换。所以,在计算机视觉研究中使用的图片数据集应该控制这些变换,否则的话,将会造成数据噪声甚至影响研究结果。例如,一个类别比另一个类别容易被识别可能仅仅是因为该类别的变换更少。我们的方法和图片数据库可以作为研究任何处理不同目标变换的基准。这些结果可以与生物学数据(电子生理学、核磁共振、脑磁图、脑电图)在表现和具象相异方面进行对比。它将会帮助研究者在不变物体识别任务中系统地评价他们的模型,提高模型对变换的适应能力,使得其更像人类。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-05-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档