专栏首页新智元【深度学习模型哪个最像人脑?】MIT等人工神经网络评分系统,DenseNet实力夺冠!

【深度学习模型哪个最像人脑?】MIT等人工神经网络评分系统,DenseNet实力夺冠!

新智元报道

来源:bioRxiv

作者:Martin Schrimpf等

编辑:三石

【新智元导读】人工神经网络的终极目标应当是能够完全模拟生物神经网络。而随着ANN的不断发展,已然呈现出了许多性能优秀的模型。由MIT、NYU、斯坦福等众多著名大学研究人员组成的团队,便提出了brain-score系统,对当今主流的人工神经网络进行评分排名。本文便带读者了解一下在众多人工神经网络中,最为贴近生物神网络的那些ANN。

人工神经网络(ANN)总是会与大脑做比较。

虽然ANN发展到现在也无法完全模拟生物大脑,但是技术是一直在进步的。那么问题来了:

论与生物大脑的相似性,哪家人工神经网络最强?

在功能方面与大脑最相似的神经网络,将包含与大脑最近似的机制。因此,MIT、NYU、斯坦福等众多知名大学联手开发了“大脑评分”(brain - score)。

这是一种综合了多种神经和行为基准的测试方法,可以根据神经网络与大脑核心对象识别机制的相似程度对其进行打分,并用这个方法对最先进的深层神经网络进行评估。

使用该评分系统,得到的结果如下:

  • DenseNet- 169, CORnet-S和ResNet-101是最像大脑的ANN
  • 任何人工神经网络都无法预测到神经和行为响应之间存在的变异性,这表明目前还没有一个人工神经网络模型能够捕捉到所有相关的机制
  • 扩展之前的工作,我们发现ANN ImageNet性能的提高导致了大脑得分的提高。然而,相关性在ImageNet表现为70%时减弱,这表明需要神经科学的额外指导才能在捕获大脑机制方面取得进一步进展
  • 比许多较小(即不那么复杂)的ANN,比表现最好的ImageNet模型更像大脑,这意味着简化ANN有可能更好地理解腹侧流(ventral stream)。

大脑的基准

以下是对衡量模型基准的概述。基准由一组应用于特定实验数据的指标组成,在这里可以是神经记录或行为测量。

神经(Neural)

神经度量的目的是确定源系统(例如,神经网络模型)的内在表征与目标系统(例如灵长类动物)中的内在表征的匹配程度。 与典型的机器学习基准测试不同,这些指标提供了一种原则性的方式来优先选择某些模型(即使它们的输出相同)。 我们在此概述了一个常见的度量标准——神经预测性,它是线性回归的一种形式。

神经预测:图像级神经一致性

神经预测性用于评估源系统(例如,深度ANN)中给定图像的响应对目标系统中的响应(例如,视觉区域IT中的单个神经元响应)的预测程度。 作为输入,该度量需要两个刺激×神经元这种形式的集合,其中神经元可以是神经记录或模型激活。

首先,使用线性变换将源神经元映射到每个目标神经元,这个映射过程是在多个刺激的训练-测试分割上执行的。

在每次运行中,利用训练图像使权重适应于从源神经元映射到目标神经元,然后利用这些权重预测出的响应得到held-out图像。

为了获得每个神经元的神经预测性评分,通过计算Pearson相关系数,将预测的响应与测量的神经元响应进行比较。

计算所有单个神经类神经预测值的中位数(例如,在目标大脑区域测量的所有目标位置),以获得该训练-测试分割的预测得分(因为响应通常非正常地分布,所以使用中值)。所有训练-测试分割的平均值即目标大脑区域的最终神经预测得分。

神经记录

目前这个版本的大脑评分中包含的两个神经基准,其使用的神经数据集包括对88个V4神经元和168个IT神经元的2,560个自然刺激神经响应(如图1):

图1 大脑评分概述使用两类指标来比较神经网络:神经指标将内部活动与macaque腹侧流区域进行比较,行为指标比较输出的相似性。对于小的、随机组合的模型(灰点),大脑得分与ImageNet的性能相关,但是对于当前最先进的模型(绿点)来说,其性能在70%的前1级变得很弱。

该图像集由2560张灰度图像组成,分为八个对象类别(动物、船只、汽车、椅子、人脸、水果、平面、桌子)。每个类别包含8个独特的对象(例如,“face”类别有8张独特的脸)。图像集是通过在自然主义背景上粘贴一个3D对象模型生成的。在每个图像中,随机选择对象的位置,姿势和大小,以便为灵长类动物和机器创建具有挑战性的物体识别任务。 每个图像都使用了圆形掩模。

行为

行为基准的目的是在任何给定任务中计算源(例如,ANN模型)和目标(例如,人类或猴子)的行为响应之间的相似性。对于核心对象识别任务,灵长类动物(包括人类和猴子)表现出与ground-truth标签不同的行为模式。因此,这里的主要基准是一个行为响应模式度量,而不是一个全面的准确性度量。ANN能够生成和预测灵长类动物的成功和失败模式,因此可以获得更高的分数。这样做的一个结果是,达到100%准确率的ANN不会达到完美的行为相似性评分。

I2n:标准化的图像级行为一致性

总量为i 的图像数据源(模型特征)首先使用可用的行为数据转换为目标类别c和图像ib的一个矩阵ib×c。

灵长类动物的行为数据

当前一轮基准测试中使用的行为数据是从Rajalingham等人与2015和2018年的研究论文中获得的。这里我们只关注人类行为数据,但是人类和非人类灵长类动物行为模式非常相似。

此数据收集中使用的图像集与V4的图像生成方式类似,并且使用了24个对象类别。数据集总共包含2,400个图像(每个对象100个)。在这个基准测试中,我们使用了240张(每个物体10张)获得最多试验的图像。1472名人类观察者对亚马逊土耳其机器人提供的图像进行了简短的响应。在每次试验中,一幅图像呈现100毫秒,然后是有两个响应选择,一个对应于图像中出现的目标对象,另一个是其余23个对象。参与者通过选择图像中呈现的对象来响应。因此,对于每一个target-distractor对儿,从多个参与者中共获得了超过三十万的响应。

大脑得分

为了评估一个模型整体表现的好坏,我们将神经V4预测得分、神经IT预测得分和行为I2n预测得分做一个组合计算来得到大脑评分。这里给出的脑分数是这三个分数的平均值。这种方法不能通过不同的分数尺度进行标准化,因此它可能会惩罚低方差的分数,但它也不会对分数的显著差异做出任何假设,这些差异会出现在排名中。

实验结果

该团队检查了大量在ImageNet上训练的深层神经网络,并将它们的内在表征与V4、IT和人类行为测量中的非人类视觉皮层区域的神经记录进行了比较。

最先进的排名

表1 总结了每个模型在大脑基准测试范围内的得分

相对于ImageNet性能的大脑得分如图1所示。在目前的基准测试中,最强的模型是DenseNet-169,其大脑得分为549,紧随其后的是CORnet-S和ResNet-101,其大脑得分分别为544和542。 目前来自机器学习社区的ImageNet上的顶级模型都来自DenseNet和ResNet系列模型。 DenseNet-169和ResNet-101也是IT神经预测和行为预测性得分最高的模型之一,IT分数为0.604(DenseNet-169,图层conv5_block16_concat)和行为得分为ResNet-101。

个人神经和行为基准的得分

以往的研究发现,分类性能较高的模型更容易预测神经数据。 在这里,我们通过证明这种性能驱动的方法在广泛的ImageNet性能体系中在多个深度神经网络上进行评估时,广泛意义上扩展了这项工作,但是在达到人类性能水平时未能产生与大脑完全匹配的网络( 见图1)。

在个人得分上,ImageNet的表现与大脑得分的相关性有很大的差异(图2)。例如,V4单站点响应最好不仅是由VGG-19(ImageNet top-1性能71.10%)预测出来的,而且还有Xception(79.00%top-1)。 同样,IT单站点响应最好是由DenseNet-169(.606; 75.90%top-1)预测出来的,但即使是BaseNets(.592; 47.64%top-1)和MobileNets(.590; 69.80%top-1)也是非常接近相同的IT神经预测评分。

图2 所有模型对神经和行为基准的预测性

相比之下,ImageNet性能和行为预测性之间的相关性依然强劲,AlexNet(57.50%排名前1)或BaseNets的表现远远低于最佳模型。然而,行为得分上表现最好的模型并不是ImageNet上最先进的模型:ResNet-101在行为得分(.389)上排名最高,但是ImageNet排名前1的表现为77.37%。 PNASNet实现了更高的ImageNet性能(82.90%排名前1),但行为得分显着降低(.351)。

事实上,ImageNet前1名表现与行为评分之间的相关性似乎正在削弱,模型在ImageNet上表现良好,与行为得分几乎没有关联,这表明通过继续努力推动ImageNet,可能无法实现与行为数据更好的一致性。

我们使用神经预测性评估区域V4和IT以及使用I2n的行为记录。 目前最好的型号是:V4上的VGG-19,IT上的DenseNet-169和行为上的ResNet-101。 值得注意的是,DenseNet-169,CORnet-S和ResNet-101是所有三个基准测试的强大模型。 V4为0.892,IT为0.817,行为为.497。

通过定期更新大脑数据的大脑评分来评估和跟踪模型基准的对应关系可以让这个系统更加完善。因此,该团队发布了Brain-Score.org,一个承载神经和行为基准的平台,在这个平台上,可以提交用于视觉处理的ANN,以接收大脑评分及其相对于其他模型的排名,新的实验数据可以自然地纳入其中。

原文链接:

https://www.biorxiv.org/content/early/2018/09/05/407007

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-09-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【谷歌新项目公开】无需学编程,用手机摄像头和浏览器即可机器学习

    【新智元导读】谷歌最新的 Teachable Machine 项目,可以让用户无需编程就能利用摄像头采集数据、设计机器学习。作为 AI Experiment 的...

    新智元
  • 【开源】谷歌“一个模型解决所有DL难题”背后的Tensor2Tensor

    【新智元导读】引起热议的两篇谷歌大脑的论文《一个模型解决所有问题》和《你只需要注意力机制》,其背后是一个名为 Tensor2Tensor 的模块化深度学习系统。...

    新智元
  • 中国团队两冠一亚包揽KDD CUP三项大奖,作者亲述技术细节

    【新智元导读】近日,有数据挖掘领域“奥运会”之称的KDD Cup 2018比赛结果出炉。今年的主题为空气质量预测,中国团队Getmax包揽三项大奖,获得两项第一...

    新智元
  • 编程小白 | 每日一练(150)

    这道理放在编程上也一并受用。在编程方面有着天赋异禀的人毕竟是少数,我们大多数人想要从编程小白进阶到高手,需要经历的是日积月累的学习,那么如何学习呢?当然是每天都...

    闫小林
  • 机器学习模型的容量、欠拟合和过拟合

    我的网站公示显示效果更好,欢迎访问:https://lulaoshi.info/machine-learning/linear-model/underfit-o...

    PP鲁
  • 【DB笔试面试786】在Oracle中,什么是坏块?坏块可以分为哪几类?

    Oracle数据文件的坏块可以分为物理坏块(Physical Block Corruptions)和逻辑坏块(Logical Block Corruptions...

    小麦苗DBA宝典
  • 大小仅17KB!这个微型风格迁移模型太好玩了 | 代码+教程

    事实证明,你可以用1.7M的参数训练出风格迁移模型,然后只留下11868个参数,生成迁移图像。将模型量化后,原本7M的模型压缩到只有17KB,而迁移效果和原本模...

    量子位
  • App Store上架审核过程中常见问题整理

    苹果的开发者账号主要分为个人(Individual)、公司(Company)、企业(Enterprise)、高校(University)四种类型,每年资费分别为...

    jiang chen
  • 汉化eclipse步骤详解

    如果您的eclipse安装结束以后是英文的,不用担心,您的英文比较好的话是不需要往下看的,我觉得点开的人都是英文不是很好的(也不排除爱国的)废话不说,说一下怎么...

    何处锦绣不灰堆
  • 读文献:全基因组选择模型进展及展望

    随着全基因组选择统计模型的不断改进优化,模型的稳定性及准确性不断提高,但是依然面临两个重要的挑战,即计算准确性和计算效率;直接法(GBLUP为代表)计算效率较高...

    邓飞

扫码关注云+社区

领取腾讯云代金券