CNN实现“读脑术”,成功解码人脑视觉活动,准确率超50%

【新智元导读】研究人员开发出以人脑为模型的深度学习算法,来破解人类大脑。相关研究发表在最新一期Cerebral Cortex,研究人员构建了一个大脑如何解码信息的模型,根据参与者的大脑活动,该模型能够以50%的精确度预测她所看到的东西。

人工智能让我们离科幻小说里的“读脑机器”更近了一步。现在,研究人员开发出以人脑为模型的深度学习算法,来破解人类大脑。首先,他们建立了一个大脑如何解码信息的模型。三名女性花费了数小时观看几百条短视频,功能性核磁共振机器测量了视觉皮层和其他地方的活动信号。一个用于图像处理的人工神经网络学会了将视频图像和大脑活动联系起来。随着这几名女性观看更多的视频,经过算法预测的活动和一些大脑活动相吻合。它还帮助科学家了解皮层每个区域的特征。还有一个网络能够解码神经信号:根据参与者的大脑活动,能够以50%的精确度预测她所看到的东西(通过选择包括鸟类、飞机、运动等15个种类中的一个)。据研究者本月在 Cerebral Cortex 发表的报告,如果该网络从不同的女性大脑上训练数据,仍然可以达到25%的准确性。该网络也可以部分重建参与者所看到的内容,将大脑活动转化为像素,但产生的图像只是白色斑点。研究人员希望他们的工作能够重建心理图像,它使用与视觉处理相同的脑电路。从mind’s eye转换成二进制数字可以让人们对计算机或其他人表达生动的想法(无需借助语言或鼠标点击),也可以帮助那些没有其他方式进行沟通的人。

Haiguang Wen, Junxing Shi等人10月20日在 Cerebral Cortex 发表了一篇题为 Neural Encoding and Decoding with Deep Learning for Dynamic Natural Vision 的论文。

摘要:

通过图像识别驱动的卷积神经网络(CNN)已经显示能够解释腹侧流区域对静态图像的皮层反应。在这里,我们进一步表明,这种CNN能够可靠地预测和解码人们观看电影的功能性磁共振成像数据,尽管它缺乏任何机制来解释时间动态或反馈处理。使用单独的数据,编码和解码模型被开发和评估,以描述CNN和大脑之间的双向关系。通过编码模型,CNN预测区域不仅覆盖腹侧流区域,而且覆盖背部流,尽管程度较小;单体素反应被可视化为驱动反应的特定像素模式,揭示单个皮质位置的不同表示;从具有高通量的自然图像合成皮质激活,以绘制类别表示,对比度和选择性。通过解码模型,直接解码fMRI信号,以评估视觉和语义空间中的特征表示,分别用于直接视觉重建和语义分类。这些结果证实,推广和扩展以前的发现,并突出显示使用深度学习作为视觉皮质的一体化模型的价值,以了解和解码自然视觉。

解码大脑活动的新策略

几个世纪以来,哲学家和科学家一直在试图揣测、观察、理解和破译大脑的运作,使人们能够感知和探索视觉环境。在这里,我们询问大脑如何表示来自外界的动态视觉信息,以及大脑活动是否可以被直接解码,以重建和分类一个人所看到的内容。这些关于神经编码和解码的问题(Naselaris et al. 2011) 主要用静态或人为刺激来解决(Kamitani and Tong 2005; Haynes and Rees 2006) 。然而,这种策略过于狭隘,无法揭示自然的计算视力。需要一种替代策略,涵盖了视觉复杂性,以揭示和解码分布式皮质活动的视觉表示。尽管它具有多样性和复杂性,视觉世界由大量的视觉特征组成(Zeiler and Fergus 2014; LeCun et al. 2015; Russ and Leopold 2015)。这些功能涵盖了许多抽象层次,例如低级别的方向和颜色,中间层的形状和纹理,以及高级中的对象和动作。

迄今为止,深度学习提供了最全面的计算模型来编码,并从任意自然图片或视频中提取分层组织的特征(LeCun et al. 2015)。基于这种模型的计算机视觉系统模拟甚至超越了人类在图像识别和分割中的表现(Krizhevsky et al.2012; He et al. 2015; Russakovsky et al. 2015)。深层卷积神经网络(CNN)被构建和训练与前馈视觉皮质网络(DiCarlo et al. 2012; Yamins and DiCarlo 2016)类似的组织和编码原理。最近的研究表明,CNN可以部分解释大脑对(Yamins et al. 2014; Güçlü and van Gerven 2015a; Eickenberg et al. 2016)的回应和(Khaligh-Razavi and Kriegeskorte 2014; Cichy et al. 2016)自然图片刺激。然而,仍然不清楚CNN是否以及在多大程度上解释和解码大脑对自然视频刺激的反应。虽然动态自然视觉涉及前馈,反复和反馈连接(Callaway 2004),但CNN仅对前馈处理进行建模,并对瞬时输入进行操作,无需考虑反复或反馈网络交互(Bastos et al. 2012; Polack and Contreras 2012)。

为了解决这些问题,我们从3名人类实验者中获取11.5 h的fMRI数据,他们观看了972个不同的视频片段,包括不同的场景和动作。该数据集与以前的研究不同,比之前研究样本大,覆盖更广(Khaligh-Razavi and Kriegeskorte 2014; Yamins et al. 2014; Güçlü and van Gerven,2015a; Eickenberg et al. 2016;Güçlü and van Gerven 2015a; Cichy et al. 2016)。这使得我们可以在动态观察条件下能够确认、推广和扩展CNN用于预测和解码腹侧和背侧两侧的皮层活动。具体来说,我们通过不同的数据来训练和测试了编码和解码模型,用于描述大脑和CNN之间的关系,由(Krizhevsky et al. 2012)实现。通过CNN,编码模型被用来预测和可视化给定电影刺激的个体皮层体素的fMRI反应;解码模型用于重建和分类基于fMRI活动的视觉刺激,如图1所示。主要发现如下:

1.用于图像识别的CNN解释了对几乎整个视皮层(包括其腹侧和背部流)的复杂电影刺激的fMRI反应的显着变化,尽管背侧流程度较小;

2.基于CNN的体素编码模型将不同的单体素表示可视化,并显示类别表示和选择性;

3.CNN支持自然电影的直观视觉重建,突出显示模糊细节和缺失颜色的前景物体;

4.CNN还支持直接语义分类,利用CNN中嵌入的语义空间。

图1:通过深度学习模型进行神经编码和解码。当一个人看到电影时(a),信息通过层叠的皮质区域(b)进行处理,产生fMRI活动模式(c)。这里使用深层CNN来建模皮质视觉处理(d)。该模型将每个电影帧转换成多层特征,从视觉空间(第一层)中的方向和颜色到语义空间中的对象类别(第八层)。

材料与方法 (详见论文)

实验结果

CNN与视觉皮层之间的功能定位

为了探索并建模CNN与大脑之间的关系,我们使用374个视频剪辑来构成一个训练电影。从训练电影中,CNN通过数十万个单元提取视觉特征,将其组织为8层,形成可训练的自下而上的网络架构。

CNN中的层次结构和计算与视觉皮层中的前馈处理(Yamins and DiCarlo 2016)相似。这促使我们询问个体皮层位置是否在功能上类似于CNN中的不同单位,因为大脑和CNN都输入了一样的训练电影。为了解决这个问题,我们首先通过评估受试者在第一次和第二次观看训练电影时评估fMRI活动的体内再现性(Hasson et al. 2004; Lu et al. 2016),绘制了皮质激活。所有皮质激素在所有受试者的整个视觉皮质(图2a)上广泛存在。然后,我们检查了每个激活位置的fMRI信号与CNN中每个单元的输出时间序列之间的关系。后者指出了训练电影每一帧中特定特征的时变表现。对每个单位的特征时间序列进行对数变换,并与HRF进行卷积,然后计算其与每个体素的fMRI时间序列的相关性。

图2: 视觉皮层和CNN的功能定位(a)皮层激活(b)“视网膜定位”(c)“分层映射”(d)“大脑中的FFA和CNN中的”面部“单位的共同激活。(e)“其他4类皮层映射”。

神经编码

我们试图建立一个体素编码模型(Kay et al. 2008; Naselaris et al. 2011),通过该模型,从CNN的输出预测了每个体素的fMRI反应。具体来说,对于任何给定的体素,我们优化了一个线性回归模型,以组合CNN中单层的单位输出,最好地预测训练电影中的fMRI反应。

图3: 给定体素编码模型的皮层可预测性。(a)体素化编码模型在预测新型自然电影刺激的皮层反应中的准确性。(b)3个受试者的感兴趣区域(ROI)中的预测准确度。(c)不同CNN层对不同ROI的预测准确度。

图4:解释编码模型的方差

图5:单张图片或类别的皮层表示。

给定自然视觉输入的可视化单体素表示

我们开发了一种可视化每个单体素的方法。该方法是从视觉输入中识别通像素类型。

图6: 神经编码模型预测皮层反应并可视化各个皮层位置的功能表征。

结论

经过图像识别监督学习的深度CNN,形成了一个完全可观察的大脑前视神经计算模型。CNN解释在观看自然视频时人类皮质活动的重要变化。它预测和可视化了几乎所有级别视觉处理皮层表征。它还支持皮质活动的直接解码,来重构和分类动态视觉体验。因此,包括CNN及其未来变化在内的深层神经网络预计将体现出丰富的计算原理,以解释人类和动物的自然视觉。

Science报道:http://www.sciencemag.org/news/2017/10/artificial-intelligence-learning-read-your-mind-and-display-what-it-sees

论文:https://academic.oup.com/cercor/article-abstract/doi/10.1093/cercor/bhx268/4560155?redirectedFrom=fulltext

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-10-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

分享一波关于做 Kaggle 比赛,Jdata,天池的经验,看完我这篇就够了

本文作者Jasperyang,毕业于BUPT。本文原载于知乎专栏,AI 研习社授权转载。 Kaggle 的数据挖掘比赛近年来很火,以至于中国兴起了很多很多类似的...

88880
来自专栏北京马哥教育

只需十四步:从零开始掌握 Python 机器学习(附资源)

分享一篇来自机器之心的文章。关于机器学习的起步,讲的还是很清楚的。原文链接在:只需十四步:从零开始掌握Python机器学习(附资源) Python 可以说是现...

43180
来自专栏AI科技大本营的专栏

唇语识别技术的开源教程,听不见声音我也能知道你说什么!

【导读】唇语识别系统使用机器视觉技术,从图像中连续识别出人脸,判断其中正在说话的人,提取此人连续的口型变化特征,随即将连续变化的特征输入到唇语识别模型中,识别出...

37910
来自专栏CDA数据分析师

机器学习的5种“兵法"

在研究机器学习中,理论在其整个自上而下方法中试用于哪里呢? 在传统的机器学习教学中,丰富的数学理论知识对于理解机器学习是至关重要的,我的机器学习教学方法通常是教...

20070
来自专栏机器学习AI算法工程

百度电影推荐系统比赛——初步推荐算法实践

前一阵子参加了百度的电影推荐系统创新比赛。http://openresearch.baidu.com/activitycontent.jhtml?channel...

1.3K60
来自专栏大数据文摘

Kaggle大神带你上榜单Top2%:点击预测大赛纪实(上)

29030
来自专栏新智元

谷歌大脑 Bengio:全新 Active Memory 模型提升机器翻译水平(附 NIPS 论文下载)

【新智元导读】Samy Bengio,刚刚创业的 Youshua Bengio的弟弟,昨天在 Arxiv 上发布了他与同事、Google Brain 研究人员 ...

385100
来自专栏量子位

在终端设备上实现语音识别:ARM开源了TensorFlow预训练模型

林鳞 编译整理 量子位 出品 | 公众号 QbitAI 关键词识别(Keyword Spotting,KWS)是语音识别领域的一个子领域,在用户在智能设备上进行...

49080
来自专栏大数据

协同过滤的R语言实现及改进

协同过滤算法(CF)是构建推荐系统时最常用的技术之一。它可以基于收集到的其他用户的偏好信息(协同)来自动地预测当前用户的兴趣点。协同过滤算法主要分为两种:基于记...

43760
来自专栏机器之心

学界 | 价值传播网络,在更复杂的动态环境中进行规划的方法

规划是许多领域人工智能体的关键组成部分。然而,经典规划算法的局限性在于,对于每种可能的规划实例,人们都需要知道如何为其搜索最优(或至少合理的)方案。环境动态和状...

8910

扫码关注云+社区

领取腾讯云代金券