脑电神经网络:概率奖励学习中的神经结构映射

世界上许多事物都有一定的结构,我们可以用它来组织思想。我们使用心理数字线组织其他类型的信息,最明显的就是数字。作为其中一种概念,数量大小可表征在单一维度上(即在一条心理数字线上(一般来说,小数字、坏的、悲伤、不道德、年轻表征在这条线的左侧,大数字、好的、开心、高尚、年老等表征在右侧))。但是我们是否也用他们表征新信息?牛津大学实验心理学系Luyckx和Summerfield等人在eLife杂志上发表文章,他们训练健康被试将6个不同颜色的驴子照片与六种不同的奖励概率联系起来。一头驴子奖励5%,另一头奖励95%等。通过试误,被试学会了根据驴子获得奖励的可能性对它们进行排序。Luyckx等将被试观察驴子时的大脑活动与观察数字1-6时的大脑活动进行比较。驴的EEG活动模式对应于它们在心理数字线上的数字。因此,驴子1以最低的奖励概率,产生了类似于数字1的大脑活动模式,以此类推。这表明,我们不是以非结构化的方式学习,而是利用过去关于刺激之间的关系知识来组织新的信息。这种现象称为结构对齐。Luyckx等的结果表示人类是通过对世界结构的一般理解来学习新事物。这对教育和人工智能有重要意义,如果教授人类和计算机了解项目之间的关系,而不是孤立地学习项目,他们可能会更有效地学习。

材料和方法

被试:49名被试(实验1a= 24,实验1b= 25)。由于多种原因删除3名被试。

实验程序:实验程序采用matlab中的psychophysics3.0和其他代码实现。被试完成两个任务,并同时记录EEG:数值决策任务和概率奖励导向学习任务(Fig.1A)(bandit任务:被试通过不断尝试学会了某些图片奖励概率高、某些奖励低,从而做出获得奖励较多的决策),同时记录EEG数据。在数值任务中,被试观看快速呈现的阿拉伯数字(1-6),并报告是橘色字还是蓝色字的个数更大(实验1a,n= 22)或更小(实验1b,n= 24)。奖励学习任务建立在多目标bandit范式的基础上,该范式被广泛用于研究决策价值导向。被试学习与六个新异图像相关的奖励概率,用固定的概率支付固定的报酬(0.05-0.95)。这些概率在学习阶段通过反复练习获得。在测试阶段,该研究要求被试在两头连续呈现的驴子之间做出选择以获得奖励。

EEG记录:采用61导的NeuroScan。以右侧乳突为记录参考。记录眼电(EOG)。在线滤波为1-200Hz。

EEG预处理使用EEGLAB工具包和脚本对数据进行处理:

1)数据降采为250Hz,进行1-40Hz的带通滤波;

2)手动剔除噪声过大的电极,并利用周围电极的加权平均进行插值;

3)离线重参考为全脑平均参考;

4)数值任务的数据被分为-1--5.5s,bandit任务的数据被分段为-0.5-3s;

5)手动删除非典型噪音(如肌电),并采用ICA去除眼电以及其他伪迹;

6)重新分段和基线校准:数值任务为-65-850ms,bandit任务为-65-750ms。

Fig. 1 任务设计和RSA结果。

A)被试执行两个任务,同时记录EEG。

B)在刺激开始后100ms左右,RSA表现出数值效应和数值距离效应(下面彩色线条)。这些模式在第一和第二种bandit之间没有区别。

C)数值(上)和bandit(下)任务在200-700 ms的平均神经RDMs与量级模型有明显的对应关系。

结果:

数字和概率奖励共享量级表征:

1)使用表征相似性分析(RSA)发现,从100ms左右开始,头皮神经活动模式随着数字大小的不同而越来越不相似(Fig.1B, 绿线),并与任务框架(报告更高vs.更低的平均值)和类别(橙色vs.蓝色数字)无关,这表明神经信号编码了量级大小的抽象表征

2)该研究使用RSA检验bandit诱发的神经模式。结果发现EEG信号随主观bandit等级的变化而变化,而bandit支付的概率越接近,则会产生更多类似的神经模式(100ms起,Fig.1B, 蓝线)。

1)关于数值大小和奖励概率是否存在一个共享的神经编码,研究发现数字“6”诱发的EEG信号与最有价值的bandit诱发的EEG信号更为相似,数字1预测的bandit最无价值,中间数字和bandit的收敛性相似(Fig.2A)。跨时间RSA结果表明,在300-650ms刺激后,所有数字和bandit诱发的神经信号的交叉验证都是稳定可靠的(Fig.2B)。

2)该研究进行了几项控制分析,以进一步探索这种效应的本质。交叉验证效应不是由单个数字/bandit对的模式驱动,因为移除任何数字/bandit对后结果都是稳健的(Fig.2C)。

3)通过计算样例区分度指数(EDI)研究与其他bandit相比,每个数字是否与它对应的bandit更加相似(Fig.3A),这些数字是否显示出与非对应的bandit的差别在逐渐增大(Fig.3B)。这两种效应都是独立可靠的,表明每个数字与其对应的bandit共享表征,二者有着共同的神经编码。

Fig. 2 跨时间交叉验证RSA。

A)数字任务和bandit任务中,350-600ms的平均神经RDM(representational dissimilaritymatrices)。左上和右下分别表示数字(N)和bandit(B)的表征差异,即任务内RDM。左下\右上表示数字和bandit之间的交叉验证差异(N-B),即任务之间的RDM。B)在350-600ms之间,跨/时间交叉验证RSA显示了两个任务共享一个稳定的量级表征。C)为确保交叉验证不只是由单个数字/bandit对驱动,该研究系统地删除了每个数字/bandit对,并在数据子集上重复交叉验证RSA。发现在400到600ms之间,交叉验证对任何数字/bandit对的去除都是稳健的。

Fig. 3交叉验证中数量大小模式的详细检测。

A)使用样例区分度指数(EDI)测试沿着数轴的一对一映射的存在性,这种度量方法表明与不同的项目相比,相同项目的迭代中平均映射的项目要好多少。EDI的计算方法是用对角线上的平均距离减去对角线外的平均距离(上)。并且,数字与同类bandit最为相似。

B)移除交叉验证RDM中较低矩形的对角线(两项任务中对相应刺激的分布反应的差异性),重复了该研究的主要结果分析,表明效应不是主要由匹配的刺激对驱动(如数字6和最有价值的bandit),而是一个循序渐进的距离效应。

将数值大小表征与选择行为相关联:该研究通过创建选择矩阵,对被试所做选择中给定的每个数字或bandit的相对权重差异进行编码,从而了解数值任务和bandit任务中的行为模式如何相互关联。对于数值任务,该研究使用平均法计算选择中的每个数字的决策权重,并绘制了每个数字组合的权重相对差异(Fig.4A)。对于bandit任务,这只是每种bandit组合选择主观最高价值的bandit的概率(Fig.4B)。虽然数字选择矩阵和bandit选择矩阵相关(Wilcoxon符号秩检验),但当减去组平均选择矩阵并将剩余矩阵关联时,这种相关性消失。即该研究无法单独识别数字1-6和bandit1-6的个体权重的共同变化,这可能是因为每个任务所需的决策性质不同。

Fig.4 行为分析。

A)数值任务中决策权重的组平均差异RDM。在被试选择上,该研究计算每个数字的权重,并通过权重的两两差异创建一个选择RDM。

B)bandit任务中组平均选择RDM。

C)这两个选择矩阵都被纳入解释EEG模式的多元回归中,以建立两个任务中行为和神经模式之间的潜在联系。只有数值选择RDM才能解释数值任务的神经模式。

D)两种选择的RDMs都显著地解释了bandit任务中的神经模式,这表明被试在这两种任务中都依赖于对数字的更普遍的理解。

E)将xk的指数模型与数值任务的决策权重(黄色)、数值任务(绿色)和bandit任务(蓝色)在350-600ms之间的平均神经模式拟合后,log(k)的分布。在所有情况下,最好的拟合参数显著大于0,表示对较大的量存在超权/渐增的差异。

F)心理测量(黄色)和神经测量(绿色/蓝色)的拟合中值估计K下的决策权重,与数值任务中的人类决策权重中值相匹配。

该研究探索选择矩阵如何解释神经相似性模式中的变异,即行为是否解释了数字和bandit的神经结构对齐的共同变化。为此,该研究将早期分析中使用的线性表征距离矩阵(即假设相邻数和bandit之间的间距相等)替换为根据行为计算的特定被试选择矩阵,并重复上述分析。对于每种神经模式,该研究使用基于回归的方法,其中选择矩阵将数字和bandit纳入作为竞争的解释变量。该研究发现数字任务的选择模式可以解释数字和bandit的神经模式差异而bandit任务的选择模式只能解释bandit任务的神经模式差异(Fig.4C-D)。这可能是人类在形成bandit的神经表征时使用了内在的大小数量感知

该研究结果发现被试倾向于在数值决策任务中给予较大数字以较大的权重,例如数字“5”和“6”对平均判断有不成比例的影响(Fig.4E-F)。当该研究将行为数据与神经数据进行关联时,发现尽管行为强烈预测了数值任务的神经反应,但不能预测bandit任务(Fig.4D)。

大小表征的维度:该研究观察到一个中部-顶叶正波(CPP:CP1,P1, POz, CPz, CP2和P2)随着数字和奖励概率的大小而变化(Fig. 5A-B):在数字任务中,CPP近似遵循从低到高的递增模式(Fig.5)。这表明该研究任务中的CPP可能代表量级大小的概念。

Fig. 5 大小表征的维度。

A)与数字1-6相关的平均归一化振幅,与显著的中部-顶叶电极的任务框架或类别无关。地形图显示了在确定的时间窗口内数字6的响应幅度。单变量响应的上升方向与任务框架无关。

B)bandit任务中b1与b6的等价分析。地形图显示主观价值最高的b6的反应幅度。

C)使用SVD迭代降维,并通过比较350-600ms内的平均交叉验证值来评估每个新维数下的交叉验证强度(下)。网格中的每个单元格包含数据不同维度下平均CV配对比较的t-和p-值。减少到一个(和一个较小的程度:两个)维度显著减少了效应大小。

D)多维等级法(MDS)显示描述数据的两个主轴:一个近似于数字/bandit顺序的大小轴和一个确定性轴,该轴区分内部(例如3,4)和外部(例如1,6)数字或bandit。

为理解数字和bandit表征的维数(以及它们结构对齐的子空间),该研究使用二维降维方法、奇异值分解(SVD)和多维等级法(MDS)。

1)使用SVD进行降维,重新计算数字/bandit交叉验证分数(Fig.5C)。结果发现概率奖励学习由低维神经量级编码支持,当删除两个特征向量外的其他所有特征向量时,效应可靠;但当EEG数据中只保留一个维度时,效果显著减弱。为进一步证明交叉验证效应不仅仅是由观察到的单变量活动所致,该研究再次使用SVD来删除第一维度并重新计算交叉验证统计量(Fig.5)。与最初观察到的效应一样出现了一个重要的交叉验证集群。

2)使用MDS可视化连续数字/bandit数据的第一个维度。这揭示了与大小有关的轴和与确定性近似对应的轴,特别是对于bandit来说,沿着这个轴,大的(或最好的)和小的(或最差的)物品与其他物品分开(Fig.5D)。即数字和bandit主要沿着大小轴。

Fig. 6 神经网络模拟。

A)网络结构和训练示意图。首先通过将输入Xa分成XA单元训练网络(下方的绿色圆圈)。Xa输入由6个刺激组成,这些刺激要么表现出逐渐增加的差异性,要么作为对照被打乱。收敛后,将新输入的Xb输入到单独的输入流XB中,对模型进行训练(下方的蓝色圆圈)。输入Xb不同于输入Xa,但具有相同的相似结构。

B)训练(左)和再训练(右)过程中,测试(红色)和随机控制(蓝色)条件的损失图。控制刺激训练过程中学习速度较快,Xa和Xb具有相似结构时再训练速度较快。

C)在控制模拟中,隐藏到输出的权重W2在训练和再训练之间被打乱,这表明成功的转移依赖于W2中编码的结构。

D)再训练后的前1000个循环的平均损失。E)再训练后Xa和Xb中所有刺激的隐藏单元激活的交叉验证RSA。只有当W2保持不变,Xa和Xb共享结构时,隐藏单元激活才表现出共享的相似结构。输入显示测试条件的隐藏单元的交叉验证RDM。

神经网络模拟:

1)为证明在机制上共享编码的理论优势,该研究使用前馈神经网络(Fig. 6A)。

2)考虑共享结构是否有助于在学习第一组之后对第二组进行再训练。首先输入Xa到达输入单元XA训练网络,收敛后,输入Xb输入到单位XB进行再培训(XA和XB是单独的输入模块,投射到一个公共的隐藏层H中)。输入Xb是6个随机向量,其结构与bandit具有相同连续变化的相似结构,而输入Xa则是由具有相同二阶结构的6个随机向量组成的不同集合,或者是缺少二阶结构的随机控制。当输入与Xa共享一个公共结构时,在Xb上重新学习的速度更快(Fig.6B-D)。在第二个控制中,该研究对输入Xa收敛后将连接隐藏层和输出层的权值W2打乱,破坏了隐藏层中的活动模式到输出层的映射。再训练后的RSA显示了隐藏单元中可靠的交叉验证活动模式,只有在Xa和Xb共享底层结构和权值W2保持不变时才会出现这种情况,这与人类神经数据的结果一致(Fig.6E)。

一句话总结:人类对奖励概率的学习伴随着对价值表征的结构比对,这种比对与抽象大小概念的神经编码相一致,表明结构对齐可以促进学习的迁移。

原文:

Luyckx, F., Nili, H., Spitzer, B., & Summerfield, C.(2019). Neural structure mapping in human probabilistic reward learning. eLife, 8,e42816.

原文发布于微信公众号 - 思影科技(siyingkeji)

原文发表时间:2019-06-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

扫码关注云+社区

领取腾讯云代金券