前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >启示AGI之路:神经科学和认知心理学大回顾 全译下

启示AGI之路:神经科学和认知心理学大回顾 全译下

作者头像
CreateAMind
发布2024-07-05 11:18:17
发布2024-07-05 11:18:17
2010
举报
文章被收录于专栏:CreateAMind

A Review of Findings from Neuroscience and Cognitive Psychology as Possible Inspiration for the Path to Artificial General Intelligence

神经科学和认知心理学的发现回顾:作为通往人工通用智能之路的可能启示

https://arxiv.org/abs/2401.10904

以下10.3章开始

(上篇5万字,下篇4.6万字)

10.3. 其他模型

(Pischedda等人,2017年)研究了人脑如何在各种认知任务中表示和组织使用的规则。一些理论认为大脑在前额叶皮层的不同层级编码规则,这项研究旨在澄清不同层级的规则是否真的在不同的大脑区域中表示。该研究依赖功能性磁共振成像(fMRI)来检查低层级和高层级规则在大脑中的编码是否不同。参与者的任务是应用包含低层级刺激-反应规则和高层级选择规则的规则集。

研究结果揭示了在编码不同层级规则的大脑区域之间没有显著差异。与一些理论预期相反,这些规则似乎以类似的方式被表示。包含低层级和高层级规则的层级规则,在空间上没有根据它们在层级中的位置显著区分。这意味着无论规则是基本的低层级规则(处理基本感官刺激和反应)还是高层级规则(涉及更抽象的认知过程,如决策制定和任务选择),这两种类型的规则都由相同的大脑区域网络处理。

虽然网格细胞可以有效表示二维变量,但它们能否表示更高维度变量的问题随之而来。(Klukas, Lewis & Fiete, 2020年)提出的模型展示了它们如何有效编码大于二维的变量,同时保持低维结构。它通过低维随机投影和传统的六边形网格细胞响应的结合来实现这一点。

网格细胞以其在表示空间信息方面的作用而闻名,但最近的研究表明,它们也可以表示超出空间位置的各种认知变量。在飞行的蝙蝠或攀爬的老鼠等动物中观察到的放电场可以由结合多个网格模块活动的神经元生成。在三维环境中的网格细胞响应可能不会显示出规则的三维网格模式,但它们确实似乎允许在所有三个维度上进行定位。这种定位可能受到空间地标的影响,或由编码更高维空间的网格细胞的组合形成。

这表明网格细胞可以实现一种通用电路,能够为高维变量生成编码和记忆状态。作者提出了一种针对高维变量的编码方案,考虑到网格细胞响应的结构和动态约束。他们假设每个网格模块的活动保持在神经状态空间中的二维环形吸引子内。模块化编码,即将神经元划分为不同的组以编码变量的不同方面,为表示高维变量提供了一种有效手段。网格细胞的多模块表示提供了一个高效的高维向量空间,既可以用于表示,也可以用于记忆任意更高维度的向量。网格细胞的更新机制允许存储向量之间的向量代数运算,这对于抽象高维空间中的向量整合至关重要。该网络可以在不需要重新配置网格细胞网络的情况下,表示、存储并对不同维度的抽象向量执行代数运算。

(Constantinescu, O'Reilly & Behrens, 2016)解释说,在与空间和概念任务相关的大脑区域中发现的类似网格的活动,提出了存储空间和概念表征的共同神经编码机制的可能性。它引用了海马体细胞在人类中编码个体概念的证据,并指出啮齿动物的网格细胞可能代表超出空间的维度,例如时间。该研究使用功能性磁共振成像(fMRI)来调查人类在导航抽象概念表征时是否采用六边形对称编码。为实验设计的任务类似于空间导航,但涉及抽象维度。

实验的参与者学习了鸟类刺激与圣诞节相关符号之间的关联。鸟类刺激是独特的,并在两个连续维度(颈部和腿部长度)上有所变化,但在一维(垂直)视觉空间中呈现。这要求参与者从一维视觉呈现中提取二维概念信息。

参与者观看了根据特定颈部到腿部比例变形的鸟类视频,并被指示想象如果鸟类继续以相同的方式变形,将出现哪个符号。为确保鸟类空间中的运动轨迹方向与视觉属性分离,轨迹设计为避免与视觉特征共享方差。在某些试验中,参与者必须从三个符号中选择一个(图10.6)。

参与者在基于鸟类变形预测符号方面达到了高准确率(约73%),然而,没有人报告说他们将鸟类和符号之间的关系想象成空间地图,即参与者并没有意识到这些关联可以组织在一个连续的“鸟类空间”中。

研究发现了神经活动中的六角调制效应;这种效应在整个大脑中被识别出来,并且在特定区域最为强烈。因此,大脑可能使用具有六角网格模式的全局代码来组织非空间的概念表征。

(Mok & Love, 2019)对内侧颞叶(MTL)中的概念知识依赖于空间处理和导航回路的观点提出了挑战,提出了一个通用学习算法作为解释空间和概念领域中发现的现象。尽管MTL支持的记忆类型在表面上存在差异,但本文提出MTL采用通用算法来学习和组织与上下文相关的信息,使其以有用的格式呈现,而不是依赖于特定于导航的神经回路。

将啮齿动物置于不同几何环境中的实证研究支持了模型预测。在这种情况下,网格细胞的激活在非均匀环境中变得不那么网格化,特别是在更狭窄的区域中,这种下降尤为明显。

(第15.7节中介绍的)一个认知聚类模型在一个正方形环境中被训练,然后转移到一个梯形环境中。因此,模型的“网格得分”(六角对称性的度量)在梯形环境中下降,与梯形的宽侧相比,狭窄侧的下降更为显著。聚类模型表明,由于空间导航任务中可能的输入分布相对均匀,网格状表征在空间导航任务中出现。相比之下,在概念任务中,输入采样更稀疏,整体空间更高维,表征更符合人类的概念知识。环境几何形状的变化,包括非均匀性,预计会影响聚类并使网格模式不那么明显。

该研究强调,最初提出用于理解记忆和概念学习的模型,也解释了空间导航现象,包括地点细胞和类似网格细胞的表征。它表明,空间发现自然地作为更一般的概念学习机制的特例出现。因此,在编码抽象空间时,类似网格的响应应该是例外,而不是规则。表征空间可以是高维的,并非所有维度都同样相关,导致在复杂环境中出现非网格状的响应。

在(Stachenfeld, Botvinick & Gershman, 2017)中,对海马体中地点细胞作为编码纯空间认知地图的传统观点提出了挑战。相反,作者提出海马体主要编码一个预测地图,它代表对个体未来状态的预期。这意味着地点细胞的激活不仅仅与当前位置有关,还取决于个体预期接下来要去哪里。

海马体的预测功能在强化学习(RL)框架内被形式化,强调编码期望和预测。后继者表征(SR)方法被提出作为无模型和基于模型学习方法之间的中介。它允许灵活的价值计算以响应奖励的变化,而没有纯粹基于模型的方法所伴随的计算效率低下。该论文建议,SR可以通过扩展优先更新的前向扫描范围来补充基于模型的规划。与传统的认知地图或基于模型的RL不同,这一理论认为,使用无模型学习方法构建预测地图,在动态环境中更具适应性。

作者提出海马体将SR编码为神经元群体的速率码。每个神经元代表一个可能的未来状态(例如,未来空间位置)。编码特定状态的神经元的放电率与在当前策略和当前位置下,该状态在访问次数上的折现期望值成比例。论文引入了“SR地点场”或“SR感受野”的概念,这些是环境中特定编码未来状态的神经元具有高放电率的区域。在二维环境中,这些SR地点场类似于地点细胞的传统圆形放电场。当人们从场地的峰值移开时,放电率逐渐降低。

最初,网格细胞被认为是表示欧几里得空间度量,有助于路径整合(或航位推算),即通过使用先前确定的位置和速度、航向和经过时间的估计来近似当前位置。提出的预测地图理论表明,网格场倾向于不是全局规则的网格,而是受全局边界和多室结构影响的任务结构的预测地图。

在多室环境中,与单一室矩形围栏相比,网格场的规律性变得不那么明显,因为分隔室之间的障碍物扰乱了从不间断的二维网格的任务拓扑。

在(Stoewer等人,2023年)中,认知地图被讨论为记忆和经验及其关系的表示。这些地图是通过地点和网格细胞形成和导航的。论文引入了“多尺度后继者表征”作为地点和网格细胞计算背后的数学原理。这一原理被提出为构建认知地图的基础。

提出了一个神经网络模型,该模型被训练学习从编码为特征向量的32种不同动物物种中派生出的语义空间的认知地图。通过训练,网络有效地识别了这些物种之间的相似性,并构建了一个“动物空间”的认知地图。

该神经网络模型实现了用于非空间导航任务的后继者表征(SR),并结合了记忆痕迹理论和认知地图理论。SR被视为模拟地点细胞放电模式的一种方式。它涉及计算环境中状态的未来奖励矩阵,并使用它们构建表征。基于SR发展的认知地图可以用于通过任意认知地图进行导航,以及在新输入和过去记忆中寻找相似性。

模型展示了创建具有不同尺度的层次化认知地图的潜力。细粒度地图显示了特征空间中动物向量的均匀分布,而粗粒度地图则按生物类别对动物进行聚类,例如两栖动物、哺乳动物和昆虫。该模型还展示了它可以通过从认知地图中插值表征来准确表示完全新的或不完整的输入。

这种模型的实现为理解大脑如何处理和导航抽象概念空间提供了新的视角,并可能有助于开发更智能的人工智能系统,这些系统能够学习和适应不断变化的环境。通过将抽象概念空间映射到类似于空间导航的神经表征中,这些模型可以帮助揭示大脑如何在复杂环境中识别模式和关系。

(Whittington等人,2020年)将空间记忆和关系记忆问题视为结构抽象和泛化的例子。这意味着,就像不同的空间环境共享共同的规律性,允许进行推断和捷径一样,类似的结构规律性也使得非空间关系问题中能够进行推断。分解表征涉及将知识的不同方面分开,并灵活地重新组合它们以代表新的经验,这对学习和进行推断是有益的。作者引入了托尔曼-艾肯鲍姆机器(Tolman-Eichenbaum machine, TEM)作为一个模型,利用分解和结合来构建一个能够在空间和非空间领域泛化结构知识的关系记忆系统。TEM预测,尽管海马重映射可能看起来是随机的,但实际上反映了跨环境保持的结构表征。作者在地点细胞和网格细胞中验证了这一预测,提出了一个统一的框架,用于海马-内嗅皮层在各种任务中的表征、推断和泛化。

论文描述了一个无监督学习问题,涉及一个代理任务,该代理任务需要预测从图的概率转换中派生的序列中的下一个感官体验。代理被呈现感官观察序列以及有关引起图上相邻节点之间转换的关系或动作的信息。存在不同类型的关系,如家族层级或空间导航。当代理经历了图上所有可能的转换时,它可以将整个图存储在记忆中并进行完美预测。然而,如果事先知道图的结构属性,即使在经历所有转换之前,也可以进行完美预测。这是因为理解结构允许代理根据已知模式推断额外的关系和转换。

例如,在家族层级中,了解结构允许代理进行诸如“Bob有一个女儿,Emily”的推断,这立即导致其他推断,如“Emily是Alice的孙女和Cat的侄女”,而无需直接经历这些转换。同样,在空间导航中,理解二维图的结构使代理能够在坐标上放置一个新节点,并推断其与图上其他点的连接关系信息。

感官预测问题被分解为两个主要组成部分:关系图结构和感官观察。理解关系结构有助于路径整合,而关系记忆将感官观察绑定到结构中的位置。为了促进泛化,模型将与抽象位置相关的变量(跨地图概括)与那些植根于感官体验的变量(特定于特定地图)分开。这些变量在神经网络中被表示为单元群体。

主要目标是学习神经网络(NN)权重,这些权重能够表示关系结构中的位置并形成关系记忆。这些记忆通过Hebbian学习存储,并稍后被检索。由此产生的神经网络架构与海马形成的功能解剖学非常相似,因为海马表征是通过结合感官输入和抽象位置形成的。为了推断抽象位置的新表征,TEM根据当前动作/关系从先前的抽象位置执行路径整合。路径整合中的错误累积使用存储在海马记忆中的联合表征进行校正。在具有自重复结构的情况下,认知地图可以分层组织。该模型包括多个并行流,每个流接收感官输入并拥有自己的抽象位置表征。

该研究强调了TEM学习方案与醒睡算法和Helmholtz机器(Dayan等人,1995年)之间的相似性。它表明,从清醒经历中提取规律性的海马重放可能涉及从环境的生成模型中抽样,就像TEM所做的那样。

(O'Reilly等人,2014年)回顾了与补充学习系统(CLS)框架(McClelland, McNaughton & O'Reilly, 1995年)相关的观点,该框架解释了为什么大脑需要两个专门的学习和记忆系统,并指定了它们的中心属性:海马作为快速学习情景记忆的稀疏、模式分离系统,以及新皮层作为逐渐整合跨情景以提取潜在语义结构的分布式、重叠系统。

作者认为,灾难性干扰是使用高度重叠分布式表征的系统的后果,但这些系统也可以提供如泛化和推断等理想属性。如前所述,灾难性干扰是一种现象,即随着网络学习新模式,它调整其参数以适应新数据,通常覆盖了它早期学习到的现有模式。因此,网络同时在两项任务上表现不佳。在终身学习场景中,模型必须不断适应新信息而不忘已经学到的内容,灾难性干扰构成了重大挑战。

CLS提出,具有稀疏、不重叠表征的结构上不同的系统可以补充高度重叠的系统。海马整合来自不同皮层区域的信息,形成事件的联合表征。海马系统采用模式分离,具有非常稀疏的活动水平,以编码新信息,同时防止与现有记忆的干扰。CLS断言,海马以不同于新皮层的方式编码信息,以最小化干扰,通过稀疏激活水平维持高度分离的表征。为了实现分离,海马采用非常稀疏的激活,如0.05%,与皮层大约15%的激活形成对比。

人们认为海马体在睡眠期间重放记忆,允许大脑皮层有时间整合新记忆而不会覆盖旧记忆。(Winocur, Moscovitch & Bontempi, 2010)提出了与(McClelland, McNaughton & O’Reilly, 1995)类似的巩固观点,强调在大脑皮层中巩固的记忆与海马体最初编码的记忆不同。皮层提取了一种泛化的“要点”表征。记忆不是从海马体转移到皮层,而是皮层基于海马体编码形成了自己的分布式表征,捕捉了最初不存在的相似性结构。海马体需要在编码(受益于模式分离)和回忆(受益于模式完成)之间找到平衡。“theta相模型”表明,海马体每秒在编码和检索模式之间切换多次,而不是不频繁和策略性地切换。海马体可能使用这些theta相动态进行错误驱动学习。它不断尝试回忆与当前情况相关的信息,并基于回忆与实际输入之间的差异进行学习。

(Tomasello等人,2018年)描述了一个神经计算模型,该模型模拟了语义学习和行动与感知中符号的接地。该模型尝试复制大脑如何通过在不同脑区的神经元群体的共同激活来学习并与感觉感知和运动行动关联语义信息。该模型采用Hebbian学习,导致在各个皮层区域中形成了分布式细胞组装电路。通过这种学习过程形成的语义电路表现出类别特异性分布。例如,与动作词相关的电路延伸到运动区域,而与视觉描述词相关的电路则延伸到视觉区域。该模型确定了大脑内某些中心区域,这些区域拥有大量的神经元,在整合音韵和语义信息中发挥重要作用。该模型旨在解释语义中心和类别特异性脑区的存在是神经解剖学连接结构和语言学习期间相关的神经元激活这两个主要因素的结果。

(Mack, Love & Preston, 2018)讨论了海马功能与概念学习之间的关系。它强调了海马体,传统上与记忆相关,也在形成和组织概念知识中发挥重要作用。它介绍了EpCon(从情节到概念)理论模型,该模型将情节记忆和概念学习联系起来。它表明,海马体将最初编码的情节记忆转化为有组织的概念知识。虽然海马体最初被认为主要参与个体情节编码和检索,但最近的研究显示了更广泛的作用。海马体参与构建跨越多种经验的灵活表征,对目标敏感,并指导决策制定。EpCon模型受到概念学习SUSTAIN模型(Love, Medin & Gureckis, 2004)的影响,如第15.7节所述,该模型认为概念表征是通过选择性注意和记忆过程的交互形成的。它包括几种映射到海马功能的机制,包括模式分离和完成、记忆整合和基于记忆的预测误差。它们由注意力偏置引导。EpCon的适应性允许形成突出概念特有共同特征并区分概念的表征。这个过程将情节记忆转化为有组织的概念知识。论文还提到了另一项研究(Davis, Love & Preston, 2012),为海马体参与概念形成提供了直接证据,表明海马体调整其表征以捕捉新概念的本质,整合重叠的经验用于基于规则的表征,并使用模式分离为例外情况创建不同的表征。

11.大脑中的表征

11.1.数字

(Dehaene, 1993)引入了一种数学理论,将神经生物学观察与数值认知中的心理原则联系起来。被命名对象的数量,即数量(numerosity),由数量探测器的放电模式表示。每个神经元对应一个首选数字,并遵循基于数字对数的高斯调谐曲线。决策依赖于贝叶斯对数似然计算和由此编码产生的累积。这些方程准确模拟了涉及数字比较和相同/不同判断任务的反应时间和错误,与行为和神经数据非常吻合。

其中N是正态分布。

该方程断言,给定的数值输入在不同的时间由倾向于聚集在数字线上的log(n)位置的噪声值表示。

每个数量大约由一组特定的数量检测器神经元表示,每个神经元都适应特定的数量(图11.1)。考虑到人们处理广泛数字的能力,神经阈值的对数排列是合理的。这种排列意味着分配给较大数量的神经元较少,并且它与观察结果一致,即辨别较小数字之间的差异比区分较大数量更容易。随着数字的增加,辨别的精度降低。

直接的神经记录确定了与数字相关的两种类型的神经编码:数字选择性编码和总和编码。前者已在上面介绍。后者与数字表示的累加器模型有关,其中数量通过累积串行生成的脉冲数量来表示,即尖峰的数量随着数量增加(Meck & Church,1983)。

心理学研究涉及将数字值映射到空间表示,如数字线,显示小孩子通常提供对数估计,而较大的孩子和成年人倾向于产生线性估计。这可能是由于神经元调谐函数的变窄,这对于准确编码数字至关重要。此外,韦伯分数,表示可以区分的最小比例差异,随着年龄的增长而变化,表明底层调谐函数的修改(Siegler & Booth,2004)。

(Kutter等人,2022)证明了内侧颞叶神经元群体中存在抽象和符号无关的加法和减法代码,这表明大脑有能力执行算术运算,无论使用的具体符号或符号如何。这项研究涉及记录单神经元活动,而人类参与者执行加法和减法任务。该研究使用了各种符号和视觉显示来控制非数值因素,并发现参与者以高准确性执行这些任务(图11.2)。作者在MTL中识别出选择性响应加法或减法指令的规则选择性神经元。这些神经元被认为编码算术规则,并在响应应用于不同大小的特定定量规则时表现出一定程度的专业化。

作者在不同的MTL区域识别出不同的编码模式,即它们在算术处理中可能有不同的认知功能。静态和动态代码表明在算术任务中进行的不同认知过程。在海马体中观察到的静态代码涉及持续规则选择性神经元,所以这个区域可能负责实际计算算术运算,如加减数字。这与工作记忆的概念有关,其中信息被操纵和计算。另一方面,在海马旁皮质中看到的动态代码涉及与短期记忆相关的快速变化的规则信息,可能暂时保存算术规则以供计算。

在(Cope等人,2018)中,作者探讨了像蜜蜂这样的简单动物是否具有学习抽象概念(如同类和不同)的认知能力的问题。这些能力通常与高阶认知功能相关,并被认为依赖于哺乳动物新皮质的复杂神经过程。然而,这篇论文提出了一个新的神经网络模型,证明蜜蜂确实可以使用它们大脑中相对简单的神经结构来学习这些抽象概念。

该模型基于已知的蜜蜂蘑菇体的神经连接和特性,蘑菇体是一种参与感官处理和学习的大脑结构。它成功地复制了蜜蜂在各种联想学习任务中的表现,包括那些涉及同类和不同的任务。这一发现挑战了抽象概念学习需要高级神经机制的假设,并表明蜜蜂的大脑,尽管与哺乳动物相比体积小且简单,但可以执行这样的操作。

11.2. 决策

渗漏竞争积累器(LCA)模型(Usher & McClelland,2001)是一个详细的计算模型,旨在解释选择随时间的进展。这个模型是经典积累器模型的扩展。它基于决策是一个渐进过程的想法。它假设信息随时间积累,并且选择是基于不同反应选择的证据的相对积累做出的。

LCA包括随机性;在每个时间步长,证据积累过程受到随机波动的影响。这种随机元素允许决策结果和反应时间的可变性。该模型的一个重要特点是引入了泄漏,也称为衰减。这意味着随着时间的推移,每个反应选择的累积证据逐渐减少。泄漏在决策过程中引入了一定程度的不完美,因为它反映了证据可能不会被完美保留的想法。

它还包含了反应选择之间的竞争原则。随着证据的积累,反应选择相互竞争,选择是基于哪个选择在一段时间内积累了最多的证据。这种竞争是通过横向抑制的过程实现的,这意味着一个反应选择的激活抑制了其他选择的激活。 该模型可以表示为一个两层网络。它由输入单元(表示网络的外部输入)和积累器单元(每个对应一个反应选择)组成。这些积累器单元类似于神经元群体,具有激活和输出变量。使用了一个简单的非线性函数(阈值线性函数),它将积累器单元的激活映射到它们的输出。这个函数用于确定何时触发反应以及选择哪个反应选择。

表示选择的单元的激活的演变由以下方程给出:

LCA模型还解释了从感官输入到明确反应的信息处理的延迟。这些延迟被视为固定参数,它们解释了实验中观察到的反应时间曲线的初始平坦部分。 该模型不限于特定类型的感知任务。它已被应用于广泛的选择任务,并已显示出其在解释与决策相关的各种实证现象方面的实用性。 (Fang,Cohen & Kincaid,2010)探讨了一类特定的动态神经网络,其特点是横向抑制和WTA行为。该研究揭示了在一大类竞争NN中存在WTA行为,并为实现WTA平衡建立了充分条件。此外,还进行了严格的收敛分析。确定的WTA行为条件为设计此类网络提供了实用指南。一旦网络进入WTA区域,它就会迅速收敛到WTA点。这一特性简化了决策过程,因为一旦网络进入WTA区域,就可以宣布胜者。此外,该论文介绍了自复位NN的概念,使网络在不使用时能够返回到其初始状态,并为新输入做好准备。

11.3. 行动

(Tan等人,2013)讨论了对猕猴颞叶部分的研究,这部分大脑区域涉及处理与行动和行动者相关的视觉信息。作者的目标是了解单个神经元如何表示行动和行动者。他们使用了一种简单的编码,称为片段匹配模型,该模型假设每个神经元将大约120毫秒的单一步骤内的传入视觉输入与其偏好的刺激(特定行动的短片段)进行比较。

与寻找专门用于编码演员不变或行动不变信息的不同神经元簇的预期相反,该研究没有识别出这样的簇;结果表明,神经表示方案更加连续和分布。视觉系统似乎采用了一种更普遍和概括的方法来表示行动和行动者,而不是具有特定功能的离散神经元组。该模型使用线性权重来确定传入输入和偏好刺激之间的相似性,即作者测试了响应的线性加权和再现神经元中神经响应模式的能力,这个简单模型提供了令人惊讶的好结果。

(Vaidya & Badre,2022)讨论了两个不同大脑网络中的抽象任务表示:额顶叶(FP)网络和一个涉及内侧颞叶(MTL)、内侧前额叶皮质和眶额皮质(OMPFC)的网络。MTL-OMPFC网络与编码对象之间的关系、上下文依赖性和抽象任务信息有关。FP网络与快速重新格式化任务信息以进行认知控制和行动选择有关。

MTL-OMPFC网络以认知地图格式维护任务知识,使得能够评估个体在抽象任务空间中的位置。相比之下,FP皮质将抽象任务知识格式化为生产规则,促进行动选择。

提到了知识-行动分离现象,其中前额叶损伤可能会损害基于抽象规则的行动实施,尽管对规则的理解完好无损。相比之下,MTL损伤不会显著影响认知控制任务的表现。关于技能学习任务的行为研究表明,抽象任务知识可以从通过陈述性记忆的比较搜索演变为更有效的抽象生产,从而加速任务实施。

FP网络在新任务开始时、任务指令期间以及在现有任务中添加新规则时被激活,这表明任务信息的快速重新格式化。MTL-OMPFC网络与根据任务空间表示进行推断和计划行动有关。计算模型提出,内嗅皮质和海马体参与构建有助于学习和推断的可推广知识。

这两个网络根据认知和行为需求发挥不同的作用。一方面,MTL-OMPFC网络专注于从经验中发现任务结构,推断潜在任务状态和抽象关系。另一方面,FP网络将抽象任务表示维护为认知控制和引导行动选择的状态-行动偶然性。

12. 向量符号架构(超维计算)

符号表示使用符号表示对象或概念。它们具有组合结构,允许创建几乎无限数量的表达式,其中复杂的表示由更简单的表示组成。然而,它们的生物学实现是不确定的。连接主义表示包括神经网络和类脑表示,包括两种主要类型。局部表示为每个对象使用一个元素,相当于“祖母细胞”的概念(Quiroga等人,2005),在大脑中确实发现了一些证据。然而,大多数大脑表示不依赖于这种形式,而是作为分布式表示,将信息建模为分布在许多神经元上。在其数学等价物中,它们使用向量表示,其中每个对象由向量分量的一个子集表示。它们提供高表示能力,直接访问对象表示,可以在噪声和不确定性存在的情况下有效工作,并且更具有神经生物学上的合理性。

特别是对于经典连接主义表示来说,一个挑战是叠加灾难。例如,让我们考虑四个神经元,它们的激活方式如下:第一个在正方形存在时激活,第二个在圆形存在时激活,第三个在红色物体存在时激活,第四个在蓝色物体存在时激活。这些神经元将无法区分同时呈现的红色正方形和蓝色圆形与同时呈现的蓝色正方形和红色圆形,因为在两种情况下所有四个单元都会被激活。这个问题也阻止了层次化组合结构的表示。

向量符号架构(VSA)领域,也称为超维计算(HDC),旨在结合分布式和符号表示的优点,同时避免它们的缺点。VSAs是可以直接实现特定于符号处理的功能的连接主义模型(Kleyko等人,2023a)。

VSA/HDC的关键特征包括(Thomas,Dasgupta & Rosing,2021):从输入数据到高维神经表示的单一静态映射,所有计算都在高维空间中使用简单的操作(如元素加法和产品)执行,映射可能是随机的,因此表示的单个元素具有低精度,通常取二进制值。

12.1. 基本操作

VSAs通常实现两个主要操作,其数学细节区分了已经提出的各种表示。

叠加(或捆绑)将多个超向量(HV)组合成一个HV。它模拟了神经模式的同时激活,通常作为二进制HV的析取或实值HV的加法。然而,仅靠叠加操作可能导致叠加灾难,其中关于初始对象组合的信息丢失。

绑定是另一种基本操作,以可恢复的方式组合两个HV。 在接下来的部分中,我们将介绍几种由这些操作的具体实现定义的VSA。

12.2. 表示方法

12.2.1. 张量积表示

张量积表示(TPR)是最早的VSA模型之一(Smolensky,1990)。它使用从欧几里得单位球(一般来说,HV可以是实值的)中随机选择的原子HV。叠加通过张量加法实现。绑定操作是一个张量积,随着更多HV的绑定,维度呈指数增长。

让我们考虑一个使用TPR的例子。我们将使用四个概念:圆形(C)、正方形(S)、红色(R)和蓝色(B),每个概念由一个4D向量表示:

这些基向量必须是正交的。在我们的例子中,只有一个1位用于区分概念,但在高维中,通常使用更多的1位;表示不假设独热编码。另一种表示可以使用1和-1的元素值,并依赖于哈达玛德矩阵,其中行是相互正交的,例如:

TPR可用于表达角色填充表示。角色是定义表示方面的类别或槽位。我们可以扩展我们的例子,使其具有诸如颜色和形状的角色。填充物是占据这些角色的具体信息:红色可以是颜色角色的填充物,圆形可以是形状角色的填充物。在这种情况下,我们将红色表示为颜色红色。

12.2.2. 全息简化表示

全息简化表示(HRR)(Plate,1991)受到TPR的启发。HV的元素是实值的,从均值为0,方差为1/D的正态分布生成,其中D是维度数。对于大的D,欧几里得范数接近1。

绑定通过圆周卷积实现,这保留了单位范数,但产生的HV与输入HV不相似。HRR中的解绑定涉及圆周相关,可能需要一个清理过程。 HRR用于语义指针架构(SPA)(Eliasmith,2015),将在第16.4节中介绍。 两个HV x和y的圆周卷积定义如下:

与TPR不同,HRR中的绑定创建了一个与其输入向量长度相同的向量,这增加了表示的一致性。

一种计算两个向量的圆周卷积的计算高效算法利用了离散傅里叶变换(DFT)和逆离散傅里叶变换(IDFT)。一般来说,傅里叶变换与卷积密切相关,因为卷积操作的傅里叶变换等同于频域中的乘法。

因此,圆周卷积可以用DFT和IDFT表示如下:

其中“·”表示元素间乘法。 在SPA中,这些操作通过矩阵乘法有效地实现,这些矩阵可以为某个D预先计算。

解绑定一个HV可以通过类似于矩阵求逆的操作来完成,这可以进一步简化为使用置换,如下所示:

然而,这个操作是近似的,因此得到的x向量需要与基向量进行比较,以识别最接近的匹配,这对应于实际结果。

让我们考虑一个具有形状和颜色的相同示例,但这次是在HRR中:

使用公共库(Tulkens,2019)中实现的通过加法进行叠加和通过圆周卷积进行绑定的操作,我们计算“一个红色的圆和一个蓝色的正方形”的表示:

12.2.3. 其他表示

傅里叶全息简化表示(FHRR)(Plate,1994),也称为频域全息简化表示,与HRR类似,但对HV的元素使用单位幅度的复数。FHRR中的叠加是通过可选幅度归一化的逐分量复数加法。绑定操作是逐分量复数乘法(哈达玛德积),解绑定是通过与HV共轭(逐分量角度减法模2π)的绑定实现的。

乘、加、置换(MAP)(Gayler,1998)在HV中使用实数或整数元素。叠加通过逐元素加法执行,而绑定和解绑定通过逐元素乘法执行。

二进制散射码(BSC)(Kanerva,1996)使用二进制元素,叠加通过具有限制阈值1的逐元素加法执行,而绑定和解绑定通过逻辑异或操作执行。

已经提出了几种其他的表示,并且所提出的表示也有多种变体。

12.3. 类比推理

Pentti Kanerva(2009)提出了一个使用VSA中角色和填充物概念进行类比推理的例子,以回答诸如“墨西哥的美元是什么?”这样的问题,即其货币。

这个问题可以通过以下方式解决。国家(C)和货币单位(M)的角色被编码为HV(例如,具有10,000个元素)。可能的填充值,美国(U)、墨西哥(E)、美元(D)、比索(P)以类似的方式编码。

关于美国的“整体记录”是:

我们可以通过解绑定找到美元扮演的角色:D A ≈ M。结果是近似的,因为只有A的M D部分产生有意义的结果,接近码本中的一个向量,而C U部分产生噪声。对B(D B)的类似操作也会产生噪声。然后,我们可以通过解绑定M E ≈ P找到墨西哥的货币。因此,找到“墨西哥的美元”的一般公式是:

12.4. 表示组合结构

组合结构由对象构成,这些对象可以是原子的或组合的。原子对象是组合结构的基本元素。更复杂的组合对象是由原子元素和更简单的组合对象构成的。这种构造类似于部分-整体层次结构,其中较低级别的部分组合起来创建更高级别的实体。在VSA中,组合结构通过使用其组成元素的HV转换为HV。在这个转换过程中应用叠加和绑定操作。目标是使用相似的HV表示相似的组合结构,并在需要时恢复原始表示。

12.4.1. 表示符号

为了将符号转换为HV,通常使用独立同分布(i.i.d.)的随机HV。生成的HV相当于符号表示,因为它们的行为类似于符号:它们与它们的副本具有最大的相似性,与其他i.i.d.随机HV具有最小的相似性。

12.3.2. 表示数值

在各种任务中经常遇到数值标量和向量,在VSA中,重要的是在保持接近值之间的相似性和远离值之间的不相似性的同时表示它们。有三种主要的将数值向量转换为HV的方法(Kleyko等人,2023a),如下所述。

在组合方法中,标量的接近值由相似的HV表示,随着标量值的不同,相似性降低。通常,标量首先被归一化到指定的范围(例如,[0,1]),然后被量化成有限的等级或水平。生成相关的HV来表示有限数量的标量等级,通常多达几十个。各种方案用于生成这些HV,包括通过串联和减法-加法进行编码。分数幂编码等方案允许直接对复值HV进行指数运算以表示标量,无需归一化或量化。不同标量分量的HV使用叠加或乘法绑定组合,以形成表示数值向量的组合HV。

感受野方法,称为粗编码,通过由向量激活的感受野表示数值向量。各种方案,如小脑模型关节控制器、Prager码和随机子空间码,使用随机放置和大小的高维矩形作为感受野。这些方法可以产生二进制HV或实值HV,例如使用径向基函数(RBF)。它们在数值输入向量和这些感受野之间形成一个相似性函数。

随机投影方法(RP)通过将数值向量乘以RP矩阵来形成一个HV。当产生较小维度的向量时,它允许降维。RP矩阵可以由正态分布的分量或双极和三进制矩阵组成。根据应用程序,结果可以是二值化的,以产生稀疏HV。RP矩阵也可以用于扩展原始向量的维度。可以使用多个RP矩阵来贡献结果HV。

12.3.3. 表示序列

序列可以通过使用整个先前序列作为上下文来表示,这允许存储重复的元素(Plate,1995;Eisape等人,2020),例如:

这个想法可以用于使用角色和填充物的语言表示,例如,“男孩看见一只狗跑”:

另一种选择是使用一组固定的HV来表示序列中的每个位置:

12.3.4.表示图形

对于图,一种简单的方法是为每个节点分配随机HV,并将边表示为连接节点的HV的绑定。整个图然后表示为所有边的HV的叠加(Kleyko等人,2023a)。

12.4. VSA综述

(Kleyko等人,2023a)提供了对VSA模型的深入回顾,并关注计算模型和输入数据类型到高维分布式表示的转换。

(Kleyko等人,2023b)将分析扩展到应用、认知计算、架构和未来方向,提供了VSAs范围的整体视图。它主要深入研究机器学习/人工智能领域的应用,同时也涵盖了不同的应用领域,以强调VSAs的潜力。

(Schlegel,Neubert & Protzel,2022)概述了各种实现的运算符,并根据束容量、解绑定近似质量和结合绑定和捆绑操作对查询回答性能的影响比较了VSAs。它在视觉和语言识别任务中评估了VSAs,揭示了基于架构选择的性能变化。

13. 神经绑定问题

13.1. 神经绑定问题的变体

在图的情况下,一种简单的方法是为每个节点分配随机HV,并将边表示为连接节点的HV的绑定。整个图然后表示为所有边的HV的叠加(Kleyko等人,2023a)。 12.4. VSA综述 (Kleyko等人,2023a)提供了对VSA模型的深入回顾,并关注计算模型和输入数据类型到高维分布式表示的转换。 (Kleyko等人,2023b)将分析扩展到应用、认知计算、架构和未来方向,提供了VSAs范围的整体视图。它主要深入研究机器学习/人工智能领域的应用,同时也涵盖了不同的应用领域,以强调VSAs的潜力。 (Schlegel,Neubert & Protzel,2022)概述了各种实现的运算符,并根据束容量、解绑定近似质量和结合绑定和捆绑操作对查询回答性能的影响比较了VSAs。它在视觉和语言识别任务中评估了VSAs,揭示了基于架构选择的性能变化。

13. 神经绑定问题

13.1. 神经绑定问题的变体

(Feldman,2013)认为神经绑定问题(NBP)包括几个不同的问题,如下所述。

一般协调是指理解大脑如何处理信息和感知同时发生的物体和活动中的统一性的挑战。这种感知元素的绑定依赖于注意力,无论是通过显式固定还是隐式激活,这在确定什么被绑定在一起、被注意和被记住方面起着重要作用。时间同步是NBP中的一个核心主题,包括神经放电、适应和不同神经回路的协调。它涉及到定时考虑(通过同步绑定)和神经信号的振荡,尤其是相位耦合,是这种同步的关键组成部分。

视觉特征绑定关注大脑如何将不同的视觉特征(如颜色、形状、大小、纹理和运动)组合起来,将物体感知为连贯的整体。核心问题是为什么人们不会将具有相似特征的物体(如红色的圆和蓝色的正方形)与其他物体(如蓝色的圆和红色的正方形)混淆(第12节中提到的例子)。视觉系统在空间和时间上的组织在特征绑定中起着重要作用。最详细的特征绑定发生在中央凹视觉中,其中注视在空间和时间上本质上是协调的。注意力也是一个关键因素,因为它有助于视觉特征的绑定。各种实验,如短暂呈现、掩蔽和双眼竞争,通常揭示了在压力条件下特征绑定的局限性,揭示了涉及的机制。此外,大脑可能使用多个较小的特征组合,而不是单一的统一表示来进行特征绑定。

知觉的主观统一性提出了关于大脑如何整合不同的视觉特征的问题,尽管它们由不同的神经回路处理。人们对于一个稳定、详细的视觉世界的主观体验与缺乏这种体验的相应神经表示之间存在明显的对比。这种差异被称为神经科学中的“解释鸿沟”或“硬问题”。

13.2. 变量绑定

我们在本综述中的重点是变量绑定的神经实现。这是一个过程,其中语言或抽象推理中的变量与特定的值或实体链接以进行理解。例如,在句子“他在之前把它给了她”中,六个单词中有四个是需要绑定到值以理解句子的变量。变量绑定的挑战在于,可能有几乎无限数量的项目可以绑定到变量,这使得传统方法不足。

一种提出的变量绑定机制是时间相位同步,它依赖于同步神经放电的时间来创建绑定。这种方法将神经放电划分为离散的时间片,其中放电的巧合表示变量之间的绑定。这种机制被使用,例如,由SHRUTI模型(Ajjanagadde & Shastri,1991;Shastri,1999),在第7节中介绍。

另一种方法涉及使用签名传播(Browne & Sun,1999)。在这个模型中,表达式中的每个变量都有自己的节点或神经元组,代表并传输与概念相对应的特定签名。这些签名本质上充当概念的名称。然而,这种方法的一个主要挑战是,它可能需要大量的签名来表示所有可能的概念,而且目前尚不清楚大脑如何生成和管理如此大量的签名。

另一个模型引入了一个中央绑定结构,用于控制绑定(Barrett,Feldman & MacDermed,2008)。这个结构允许临时链接不同概念之间的节点或神经元,使系统能够跟踪特定的绑定,即使时间片或签名在网络中传播。中央绑定还允许更复杂的操作,例如统一表示相同变量的签名。

一些研究人员探索了用于动态变量绑定的乘法技术(Hummel,2011)。这些方法涉及使用分布式表示,其中概念的各种属性以乘法方式组合,这允许灵活的动态变量绑定。

另一种方法涉及使用交叉杆网络进行变量绑定(van der Velde & de Kamps,2006),其中计算节点之间的连接可以临时启用或禁用,以允许信号在特定时间段内在节点之间传播。这种方法试图通过在节点之间创建临时链接来解决绑定问题,实现动态变量绑定。

(Greff,van Steenkiste & Schmidhuber,2020)是与变量绑定问题相关的问题的综述。它提出了一个解决绑定问题的框架,并强调了从非结构化的感官输入创建有意义的实体、维护独立的表示以及使用这些实体构建推理、预测和行为的必要性。这个框架从神经科学和认知心理学中汲取灵感,使神经网络研究与人类认知的见解保持一致。该论文讨论了神经网络无法动态和灵活地组合分布式信息——这是有效形成、表示和理解关系的类似符号实体所必需的能力。作者建议通过三个关键方面来解决绑定问题:表示、分离和组合。

表示涉及在表示层面上绑定来自不同类似符号实体的信息。对象表示作为神经处理中符号行为的基本构建块。它们应该将神经效率与符号组合性结合起来,以一种既保留分布式、基于特征的内部结构的表达能力,又保留自包含对象的完整性的方式编码信息。对象表示包括各种形式的实体,包括视觉、听觉、抽象和概念元素。 分离问题涉及将感官信息结构化为有意义的实体,包括动态创建对象表示。这应该使神经网络能够获得上下文相关的对象概念,通常是以大部分无监督的方式。对象的高度可变性使分离问题成为一个复杂的任务,但对于成功的符号信息处理至关重要。

组合问题围绕着使用对象表示来构建支持推理、预测和计划的结构化模型。这些模型应该使用对象的模块性来实现系统化的、类似人类的泛化。这需要一种灵活的机制,允许神经网络快速重组其信息流以适应特定的上下文或任务。

(Do & Hasselmo,2021)讨论了各种方法来理解大脑如何表示和绑定不同组件以形成复杂结构。在这个框架中探索的核心概念是联合编码,其中角色和填充物由单独的活动向量表示,它们的绑定通过一个将它们组合起来的权重矩阵实现。

然而,联合编码的一些挑战也被讨论了。一个问题在于它有可能无法保持角色和填充物的独立性。例如,在像“Alice loves Bob”和“Bob loves Alice”这样的句子中,联合编码将为作为爱人的Alice和作为被爱者的Alice创建单独且不同的表示,尽管它们本质上是同一个实体。这种缺乏角色-填充物独立性可能会阻碍在不同上下文中泛化的能力。

为了解决这个挑战,论文引入了动态绑定的概念。这种方法涉及从代表Alice的单个节点创建不同的链接到她的不同角色,随着上下文的变化能够快速创建或销毁这些链接。动态绑定依赖于神经元中尖峰活动的时间同步来表示角色和填充物之间的关系。它允许角色-填充物独立性,并且可以适应随时间的各种绑定。

时间同步在单元必须同时充当角色和填充物的情况下存在局限性。为了克服这一点,引入了时间异步的概念,其中发射的顺序保持了因果关系。这个概念对于表示复杂结构和层次特别有价值,例如在人类语言中发现的那些,其中元素可能需要以各种方式组合和重组,以传达不同的含义或细微差别。时间异步还在单元需要同时充当角色和填充物时提供了一个解决方案,保持了绑定的方向性。

(Hayworth,2012)关注神经科学背景下视觉感知的绑定问题。它引入了一个新的神经网络模型,称为动态可分区自动关联网络(DPAAN),它提供了一个不依赖于神经元之间精确时间同步的解决方案,使其更符合学习、记忆和模式识别的既定神经模型。

它建立在解剖学绑定假设的基础上,将符号与特定的神经放电模式关联起来。然而,这涉及到在一个生物系统中跨不同神经模块保持一致代码的挑战,这是难以置信的。论文还讨论了同时表示多个视觉对象的挑战,这是一个健康人容易完成的任务。它提出了多个注意力聚光灯的想法,以允许对不同对象进行独立训练,借鉴了大脑能够关注多个实体的证据。

该论文证明了所提出的架构可以自我组织并学会实现间接。学习通过暴露于各种角色-填充物组合发生,使系统能够处理广泛的组合,甚至是它从未遇到过的组合。 该模型的架构还允许分层嵌套控制,其中PFC中的一组神经元的输出控制另一组神经元的BG门控信号。这种变量和值的分离支持了间接机制。

14. 认知模型

(Dehaene,Kerszberg & Changeux,1998)解决了在假设意识努力的任务中大脑处理的建模问题。作者建议存在一个由一组分布式皮层神经元组成的全局工作空间。这些神经元通过长距离兴奋性轴突接收来自各个皮层区域的神经元的输入,并向它们发送输出。这群神经元不限于特定的脑区,而是以可变的比例分布在它们之间。一个特定的大脑区域对全局工作空间的贡献程度取决于其金字塔神经元对第2层和第3层的贡献比例,这在某些皮层结构中特别突出。另一个计算空间由功能专门化的处理器或模块化子系统的网络组成。这种架构如图14.1a所示。

全局工作空间选择性地允许在任何给定时间访问它的输入子集。这种门控过程由工作空间神经元到外围处理器神经元的下行投射介导。这些投射可以放大或抑制来自处理神经元的上行输入,激活工作空间中的特定处理器,同时抑制其他处理器。 工作空间活动表现出特定的时空动力学。它的特点是工作空间神经元子集以一致和排他的方式自发激活;一次只能有一个“工作空间表示”处于活动状态。这一特性将全局工作空间与外围处理器区分开来,后者可以同时存在多个表示。工作空间中的活动表示可以自主保持活动,但如果被负面评估或注意力转移,可以被另一个表示取代。工作空间神经元的这种动态特性有助于产生思想和认知处理的多样性,因为它不断投射和测试关于外部世界的假设。

提出的神经元架构(图14.1b)展示了无需专门为任务设计的预连线规则编码单元就能学习Stroop测试的能力。学习是通过现实的神经元过程实现的。

Peter Gärdenfors(2004)引入了概念空间作为一个框架,融合了符号和连接主义方法的元素。它为表示概念和知识提供了一个替代方案。概念被表示为多维空间内的区域,即坐标系,每个维度对应于与概念相关的特定属性或质量。例如,“颜色”概念可以在一个具有色调(例如,红色、绿色、蓝色)、饱和度(颜色强度)和亮度(明暗度)维度的空间中表示。

概念与表征它们的质量维度相关联。这些维度包括从感官质量(如味道和气味)到更抽象的质量(如美德或危险)的各种属性。味觉的概念空间可能有甜度、苦度和咸度等维度。通过在这些维度中定位概念,该理论捕捉到了不同质量之间的关系。 这个理论的一个显著特点是它关注概念空间的几何结构。这些空间中概念之间的距离具有语义意义,并衡量相似性:接近的概念是相似的,而遥远的概念是不相似的。凸区域在表示自然类别中起着重要作用,原型位于区域的几何中心。典型性通过概念区域内中心性的程度来衡量。

在这些空间中执行的操作,如交集(共同属性)和混合(组合属性),反映了人们如何在思考中组合概念。交集涉及找到两个概念之间的共同点,例如,“鸟”和“哺乳动物”的交集可能产生“蝙蝠”。概念混合或组合通过相交或合并不同的空间区域发生,例如,混合“石头”和“狮子”的概念产生了一个新的“石狮子”概念。这种混合概念的能力可以捕捉复合或隐喻意义。

概念的意义通常由其出现的上下文决定,因为有些属性不能独立于其他属性定义。例如,“高”属性与高度维度相关,但不能与该维度中的特定区域等同。吉娃娃是狗,但高大的吉娃娃不是高大的狗。因此,“高”不能与一组高大的物体或高度维度的高大区域等同。这个问题的解决方案是,这个属性假设由其他属性给出的对比类,因为事物本身并不高大,而只是相对于特定类别的事物而言。

(Lieto,Chella & Frixione,2017)认为概念空间可以作为符号和亚符号表示之间的通用语言。它提醒了在概念表示中调和组合性和典型性的挑战。基于逻辑的表示是组合的,但通常与典型性效应不兼容,因为原型不能总是由子概念的单个原型组成。基于几何表示的概念空间为处理典型性提供了更有希望的方法。通过将概念表示为适当概念空间中的凸区域,典型性可以测量为个体点与区域中心的距离。区域的交集表示概念的合取,允许更直观地表示典型性和组合性。因此,概念空间可以统一和概括符号和亚符号方法的方面。

15. 分类模型

在本节中,我们将介绍认知心理学(CP)领域内提出的几种分类模型。与机器学习(ML)中的分类算法不同,它们的主要目标不仅是模拟一些数据,还要在这些数据上匹配人类的表现。尽管如此,人们仍然可以清楚地认识到ML算法与以下章节中介绍的算法之间的相似之处。

总的来说,这些算法基于示例、原型或规则的概念,我们简要定义如下。 示例是类别中项目或事件的具体实例或表示。示例作为类别的具体表现,可以有广泛的变化。它们是个人遇到的并与特定类别关联的个别案例或刺激。例如,不同品种的狗(如拉布拉多或贵宾犬)在更广泛的“狗”类别中作为示例。

原型表示类别的中心表示。它们封装了类别最典型或最具说明性的特征,并作为一个心理平均值。原型是基于类别中不同示例之间共同拥有的特征或属性形成的。例如,典型的鸟可能具有翅膀、喙、羽毛和飞行能力等特征,作为“鸟”类别的原型。

规则涉及确定类别成员资格的明确标准。它们基于对象或事件必须拥有的特定定义特征或特性,才能被包括在特定类别中。这些标准可以指类别的包含或排除。例如,将汽车归类为“跑车”的规则可能涉及高马力、空气动力学设计和高速能力。 由于这篇综述是为AI读者准备的,我们将在这里使用ML术语,尽管在认知心理学中使用的是略有不同的术语,例如:分类(CP)=分类(ML),刺激(CP)=训练实例(ML),转移刺激(CP)=测试实例(ML),范例(CP)=存储在内存中的实例。

15.1. 自适应共振理论7

自适应共振理论(ART)(Grossberg,1976a;Grossberg,1976b;Grossberg,2013)试图解释大脑如何在动态环境中学习、分类和预测,同时保持稳定的记忆。它解决了稳定性-可塑性困境,这似乎通过大脑的自我组织性质得到了解决;它指的是在不抹去过去知识的情况下快速和适应性地学习的需求。ART试图阐明解决这一困境的神经机制。

ART还关注意图和注意力过程,并强调在关注相关信息时自上而下预期的重要性。它试图模拟当自下而上和自上而下的信号对齐时,共振的大脑状态是如何出现的。这种共振状态通过将注意力引导到正确分类所需的关键特征模式上来促进快速学习。

通用ART算法有以下步骤——改编自(da Silva, Elnabarawy & Wunsch, 2019): - 呈现一个输入实例; - 计算每个原型的激活值; - 通过WTA选择激活值最高的原型; - 评估输入与选定原型之间的匹配; - 如果匹配足够,根据输入更新原型; - 如果匹配不足,停用原型; - 重复与其他原型的WTA过程,直到找到匹配的原型; - 如果没有找到合适的原型,根据输入创建一个新原型; - 根据选定或创建的原型生成输出; - 处理下一个输入。

15.1.1. ART 1

ART 1模型(Carpenter & Grossberg, 1987)考虑二进制输入,并使用汉明距离作为相似性度量。对于输入x,F2中神经元的激活值为:

15.1.2. 模糊ART

模糊ART(Carpenter, Grossberg & Rosen, 1991)是最受欢迎的ART模型之一。它可以处理实值数据,并使用模糊逻辑操作。通常,输入使用补码编码进行转换,其中x变为[x, 1 – x]。通过这种方式,显式地处理了数据属性的存在和缺失。

F2单元的激活定义为:

其中β ∈ (0, 1]是学习参数。当β = 1时,ART模型被认为处于快速学习模式。当创建一个新的原型来学习输入x时,它被初始化为w = 1。

一般来说,一个神经元不能解释一个概念,正如神经群体中许多概念的群体编码的证据所证明的那样。在ART中代表原型或类的单个神经元可以被认为是代表细胞组装并近似其行为,与神经合理性的目标一致。

15.2. 广义上下文模型8

广义上下文模型(GCM)(Nosofsky,1984;1986;2011)基于这样一个观点,即分类依赖于将新实例与存储在记忆中的先前遇到的实例(范例)进行比较。它是先前上下文模型(Medin & Schaffer,1978)的扩展。

主要思想类似于ML中的k-最近邻算法。

然而,GCM使用多维缩放(MDS)来创建问题心理空间的估计,其中实例可以表示为点。MDS依赖于人类受试者来估计实例对之间的相似性,并创建一个表示(通常是2D或3D),其中点之间的距离反映了它们原始的相似性,即相似的项更接近,而不相似的项更远。

GCM还强调,相似性是上下文相关的,受到选择性注意力权重的影

全局匹配模型(GCM)还强调,相似性是上下文依赖的,受选择性注意权重的影响,这些权重会改变示例嵌入的空间。这些权重会在相关维度上拉伸,在无关维度上收缩。例如,在由一组固定属性定义的花卉空间中,当目标是寻找美丽的花卉时,这些属性可能具有一组权重;而当目标是寻找药用花卉时,则可能具有另一组权重。此外,示例通常具有受呈现频率、最近性或学习期间反馈等因素影响的不同强度。在对测试项进行分类时,相似度高且记忆强度高的示例可能会更多地影响决策。然而,由于检索是概率性的,所有示例都在一定程度上影响分类决策。

根据该模型,在测试阶段,实例i被归类到类别c是基于以下方程,这意味着选择的概率来自于对应于备选项的值的归一化,这也被称为Luce的选择规则(Luce,1963):

其中m是训练实例的数量,C是类别的数量,vjc是与类别c相关的范例j的记忆强度,sij是实例i和范例j之间的相似度。γ是一个用户定义的正响应缩放参数,影响分类响应的确定性水平。当γ=1时,响应是概率性的,匹配每个类别的相对总和相似度。当γ>1时,响应变得更具确定性,倾向于具有最高总和相似度的类别。记忆强度值v通常由实验设计预先确定,通常根据训练期间每个范例的相对频率设置。例如,在典型的实验中,实例被平等呈现并分配给单个类别,它们的记忆强度设置为1,而未分配的实例对于这些类别的强度为0。 相似度sij的计算公式为:

15.3. ALCOVE

注意学习覆盖图(ALCOVE)(Kruschke, 1992) 是一种算法,它结合了基于示例的全局匹配模型(GCM)的思想和错误驱动学习,这种学习特征,例如,在神经网络中很常见。ALCOVE通过添加学习机制、允许连续维度,并结合维度注意力学习,对两者都进行了扩展。它的设计受到心理理论的启发,与使用反向传播的标准神经网络不同,因为它的目标是模拟人类学习过程,而不是在广泛训练后将输入映射到期望的输出。

ALCOVE作为一个前馈连接主义网络运作。它还假设实例可以使用多维尺度分析(MDS)在心理空间中表示。其一般架构在图15.2中展示。

网络的每个输入节点代表一个特定的维度,根据实例在该维度上的值被激活,就像MLP的输入一样。

输入节点对后续隐藏层的影响也取决于每个维度的注意力强度,这些强度标志着每个维度对分类任务的相关性。最初,所有维度上的注意力强度都是相等的,但在训练期间会适应,相关维度上的强度会增加,不太相关维度上的强度会减少。这种注意力学习过程赋予了ALCOVE名称的第一部分。

隐藏节点对应于实例空间中的位置,类似于径向基函数网络。在其基本形式中,每个示例对应于一个隐藏节点的位置。更复杂的形式涉及隐藏节点的随机分布,创建了输入空间的覆盖图,这赋予了ALCOVE名称的最后一部分。

隐藏节点的激活由输入(测试)实例与对应隐藏节点的示例之间的相似性决定。这种相似性计算类似于GCM中使用的计算方式:

在方程(15.17)中,这里只假设了可分离的维度,因此使用了曼哈顿距离。这个方程还展示了维度注意力强度

的作用,在计算输入实例与隐藏节点之间的距离时,它们作为维度的乘数。

每个隐藏节点都连接到代表类别成员资格的输出节点。隐藏节点和类别节点之间的连接权重称为关联权重。与全局匹配模型(GCM)不同,在ALCOVE中,关联权重w通过错误驱动的学习规则迭代调整,并且可以假设为实数值,包括负值:

为了评估模型性能,使用与GCM中相同的选择规则(Luce,1963)将类别激活转换为响应概率:

与使用期望输出值作为目标的MLP的反向传播不同,ALCOVE使用所谓的谦逊教师值tk。例如,如果一个实例属于一个类别,相应的输出节点应该至少有1的激活。如果激活大于1,则差异不被视为错误。这个比喻与一个不介意被他的学生超越的教师有关。

对α和w的调整基于梯度下降:

15.4. RULEX

基于范例的模型允许灵活的数据分类,特别是在规则难以定义的情况下。它们还可以解释类别的分级成员关系,其中一些实例比其他实例更典型。这可能是由许多属性定义的自然对象的分类情况。

在抽象谱的另一端,基于规则的模型,如规则加例外(RULEX)(Nosofsky,Palmeri & McKinley,1994;Nosofsky & Palmeri,1998),试图找到简洁的类表示。人们经常根据基于少量重要特征的明确规则或标准对对象和情况进行分类。规则的另一个优点是它们通常可以用语言表达(用词语描述)并且易于理解。基于规则的模型还需要较少的内存和计算资源。

一个实验(Rips,1989)在一个明显不等于基于相似性的分类的情况下,为基于规则的分类提供了确凿的证据。人类受试者被要求仅根据直径将一个物体分类为披萨或硬币。他们被呈现的测试实例超出了定义这两个类的正常边界——他们被要求对一个直径为7厘米的物体进行分类,这个物体比正常的硬币大,比正常的披萨小。受试者将这样的物体分类为披萨,因为硬币的大小是有限的,但披萨不是。即使他们认为7厘米的物体更像硬币,他们也会将其分类为披萨,因为他们隐含地应用了一个规则,比如“如果一个物体的直径超过3厘米,它就不能是硬币”(Smith & Sloman,1994)。

RULEX模型最初是为了处理二进制数据(Nosofsky,Palmeri & McKinley,1994)而创建的,后来扩展到处理连续(实值)数据(Nosofsky & Palmeri,1998)。基于决策边界理论,它在心理问题的空间内建立了分区,其中边界分隔了不同的类。在最简单的情况下,算法识别单维规则。对于二进制数据,规则可以表示一组对大多数实例相似的值;对于连续数据,规则由一个阈值给出,使得实例在该维度上可以具有更高或更低的值。RULEX还处理区间,即在单个维度上的两个阈值。更复杂的逻辑规则可以通过沿多个维度使用合取和析取的组合这些边界而产生。

一旦建立了规则,就会存储例外。对于二进制数据,例外表示与例外实例的确切匹配;对于连续情况,它们基于相似性比较。在涉及多个维度的规则的情况下,例外也可以被定义为这些维度的子集。相似性以与GCM和ALCOVE类似的方式计算。 给定一个规则R和一组对该规则的例外E(R),使用基于例外的分类过程对实例i进行分类的概率为:

15.5. ATRIUM统一模型中对规则和项目的关注(ATRIUM)(Erickson & Kruschke,1998)结合了范例和规则方法,在单独的模块中实现,并带有一个竞争性门控机制,该机制决定对于给定的测试实例,应该返回两个单独结果中的哪一个作为模型的输出。其总体架构如图15.3所示。

在规则模块中,实例根据它们相对于1D规则边界的放置激活规则节点。规则节点实现了一个sigmoid函数,其中sigmoid的中点代表规则阈值。规则节点通过具有学习权重的连接与类节点相连。

范例模块接收与规则模块相同的输入;它将实例解释为心理空间中的点,并更强地激活附近的范例节点,更弱地激活远离的节点。范例节点也通过具有学习权重的连接连接到类节点。这个模块是第15.3节中介绍的ALCOVE的实现。

每个实例都由这两个模块并行处理。因此,ATRIUM实现了一种所谓的专家混合方法,其中每个专家(即模块)使用自己的表示形式学习从输入到输出的映射。

门控机制学会响应特定输入激活某个模块。选择类别c作为输出的概率由下式给出:

范例模块和规则模块的平均准确率分别定义为(其中tk代表方程(15.21)中定义的谦逊教师值,ce和cr是其他参数):

根据E,通过梯度下降推导出连接权重和注意力权重的学习方程。它们是复杂的公式,我们将在这里省略,但可以在原始论文(Erickson & Kruschke,1998)中找到。

15.6. COVIS9

与前述模型不同,言语和内隐系统之间的竞争(COVIS)(Ashby等人,1998)更为复杂,因此在本节中我们仅提供一般描述,不涉及任何方程式。

它结合了一个基于陈述性记忆的显式(可言语化)模块,该模块包含规则和假设测试,以及一个称为“程序系统”的内隐(不可言语化)模块,该模块通过神经网络表示和一种强化学习来学习亚符号分类决策。第一个系统可以在可能简单分离类别的情况下快速学习一小套规则。它试图模拟前额叶皮层的功能。第二个系统可以学习更一般的模式,但学习速度慢且是递增的,并且依赖于即时反馈。它试图模拟纹状体的功能,纹状体是基底神经节的主要输入区域。程序学习系统反映了由多巴胺介导的赫布学习创造的增量刺激-反应关联。

陈述性记忆依赖于有意识的推理,而非陈述性记忆系统不需要任何有意识的过程。这两个系统竞争提出一个响应,因此COVIS还包含一个决策模块,该模块为每个测试实例选择胜者。

由于COVIS基于神经生物学约束的架构,它成功地预测了许多认知心理学实验中的行为和神经科学数据。

16.6.1. 显式系统

这个系统试图识别相当简单的分类规则。在最简单的情况下,规则是一维的,但在更多维度上可以使用逻辑合取或析取来设想更复杂的规则。

这个模块使用具有符号和连接主义组件的混合神经网络实现。规则的选择是明确的,但关于规则显著性的决策标准是通过梯度下降学习的。

与问题空间相对应的所有可能规则的集合被认为是可用的。在每个试验中,模型选择其中一个规则进行应用。一维规则由一个特定的阈值(决策标准)定义。

如果在试验中使用规则得到正确的响应,那么在下一个试验中该规则将被确定性地再次选中。如果响应不正确,那么规则集中的每个规则都可以根据其权重被选中,权重取决于其奖励历史、坚持的倾向和选择不寻常规则的倾向。这些最后的标准明确地解决了对人类受试者在分类任务上的表现的建模。

在COVIS的一些高级版本中,工作记忆由单独的网络实现。一个网络负责维护候选规则,测试它们,并在规则之间切换。另一个网络负责生成或选择新的候选规则。 COVIS预测,当发现当前规则不正确时,最耗时的处理会发生。当一个正确的规则最终被选中时,会有一个从次优到最优性能的突然转变,这模仿了人类的结果。

16.6.3. 决定最终响应

在两个竞争系统中,整体性能更好的系统决定最终响应。这个决定涉及两个因素:每个系统对其响应准确性的信心以及每个系统的可信度。对于显式系统,信心是判别函数的绝对值,当输入实例在决策界限时为0(低信心),当实例远离界限时为较大值(高信心)。在程序学习系统中,信心被定义为两个隐藏单元中激活值之差的绝对值。对每个系统的信任程度是一个初始偏向显式系统和每个系统之前成功历史的函数。

15.7. SUSTAIN10

监督和非监督分层自适应增量网络(SUSTAIN)模型(Love,Medin & Gureckis,2004)依赖于原型进行分类。其内部表示由与类别相关联的原型组成,新的(训练)实例被分配给现有原型或通过非监督学习形成新原型。分类决策基于这些原型中包含的信息。该模型还使用针对每个输入维度(问题属性)学习的注意力调谐。其架构如图15.4所示。

1. 对简单解决方案的初始偏好。它从单个原型开始,并根据需要在选择性注意的指导下逐步过渡到更复杂的表示,这种选择性注意指向那些看起来在原型级别上更有预测潜力的数据维度;

2. 将相似的输入聚集在一起。它通过一个依赖相似性的无监督过程对输入进行分组。随着原型的形成,注意力转移到提供一致匹配的维度;

3. 无监督和监督学习的结合。它依赖于这两种类型的学习:当分类正确时,它会根据相似性扩展原型,但当基于相似性将实例分配给现有原型未能提供正确分类时,它会创建新的原型;

4. 反馈影响学习的类结构。不同的反馈模式和训练实例呈现的顺序可能导致不同的表示;

5. 原型竞争。原型竞争解释实例,获胜原型的响应受到其他相似原型存在的影响。

SUSTAIN模型的数学公式封装了其通过感受野和激活过程进行聚类和学习机制。每个原型在每个输入维度都有一个感受野,以其在该维度上的位置为中心。这个位置反映了原型对其成员的期望。感受野调谐,与位置不同,决定了对输入维度的关注。提供一致信息的维度获得更多的关注。

假设感受野具有指数形状(图15.5),因此它们的响应随着与中心的距离呈指数级减小。这种负指数函数的选择,一方面是由相似性作为距离函数的指数负表达式(Shepard,1964)驱动的,如第15.2节所述,另一方面,确保感受野下方的区域恒定为1,这有助于算法的数学公式化:

15.8. DIVA发散自编码器(DIVA)(Kurtz,2007)是一个全连接的前馈连接主义模型,采用反向传播。它的结构包括一个特征输入层、一个共享隐藏层和多个代表不同类别的输出节点。它允许对输入进行编码和解码,以便基于重构的质量进行学习和分类决策。

DIVA为每个类别提供一个重构学习通道。它通过一个共享的隐藏层集成这些通道,允许在所有类别之间重新编码,同时基于特定类别通道重构输入。学习是错误驱动的,但侧重于重构成功而非分类成功。它通过重新编码和解码输入为每个类别构建统计模型。

类别的表示受到学习任务中其他类别的影响。因此,与简单的自编码器不同,DIVA包含了类别之间对比的概念。它的一般架构如图15.6所示。

这里也使用了Luce的选择规则来生成输出概率,但它使用每个通道上平方误差(SSE)之和的倒数而不是输出节点的激活水平:

虽然学习与标准反向传播相似,但DIVA在性能上与传统多层感知器有显著差异。它不会将输入转换为输出类别节点的线性可分空间,而是学习优化的重编码,以便每个类别都能准确重建特征。在标准自编码器中,这会产生最大的输入分离。 然而,在发散自编码中,由于共享输入到隐藏权重用于特定类别的转换,多个判别空间重叠。这种轻松生成多个模型的能力有助于多类分类。

在一个两选一(A/B)的分类任务中,如图15.6所示,DIVA使用单独的通道来重建标记为A和B的输入。在学习过程中,正确的类别反馈决定了在特定试验中训练哪个通道。错误驱动的更新集体调整共享的输入到隐藏权重,但为每个类别独立更新隐藏到输出权重。即使在达到正确的类别响应后,DIVA也会继续进行错误驱动的更新(除非重建是完美的),并避免沿着错误的类别通道改变权重。

与MLP不同,学习方法将现实世界的试验模拟为单次训练试验,而不是多次增量试验,例如,使用1的高学习率。因此,DIVA在经典的分类基准问题上表现良好。

DIVA的概念框架为类别学习提供了一个新颖的视角。与依赖特定范例或相似性匹配的模型不同,DIVA不使用范例节点或基于输入与参考点之间相似性的分类/分类。认知心理学中的参考点框架假设个体根据刺激与特定参考点的接近程度进行分类,这些参考点作为分类的锚点,通常由类别中的典型示例决定。

DIVA不是基于维度的注意力调整,而是根据任务转换输入,创建一个分布式表示空间。它复制了与规则、原型和范例相关的特征,而没有显式地使用这些方法中的任何一种。

16. 认知架构

认知架构是旨在复制人类思维的功能组织和操作的计算框架。这些架构的基本前提是相信人类认知可以被划分为一系列核心认知过程和结构。主要目标是提出这些过程和结构的计算描述。一种常见的方法涉及整合代表关键心理概念的模块,以使用计算方法近似它们的功能。

本质上,认知架构旨在封装认知机制,这些机制是在各种时间框架和任务中持续的信息处理结构。这些架构由一组机制定义,这些机制共同概述了框架的操作结构。它们努力通过将人类认知转化为计算术语来捕捉其本质,从而提高理解和模拟智能行为的能力。

在接下来的章节中,我们将介绍三种这样的架构,每种都有不同的重点:心理建模、问题解决的计算方面以及底层过程的生物学合理性。

16.1. ACT-R11

最著名的经典认知架构之一是适应性思维控制——理性(ACT-R)。由John Anderson(1983;1996)开发,它提供了一个理解人类认知的框架。该架构基于这样一个观点,即人类认知过程是由多个模块的相互作用产生的,包括感知、记忆和推理。这些模块同时运行并以协调的方式运作,ACT-R描绘了它们的相互联系、与环境的互动以及对各种任务的适应性。该架构区分了程序记忆和陈述性记忆,以及通过缓冲区进行通信的模块化结构。

ACT-R既是一种认知架构,也是一种认知理论。它提出了一套固定的机制,使用知识来执行任务,从而预测和解释支持人类行为的认知顺序步骤。该理论在四十多年的时间里不断发展,导致了用来描述它的缩写词的变化,例如替代术语“思维的原子成分”(Anderson & Lebiere,1998)。

ACT-R的发展可以追溯到它作为人类记忆模型的起源,后来发展成为一个统一的认知理论。它的主要优势之一在于对记忆的建模,这一特性与人类联想记忆(HAM)模型(Anderson & Bower,1973)共享,后者为认知理论奠定了基础。该模型基于通过缓冲区进行信息处理的概念,以及将外部刺激编码和重新编码为相互连接的可使用块。

ACT-R是一个混合架构,结合了符号元素(如规则和陈述性记忆)和修改它们之间的关系和用法的亚符号组件。ACT-R发展中的一个重要时刻是引入了认知的理性分析(Anderson,1990)。这种方法通过假设相应机制的合理性(即最优性)来解决理解人类思维复杂性的挑战。基本信念是人类认知过程代表了适应性的进化局部最大值,导致了最优的记忆检索和决策机制。这种最优性假设有助于缩小人类认知潜在机制的搜索空间。因此,ACT理论演变为ACT-Rational,通过对记忆和学习方程的修订,更好地描述了人类过程。

16.1.1. 总体架构

该架构由几个相互连接的模块组成,每个模块负责认知处理的特定方面(见图16.1)。每个模块处理特定类型的信息或认知功能。以下是ACT-R的主要模块。

声明性记忆模仿人类记忆,包含知识块,这些知识块代表当前已知的事实和活跃的目标。这些块可以被认为是由一系列符号属性定义的概念。记忆检索可能涉及搜索词,如果记忆不能被检索,则需要策略。它受到使用频率、阈值和噪声等因素的影响。该架构解释了像扇效应(当访问记忆的时间受到它与其他频繁访问记忆的连接影响时)等现象,一些模型使用规则的部分匹配、记忆检索的混合、遗忘和基于实例的学习。

目标模块跟踪系统当前的目标,并维护当前的任务状态。它的操作包括创建和更新目标块,以及将目标块保存或从声明性记忆中移除。ACT-R使用单一目标栈操作,这意味着它没有明确解决如何处理在现实生活情境中经常出现的多个冲突或竞争目标。此外,目标抢占的概念,即一个更重要的目标优先于一个较不重要的目标,也没有完全发展。

视觉模块负责识别视野中的对象。通常,它管理来自环境的感知输入,并可以模拟眼睛的注视和运动。它包括“在哪里”(位置)和“是什么”(对象识别)缓冲区,类似于人类视觉系统的组成部分。对某个位置的注意使视觉信息的提取成为可能,这些信息随后可供中央生产系统进行决策。该架构还可以包括一个听觉模块用于听觉信息。

运动模块控制系统在环境中的输出,例如运动和动作。它通过运动缓冲区接收命令请求,以响应系统的目标来执行什么动作。该架构可以包括几个效应器模块,例如“手动”和“声音”模块。

中央生产系统(CPS)使用生产规则——或者更简单地说,生产——协调模块之间的通信。它是管理不同模块之间交互的核心组件。它应用生产规则来识别缓冲区中的模式(下面描述),选择匹配的规则,并相应地更新缓冲区。生产规则由条件(即“如果”部分或前提条件)和动作(即“那么”部分)组成,它们推动系统中的决策过程。当规则的前提条件为真时,规则可能被激活或“触发”。CPS还包括一个冲突解决阶段,以处理当前情况与多个规则的前提条件匹配的情况,并选择只有一个规则实际上会触发。一个规则可以修改各种缓冲区,包括视觉和运动模块的缓冲区。

我们多次提到了缓冲区的概念。在ACT-R中,缓冲区是临时存储位置,用于处理信息。它们作为认知模块之间的接口。它们可以从外部环境接收信息,例如感觉输入以及其他与任务相关的数据,并在这些信息被模块处理之前提供存储区域。缓冲区还允许模块只向其他模块暴露其数据的一个子集(与当前任务相关的内容)。

模块之间的交互发生在周期中,CPS协调信息和动作的流动。一个完整的认知周期,涉及缓冲区中模式的识别、规则选择、应用和随后的缓冲区更新,大约需要50毫秒,这被认为是几种认知架构中认知的最小周期时间。动作的时间估计基于人类表现,但系统能够实时运行或以模拟的更快速度运行。该架构允许通过调整控制动作预测和学习的方程中的参数,并通过规则学习和改变块激活来建模个体差异。

以下示例——改编自(ACT-R研究小组,2014年)——展示了声明性记忆中知识块和目标的基本结构以及生产规则(使用Lisp语法)。示例是关于根据它们的属性对一些动物进行分类。尽管原始示例包含在语义网络中表示的几个动物,我们将考虑一个简化的示例,其中包含一个动物(金丝雀)和一个类别(鸟类)。定义了“属性”和“是成员”的块:

这个问题可以通过使用两条生产规则来解决。第一条请求检索分类信息,第二条使用这些信息来设置“结果”。

这个示例展示了如何通过将前提条件与块的槽值匹配所需的值或变量值来解决问题。它还演示了从声明性记忆中检索块的一些基本操作。

16.1.2. 决策制定

正如我们所看到的,声明性记忆由可以满足生产规则前提条件的知识块组成。当生产规则的所有条件都满足时,就被认为是匹配的。当多个规则匹配时,就需要决定执行哪一个。

在匹配规则si之后,决策涉及比较等待可能更优越的规则(具有更高价值cj)的预期收益与等待成本。等待成本以一个常数表示,这个常数近似于将来匹配另一个生产规则时的记忆检索成本。

一种决策机制涉及在每个时间步骤进行二元决策,要么以一定概率接受当前规则作为最佳选择,要么等待可能具有更高价值的规则匹配。

如果在给定时间点,另一个具有更高价值的规则匹配,决策过程将重置,将新价值视为基线。这个迭代过程持续进行,代理动态评估是否接受或等待,基于匹配生产规则的不断发展的价值。一种有些等效的机制假设代理使用固定等待时间,在触发匹配的规则之前等待更好的生产规则。

16.1.3. 学习

ACT-R中的学习涉及新知识块和生产规则的创建,以及通过使用来增强记忆。ACT-R中的陈述性记忆初始化包括通过外部事件编码创建新块,或通过执行生产规则将块写入记忆。ACT-R中最重要的学习机制之一是增强陈述性记忆。当记忆被检索和使用时,其激活水平会增加。激活水平影响记忆的检索时间,激活水平越高,检索速度越快。

记忆块在记忆中的强度表示为其激活。当块被使用时,即在触发的生产规则中匹配时,其激活水平会增加。这与反复练习或使用某物会使其记忆更强,其回忆更快的观念相一致。

16.2 SOAR

SOAR(Laird, Newell & Rosenbloom,1987)的状态、操作员和推理架构,是Newell和Simon的逻辑理论家(1956,第一个自动推理程序)和通用问题求解器(1963)的后代。受人类认知的启发,并与Allen Newell的统一心智理论的愿景相一致,SOAR旨在解决各种场景中的问题,基于认知过程中存在规律模式的前提。它主要采用符号结构进行知识表示,辅以数值元数据来指导检索和学习。虽然ACT-R旨在模拟心理实验中的人类表现,SOAR则专注于计算视角。

16.2.1 问题空间计算模型

SOAR实现了问题空间计算模型(PSCM),这是一个组织智能代理中的知识和行为的框架。基于Newell和Simon关于人类问题解决的研究,它将行为视为实现目标的一系列决策。任务环境是通过特定任务(如下棋)中的相关环境方面确定的,它们在分析中至关重要。作者将这些环境中的潜在行动空间概念化,提出了问题空间的概念,这是推理和决策的核心。PSCM的演变精炼了这些问题空间,成为认知架构的核心,通过理解代理在任务环境中的互动以及识别任务、环境和代理特征之间的关系而产生。

问题空间框架在问题解决的上下文中封装了代理的决策过程。代理存在于一个状态中,面临选择以操作员表示的行动。一旦选择了一个操作员,操作员会改变情况,将代理移动到一个新状态,可能通过外部行动或内部变化。问题空间包括代理通过其操作员可达的状态,将问题定义为初始状态和一组期望状态。为了解决问题,代理通过选择和应用操作员,从初始状态导航到期望状态,这一过程称为“问题空间搜索”。解决问题依赖于诸如操作员的数量和可用性以及代理的知识等因素。有限的知识迫使代理通过试错法探索问题空间,而更大的知识则允许直接选择操作员。然而,如果期望状态在问题空间中不存在,代理必须改变其方法或放弃任务。

在问题空间框架中,代理始终处于一个状态中,这个状态区分为内部和外部上下文。对于内部问题,代理完全控制其状态。在外部场景中,代理的状态由感官输入、内部解释和基于记忆推断的结构所塑造,代表了环境的部分快照。状态在表示上没有限制,可以使用符号和数值数据。

操作员会产生持久的状态变化,并具有前提条件,用于在应用前验证对象属性或关系。一旦选择了操作员,就会执行行动,可能包括每个操作员的多个行动。对于内部问题,有两种方法:一种是破坏性地修改当前状态,另一种是创建一个新状态,同时保留未改变的结构。然而,外部问题解决则遵循前一种方法,出于实用性和反应性的考虑,保持一个单一的状态,由操作员的行动或环境动态改变。该框架一次只允许选择一个操作员,禁止同时并行执行。由于这种单一操作员选择的前提,不需要解决冲突操作之间的冲突。

知识搜索涉及检索存储在长期记忆中的相关信息,这对于操作员选择至关重要。问题搜索和知识搜索之间的关系构成了代理行为的核心。代理的反应性取决于知识搜索的计算成本;因此,认知架构必须高效地组织和检索知识以保持反应性。问题搜索包括在问题空间中导航,该空间由状态和操作员组成,通过选择和应用操作员来达到期望的目标状态。知识搜索则涉及检索存储在长期记忆中的相关信息,以指导在问题搜索过程中选择和应用操作员,即利用过去的经验或获取的知识来选择解决问题的最佳路径。

16.2.2 通用架构

与ACT-R相似,SOAR的架构(图16.2)由一系列任务无关的模块组成,这些模块协同工作以定义代理的行为。这些模块包括多种功能,包括短期和长期记忆系统、处理组件、学习机制以及用于促进它们之间通信的接口。

其结构的核心是工作记忆,负责维护代理的情境意识。它作为各种信息的存储库,包括感知输入、中间推理结果、活跃目标、假设状态以及与其他记忆系统交互的专门缓冲区。

与ACT-R不同,SOAR具有三个主要负责存储符号知识的长期记忆系统:程序记忆(包含技能和“如何做”的知识)、语义记忆(包含关于世界和代理的事实)和情景记忆(保存过去经历的记忆)。程序记忆动态响应工作记忆的内容,可以主动修改工作记忆。它启动从语义和情景记忆到工作记忆的检索,并且可以通过诸如空间-视觉系统和运动系统的接口启动动作。

学习机制与程序和情景记忆密切相关,使代理能够获取新知识并随着时间的推移调整其行为。代理的行为从工作记忆(表示代理当前的目标和情境)和程序记忆(包含其技能和处理知识的存储库)之间的交互中产生。

16.2.3 空间-视觉系统

空间-视觉系统(SVS)是架构的关键组件,旨在弥合符号表示和子符号表示之间的差距。SVS使SOAR代理能够有效地将抽象知识与现实世界的感知数据整合在一起。SVS具有多种角色,包括在感知数据中定位符号知识和支持非符号数据处理。它充当符号工作记忆、感知、运动控制和长期、特定模式记忆之间的中介。

该系统兼容2D和3D表示,允许代理通过操作员向SVS发出命令,以从非符号数据中提取符号属性和关系。它还支持对空间-视觉表示进行假设推理,促进潜在行动的模拟、结果预测和基于当前环境状态的决策。在实际场景中,SVS对于机器人手臂运动规划等任务至关重要,因为它保持现实世界对象和符号知识的并行表示。

16.2.4 工作记忆

工作记忆是当前信息状态的主要存储,它包含事实、目标和正在进行任务的问题解决步骤。工作记忆在感知数据到达时动态更新,生产规则(规则)触发并改变其内容。代表系统的即时上下文,它存储临时和长期信息,通过提供相关知识的访问来促进决策。工作记忆的内容影响行动的选择,帮助在认知系统内持续处理和完善潜在的解决方案。

其内容以三元组的形式表示,形式为(状态,属性,值)。例如,一个图(其中S1,I1等是节点)可以表示如下:

16.2.5 语义记忆

语义记忆专注于编码关于代理和环境的事实性知识,包括一般的、与上下文无关的世界信息以及关于代理环境、能力和长期目标的具体细节。与程序记忆不同,语义记忆使用符号图结构而不是规则来编码知识。从语义记忆的检索通过在语义记忆缓冲区中创建一个提示来启动,该提示部分指定要检索的概念。

SOAR在检索过程中使用了激活机制,如基础激活和扩散激活,这些机制通过考虑最近性、访问频率和上下文相关性等因素来模拟人类对长期语义记忆的访问。

语义记忆与工作记忆分开存储,以管理在不断增长的工作记忆中匹配程序知识的计算成本。它可以通过外部来源的知识初始化,或在代理操作期间逐步构建,包括关于环境、语言处理、与其他代理的交互以及从指令中学到的层级任务结构的信息。然而,SOAR缺乏语义记忆的自动学习机制。

16.2.6 情景记忆

情景记忆是一种独特的记忆类型,旨在捕捉代理随时间推移的过去经历。每个情景代表代理状态在特定时刻的快照,使代理能够回忆过去经历的时间背景。

与语义记忆类似,情景记忆的检索通过程序知识在情景记忆缓冲区中创建一个提示来启动。然而,与语义记忆不同,情景记忆的检索提示表示完整状态的部分规范,而不是单一概念。检索过程包括最近性偏差,检索到的情景会在缓冲区中重新创建,使代理能够回顾过去的经历。

SOAR仅存储情景之间的差异,并使用索引来最小化检索成本。虽然由于自动存储新情景,记忆大小随时间增加,但存储的情景数量增加导致旧情景的检索成本逐渐上升。代理可以通过选择存储状态的哪些方面来控制记忆成本,通常排除频繁变化的低级感官数据。情景记忆支持多种功能,包括记忆位置和对象的虚拟感知、学习行动模型、操作员评估知识、前瞻记忆以及重建和从过去行动过程中学习的能力。

16.2.7 产生有意识的行为

与ACT-R依赖具有前提条件和动作的规则相比,SOAR具有更复杂的机制,涉及规则(与ACT-R中的规则含义不同)和操作员(实际上负责执行动作——包括内部的,如记忆检索、执行数学运算、改变记忆内容,以及外部的,如与环境互动)。

SOAR的执行周期涉及五个阶段(图16.3):

**输入阶段(Input)**:新的感知数据进入工作记忆。

**提议阶段(Proposal)**:规则解释数据,提出操作员并进行比较。

**决策阶段(Decision)**:选择新的操作员或者在僵局情况下导致新的状态。

**应用阶段(Application)**:应用选择的操作员,导致工作记忆的变化。

**输出阶段(Output)**:将命令发送到外部环境。

需要注意的是,所有规则在条件变化时都会触发和撤回,在提议和应用阶段继续,直到达到静止状态,即匹配规则集合不再发生更改。

在这些阶段中,如果当前操作员的偏好发生变化,当前状态会立即改变,但直到下一个决策阶段才会选择新的操作员。此外,如果在应用阶段中提出选择的操作员的规则被撤回,该阶段会立即结束。复杂行为来源于多个决策周期的执行。

在SOAR中处理操作员的过程涉及三个规则函数:提出潜在操作员、评估提议的操作员以及应用所选操作员。此外,还有用于状态详细说明的规则。

接下来,我们将介绍一个涉及块世界(Soar认知架构,2020)的示例,展示如何提议和选择操作员。假设有三个块(A、B、C),最初B放在A的上面,而C放在桌子上:(on A Table),(on C Table),(on B A)。

第一步是详细说明(elaboration),在这一步,规则检查当前状态是否存在某些对象或结构,并提出相应的操作员。在图16.4中,我们可以看到,在工作记忆中引入了两个新事实(clear B)和(clear C),因为初始状态的定义没有显式包括它们。

接下来,其他规则检查当前情况,并根据具体条件提出相关的操作员。这一步通常整合了任务特定的知识,以避免向代理提出不必要的操作员建议(图16.5)。

如果另一个块D在桌子上是清晰的,那么所有可能的移动操作员将被提议,例如 move(B, D),move(C, D),move(D, C) 等。

第三步是评估(evaluation),在这一步,操作员评估规则评估提议的操作员和工作记忆中的其他内容,分配偏好来指导操作员的选择。偏好可以指示可行性(+接受 / -拒绝)或可取性(>最佳 / >>更好 / =中立 / <<更差 / <最差)。可接受的偏好表示操作员是选择的候选项。为了进一步考虑,候选项必须是可接受的,因此这是默认情况。要选择操作员,必须至少有一个偏好,具体来说,是一个表明该值是状态的操作员属性的候选项(通常使用“可接受”的偏好)。还可能有其他偏好,例如表明该值是“最佳”的偏好。数值偏好可以编码操作员的预期未来奖励,通常与强化学习机制一起使用,详见第16.2.10节。

对于我们的示例,评估结果如图16.6所示。由于操作员排序是清晰的,接下来的步骤是选择 move(B, C) 操作员,并应用它以实际改变当前状态(图16.7)。

如上所述,SOAR允许多个规则实例化和对声明性记忆的无限访问。然而,它通过允许一次只能选择一个操作员并使用其偏好机制来强制瓶颈。为了保持逻辑一致性,如果其前提条件不再满足,操作员可以自动取消选择。因此,SOAR操作员通常不能执行长的动作序列,而是通过一系列操作员来执行。这影响了决策的时间和粒度,需要多个操作员来执行复杂的动作。

上述描述的操作是用一种特定的编程语言实现的,这种语言相当复杂。下面我们列出一个示例(Laird & Congdon, 1996),涉及移动一个块,只包括“提议”和“应用”规则:

16.2.8. 僵局

僵局表示代理由于知识不足或冲突而无法继续进行的点。有三种类型的僵局,每种类型都与特定类型的知识失败相关联。当没有提议操作员时,发生“状态无变化”,通常表明需要创建与当前情况相关的新操作员。当提出多个操作员但评估偏好无法确定选择哪一个时,会出现“操作员平局/冲突”,这需要调整偏好。当同一操作员在多个周期内持续存在时,发生“操作员无变化”,表明无法应用它或行动需要多个周期才能在外部执行。

SOAR通过创建子状态来处理僵局,从而进行局部推理。这些子状态具有自己的偏好记忆,能够选择和应用操作员,旨在解决僵局而不干扰超状态的处理。子状态既充当状态又充当子目标。它们使用类似的处理周期作为顶级状态,利用过程记忆来匹配结构并提出、评估和应用操作员。如果子状态缺乏足够的知识,它会导致新的僵局,从而形成子状态堆栈。通过这种方式,可以创建操作员和子状态的层次结构。每种僵局类型都需要特定的知识来解决,例如创建新的操作员、更改偏好或创建或删除工作记忆元素,以促进选择新操作员。

在既涉及方块世界又涉及移动方块的机器人手臂(夹具)的场景中,这种层次方法可以通过将复杂动作分解为更简单的操作来处理。考虑“移动块”操作员。最初,只有低级别的原始动作可用(“拾起”、“移动”和“放下”),这些动作对应于夹具的物理能力。

在这种情况下,“移动块”是一个在较高层次上制定的抽象动作。由于没有直接可执行“移动块”动作的规则,因此会出现僵局。为了解决这个问题,SOAR创建一个子状态,这是一个较小的问题解决上下文,专注于执行“移动块”动作,并作为实现该动作的子目标。在这个子状态中,代理搜索与抽象的“移动块”操作相匹配的动作。这涉及创建诸如“拾起”、“移动”和“放下”之类的子子状态。最终,代理在这些子子状态中逐步执行这些原始动作,从而能够移动方块(见图16.8)。

这种层次方法允许代理通过将复杂动作分解为更小、可执行的步骤来处理复杂动作。通过通过嵌套问题解决上下文解决僵局,代理逐步通过执行更简单、更具体的动作来完成更高级的任务。

在ACT-R和SOAR中,都使用了“chunking”(分块)的概念,但它们的实现方式有所不同。在ACT-R中,chunking涉及将信息组合成块,这有助于记忆并减少认知负荷。这些块增强了检索能力,但不影响底层规则。相比之下,在SOAR中,chunking涉及基于过去的问题解决经验创建新的规则,使系统能够泛化知识。在SOAR中,chunk表示建立新的运算符或产生,改变了系统的知识库并影响未来的决策制定,而在ACT-R中,chunk主要专注于增强记忆检索效率,而不修改规则本身。

在SOAR中,chunk是在返回结果解决了僵局时形成的,将前僵局情况与结果联系起来。它们对应于不同类型的解决方案,基于解决方案类型生成特定类型的chunk。

当子状态处理信息以克服僵局时,chunking将这一处理过程转化为规则,复制了子状态成功结果的规则。因此,chunking消除了未来的僵局和重复子状态处理的需求。当发生僵局并生成子状态来解决时,chunking分析这个顺序问题解决过程,并将步骤序列转化为一组规则。这些规则复制了在子状态中实现的成功解决方案。一旦建立了这些规则,代理在未来面对类似情况时就不需要再次进行顺序、逐步的推理过程;相反,它可以立即并行应用通过chunking生成的规则。

chunking在子状态产生结果时自动激活,回顾子状态处理的历史追踪,并识别超状态中实现子状态结果所必需的关键结构。这些结构形成规则的条件,而结果成为规则的动作。

16.2.10.强化学习

强化学习(RL)被集成到SOAR架构中,作为根据反馈(包括目标完成和失败等)调整操作选择的手段。RL通过创建称为RL规则的操作评估规则实现,这些规则生成数值偏好。

RL规则设计为对其应用的状态和建议操作进行编码,其数值偏好表示这些特定状态和操作的预期奖励(Q值)。在应用操作后,所有关联的RL规则都会根据获得的奖励和未来奖励的预期进行更新。这种更新机制确保即使是缺乏直接奖励的状态,也有相关的操作将预期奖励反馈给相关的RL规则。在不确定性场景下,RL影响操作选择,辅助非RL偏好当它们不足以提供决策时。

例如,RL规则可以模拟机器人如何在意图捡起的物体周围移动和定位。每个规则测试相对于物体的不同距离和方向,将Q值与特定操作关联起来。随着经验的积累,RL规则会调整以偏好更快完成任务的操作。可以添加额外的评估规则以确保避免碰撞。

在SOAR中,奖励是由规则生成的,这些规则检查状态特征并为状态定义奖励结构。规则可以通过评估中间状态或将感知数据转换为奖励表示来计算奖励。

通过块化过程,可以获取RL(强化学习)规则,初始值通过子状态处理设置,随后根据代理的经验进行微调。此外,SOAR自然支持在一系列问题解决场景中的分层RL,包括基于模型的或无模型的RL。

16.3. 心智的标准模型

心智的标准模型(Laird, Lebiere & Rosenbloom, 2017)被设想为一种在认知科学界达成关于认知架构基本组成部分的共识的方式。它的哲学假设是,类似人类的心智可以被描述为计算实体,其结构和过程与人类认知中发现的非常相似。它们是人类认知功能的计算模型。这个提议建议认知架构为定义标准模型提供了适当的抽象。

然而,重要的是要注意,标准模型本身不是一个认知架构;相反,它是一个概念框架。

心智的标准模型的发展始于最初的共识讨论(Burns et al., 2014),后来通过综合来自三种现有认知架构的想法进行了扩展和完善:ACT-R、SOAR和Sigma(Rosenbloom, Demski & Ustun, 2016)。

所提出的模型涵盖了认知架构的各个方面,包括它们的结构组织、信息处理、记忆系统、内容表示、学习机制以及感知和运动功能。它旨在识别认知架构之间的共识领域,以及在理解上可能存在差异或差距的领域。

标准模型假设具有类似于物理符号系统(physical symbol system)的计算能力。物理符号系统假说认为,这样的系统具有通用智能行为的必要且充分的手段(Newell & Simon, 1972)。然而,该模型偏离了传统观点,不假设在深思熟虑的行为层面的计算纯粹是符号性的。该模型对于符号是任意标签还是分布式元素向量(如第12节所呈现的)上的模式保持中立。

模型中的非符号(数值)信息扮演两个角色。首先,它明确表示定量任务信息,如距离或时间。其次,它注释任务信息表示(包括符号和非符号),以调节它们是如何被处理的。这种数值信息作为数据的元数据。

标准模型还承认了统计处理的需要,并纳入了统计学习的形式,如贝叶斯学习和强化学习。

标准模型的结构定义了信息和处理如何被组织成不同的组件,因为计算心智被认为是由具有特定功能的独立模块组成的。其基本组件包括感知和运动、工作记忆、陈述性长期记忆和程序性长期记忆(见图16.9)。工作记忆作为其他组件之间的通信缓冲区。每个模块可以进一步分解为子模块或不同模态的多个实例(例如,各种感知和运动模态)。长期记忆,无论是陈述性的还是程序性的,都有相关的学习机制,用于信息的自动存储和修改。

该模型基于认知周期运作,由程序性记忆驱动,该记忆在每个周期中启动所需的处理以选择单一的深思熟虑的行为。每个行为都可以修改工作记忆,执行抽象推理步骤,模拟外部动作,从长期陈述性记忆中检索知识,或影响感知。复杂的行为,无论是内部的还是外部的,都被认为是由这些认知周期的序列所产生的结果。

尽管在程序性记忆的内部处理中存在显著的并行性,但每个周期选择单一深思熟虑的行为引入了串行瓶颈,就像SOAR中的操作符选择一样。然而,组件之间可以发生并行性,每个组件都有自己的独立时间进程。

标准模型建议,执行复杂的认知活动,如规划或语言处理,不需要额外的专门架构模块。这些活动是通过组合原始行为实现的,涉及认知周期的序列。可以根据需要包括针对这些活动的特定架构原语(例如,规划的视觉空间意象,语言处理的音韵循环)。

标准模型假设所有形式的长期知识都是可以学习的,包括符号结构和相关的元数据。学习是增量的,并且在系统行为期间在线发生,经验作为学习的基础。它通常涉及通过经验的内部表示的信息的反向流动。长期学习可以从短期经验中积累的知识中产生,可能涉及对过去经验的明确深思熟虑。假定存在所有类型的长期记忆的特定机制,包括程序性和陈述性记忆。程序性记忆至少涉及两个独立的学习机制:一个基于规则触发创建新规则的机制,另一个通过强化学习调整竞争性深思熟虑行为的选择。陈述性记忆也包括至少两个机制:一个用于创建新关系,另一个用于调整相关的元数据。

可以存在多个感知模块,每个模块专注于特定的感官模态,例如视觉、听觉等,每个模块可能有自己的感知缓冲区。假定注意力瓶颈限制了进入工作记忆的信息量,但感知模块内部的表示和处理没有严格定义。工作记忆到感知的信息流是可能的,允许期望或假设影响感知分类和学习。

运动模块负责将存储在工作记忆缓冲区中的符号结构及其相关的元数据转换为外部动作。可以存在多个运动模块,每个模块对应不同的效应器,例如手臂、腿等。

16.4. 语义指针架构

语义指针架构(Semantic Pointer Architecture, SPA)(Eliasmith, 2015)与传统的认知架构不同,它优先考虑生物学原理。与根植于符号表示和处理的理论不同,SPA在大规模神经网络中整合了生物学上合理的表示、计算和动态。该框架旨在反映在生物系统中观察到的认知过程,并尝试统一对多样化经验数据的建模,包括生理和心理数据。

16.4.1. 使用VSA进行表示

SPA中的所有计算都是在称为语义指针的抽象概念表示上执行的,这些是我们在第12节中描述的高维向量表示。实际上,它依赖于全息减少表示(holographic reduced representation, HRR),它允许编码和组合各种概念,以及提取编码组合的部分。然而,SPA的操作不依赖于所选择的特定VSA(向量空间模型),SPA本身的结构也独立于VSA的选择。

语义指针之所以称为“语义”,是因为它们在概念上相似时具有更高的相似性排名,在不相似时排名较低。具有相似含义的语义指针之间的相似性是通过它们的点积来确定的。含义相似的语义指针在比较时会产生更高的点积值。它们被称为“指针”,因为它们可以被解引用以提取封装的信息。

在SPA中,向量通常是512维的。它们来自具有特定属性的正态分布,例如期望幅度为1和傅里叶系数的均匀分布。离散傅里叶变换用于计算语义指针向量的傅里叶变换。语义指针保持固定的维度,无论操作数量如何,确保神经实现的一致性。

绑定操作涉及循环卷积,这在计算上是昂贵的,但可以在傅里叶域中优化,在那里它成为复值向量系数的逐元素乘法。循环卷积具有适合于结构化表示操作的属性。它将输入向量映射到近似正交的结果,这意味着结果与原始向量之间的点积接近零。这允许添加新的、不熟悉的项目,而不会使结果变得不可识别。在使用VSA表示时,信息在绑定操作过程中逐渐丢失,导致信息减少或压缩。为了处理这些近似结果,需要一个“清理记忆”,它将嘈杂的表示映射回码本中允许的表示,确保解绑定的结果是可识别的。

16.4.2. SPA的结构

SPA涵盖了四个认知方面:语义、语法、控制以及记忆/学习。

传统上,认知系统被描述为依赖语法来传达语义的符号处理系统。连接主义方法专注于语义,在向量空间中表示含义。SPA试图解释语义信息是如何被语义指针捕获的,以及如何构建表征结构,从而解释语法。因此,SPA结合了受符号方法启发的语法和受连接主义方法启发的语义,使用生物学上合理的基质。

语义指针也可以从三个角度来看待:数学上(高维空间中的向量)、物理上(神经网络中的活动发生)、功能上(指向语义内容的压缩表示)。

除了表示对象或概念,语义指针还可以从感知输入生成并用于运动动作。

图16.10展示了一个作为模式的SPA子系统,它可以适应特定的大脑区域。细节如层级级别、转换、控制机制和错误流会根据特定的大脑区域(例如视觉、听觉等)而有所不同。图16.11展示了一个更高层次的模式,用于组织SPA模型,捕捉它们的组织结构。虽然并非所有模型都包含相同的组件,但它们理想情况下会避免冲突元素。

作者建议,通过将这些标准子系统链接到一个更大的系统中,可以实现“全脑”视角。它们的相互连接允许通过提出和完善这样的更高层次模式来构建生物认知的统一模型,最终目标是“构建大脑”。

在图16.10中,信息处理始于一个高维表示进入子系统,通常是通过一个层级结构,在该结构中它被压缩成语义指针。在这个层级结构中移动会压缩或扩展这些表示。这些语义指针可以被系统中的其他元素改变和操作。转换可以根据来自动作选择和内部来源的错误信号进行更新。动作选择组件在指导子系统内的信息流方面发挥作用。

图16.11展示了类似于图16.10中的多个相互交互的子系统。一个“内部子系统”被突出显示,强调了它在工作记忆和概念层级编码等函数中的重要性。动作和感知都涉及在正向和反向两个方向上操作的层级结构。这些层级帮助分类刺激,生成语义,并促进学习。层级顶部的语义指针可以被视为指向记忆,并可用于唤起运动或感知记忆的细节。这些指针促进了大脑中的建构过程,允许进行没有直接经历过的运动和感知。虽然顶层语义指针是最压缩和典型的,层级中的其他级别也可以处理指向更详细语义信息的指针。生物系统不是顺序处理感知和动作;它们是并发处理的,在其各自的层级结构中相互影响。感知和动作深度相互联系,运动控制依赖于感知输入。感知和动作之间的交互发生在多个层面,使系统更加动态和复杂。因此,整个感知-动作系统可以更好地理解为一系列嵌套控制器,而不是独立的层级。

16.4.3. SPAUN

SPA的原则被具体化在SPA统一网络(SPAUN)(Eliasmith等人,2012年)中,这是一个计算模型,旨在根据视觉和符号输入执行各种认知任务,并通过一个双关节臂展示其响应。它的设计目标之一是完全自包含,就像生物大脑一样,所有输入都是感觉信息,所有输出都是运动动作。它统一了之前构建的几个认知功能模型,例如使用SPA架构的视觉处理、工作记忆和动作规划。

因此,SPAUN被构建为六个不同大脑功能的模型的组合:视觉、运动控制、记忆、归纳推理、动作规划和控制以及学习。每个单独的模型都有自己的信息表示方式,但它们在SPA内部使用共同的“语言”。

SPAUN通过一个单一的眼睛与其环境互动,感知手写或打印的数字和字母,以及一个具有质量和长度的物理建模的臂,使其能够操纵周围环境。它的自然接口和内部认知过程使其能够感知视觉输入,记忆信息,推理,并产生运动输出,例如写数字或字母。

SPAUN的功能架构在图16.12中展示。它由三个层级结构(视觉、运动、工作记忆)、一个动作选择机制(基底神经节模型)以及五个用于不同信息处理功能的子系统组成。这实际上模仿了各个大脑区域的操作,并基于图16.11中展示的模式。

该模型能够处理八种不同的认知任务,每种任务都被选择来代表生物认知系统面临的各种挑战。这些任务从简单的感知和运动任务到更复杂的任务,如回答问题和流体推理。

要启动一个任务,SPAUN会被呈现一个字母数字对(例如,“A 4”),这指定了要执行的任务。随后的输入符号指导处理过程,导致生成产生响应的运动命令。SPAUN在响应任务后等待进一步的输入。

在模型的不同层级使用不同大小的语义指针。例如,视觉和运动层级分别使用50D和54D语义指针,其他位置使用512D语义指针。

SPAUN在计算上非常密集,需要大量的计算资源,例如在2012年需要24 GB的RAM。该模型涉及大约250万个尖峰LIF神经元和大约80亿个突触连接,这使其成为世界上最大的功能性大脑模型。它还纳入了四种神经递质(GABA、AMPA、NMDA和多巴胺)并模拟了它们已知的特性。运行一秒钟的模拟时间大约需要2.5小时(在2010年代)。

该模型架构并不特定于它执行的任务。这八项任务被选中是为了证明,尽管它们在性质上大相径庭,但所有的模型都可以集成到一个功能性的端到端认知系统中。它们是:

- 复制绘图:展示视觉系统生成的压缩语义指针,以及运动系统使用的语义指针保留足够的特征信息,以便对于每个数字,可以找到这两组语义指针之间的一般化关系;

- 数字识别:展示视觉系统能够识别并再现作为输入呈现的数字;

- N臂老虎机任务:展示基底神经节网络模型在提供适当的错误反馈时具有自我适应的能力;

- 列表记忆:展示工作记忆模型能够在呈现后记住并回忆数字列表;

- 计数:展示基底神经节网络模型能够在更大的集成系统环境中执行内部引导的任务(例如,默默计数)。第二个目标是展示存储在记忆系统中的信息可以被修改以完成这项任务;

- 回答问题:展示内部SPA表示足够灵活,可以使用不同类型的查询进行信息探测;

- 快速变量创建:展示执行归纳任务的能力,该任务涉及在一组静态数字中找到变量输入。

- 流体归纳:展示执行类似于瑞文渐进矩阵序列变体的模式归纳任务的能力。瑞文渐进矩阵是一种非语言测试,用于测量抽象推理能力。它们由排列在矩阵中的视觉模式组成,测试者必须根据逻辑、推理和对空间关系的理解找出缺失的部分以完成模式。

16.4.4. NEF

与专注于高级概念(“是什么”)的SPA不同,神经工程框架(NEF)(Eliasmith & Anderson, 2004)着眼于这些概念的低级实现(“怎么做”),受到大脑中神经元群体执行各种功能的启发。NEF可以被视为一个“神经编译器”,模拟神经元群体以实现基于单个神经元响应知识的高级脑功能。NEF被用来实现SPAUN模型,通常也可以用来构建计算网络。

NEF基于三个核心原则设计:

- 神经表示涉及在神经群体和时间上的非线性编码和加权线性解码;

- 神经表示的转换取决于由神经群体表示的变量,并使用加权线性解码确定;

- 神经动态将神经表示视为动态系统中的状态变量,允许使用控制或动态系统理论进行分析。

此外,它承认神经系统本质上是有噪声的,因此它们的分析必须考虑噪声效应。

16.4.4.1. 表示

NEF通过将信息编码为实数的时间变化向量来操作,允许对神经计算进行数学操作。信息编码涉及根据要编码的向量向单个神经元模型注入特定电流。编码过程依赖于调整曲线,这些曲线描述了神经元对给定输入信号作出反应的可能性。这些曲线取决于诸如神经元的增益(活动上升的速度)、偏差(无信号时的活动)、编码权重(在输入向量空间中导致最大活动的指向)等因素。尽管NEF通常使用LIF神经元,但编码过程并不局限于任何特定的神经元模型。当涉及更多神经元时,可以通过解码过程估计原始编码的向量。这种方法扩展了群体编码的概念,以处理任何维度的向量。

在图16.13.A1中,八个神经元显示了它们编码过程中的不同调整曲线。当呈现一个时间变化的信号(图16.13.A2)时,它们将其转换为一连串的尖峰(图16.13.A3)。它们的频率由输入信号在任何给定时刻激活调整曲线的强度决定。

NEF中的解码涉及过滤尖峰序列以考虑突触后电流,然后通过解决最小二乘最小化问题计算出的权重值将它们组合起来。因此,NEF可以用来在神经网络中计算任意非线性函数。通过为神经元计算解码器的方式,允许神经元群体表示输入值x,相同的方法可以用来解决解码器,使网络能够计算任意函数。通过在解码器计算中用函数f(x)代替x,可以确定一群神经元计算函数f(x)的解码器。网络中的神经元数量越多,近似精度就越高。

图16.13.B展示了解码过程。图16.13.B2显示了通过衰减指数滤波器处理的尖峰产生的整合突触后电流。这实际上是每个单独神经元对输入信号的非常粗略的估计。然后,在最简单的情况下,这些电流被加起来以创建对输入信号更准确的表示。然而,该过程在求和中使用一组权重,这些权重可以计算以考虑输入信号的转换,例如余弦函数(图16.13.B3)。相同的输入信号编码用于解码这样的输入函数。

16.4.4.2. 转换

我们已经在前一个关于余弦函数的例子中看到了转换的一个例子,该例子只有一个时间变化的输入维度。然而,这可以被推广到计算由不同神经元群体编码的不同维度的输入向量的函数。连接神经元群体的权重被确定为发送群体的解码权重、接收群体的编码权重以及计算特定函数所需的任何线性转换的乘积。

在图16.13.C1中,我们可以看到由群体A编码的正弦输入信号。神经元群体有能力通过从前者解码所需的函数,然后随后将解码的估计编码到后者,将信号传递给其他群体。将这两个过程合并为一个步骤涉及计算一组描述两个群体中神经元之间连接强度的权重。在图16.13.C2中,我们可以看到输入信号的负值投影到群体B,在图16.13.C3中,该信号的平方投影到群体C。

16.4.4.3. 动态

一些神经系统需要通过递归连接进行持续活动。当存在这些连接时,由神经元群体所代表的向量类似于动态系统中的状态变量。控制理论方法可以用来研究这些系统的动态。图16.13.D展示了一个例子,它展示了具有跨其两个维度的负反馈的谐振子的神经实现。

16.4.5. NENGO

神经工程对象(NENGO)(Bekolay等人,2014)是一个图形神经模拟环境,提供了一种实际的方式来应用NEF的原则,以模拟和模拟神经表示。NENGO框架作为SPAUN的支柱,并且代表了构建反映大脑动态的大规模神经模型的平台。

17.讨论:AGI系统面临的挑战

17.1.双过程理论

在我们讨论通用人工智能(AGI)所需的能力时,我们将简要介绍认知心理学中的双过程理论。这一理论区分了类型1和类型2系统,每种都以不同的信息处理和决策方式为特征。

类型1系统通常被称为“直觉”或“自动”。它们的特点是快速、不费力地处理信息,通常用于需要迅速决策的情况。这些系统在很大程度上依赖过去的经验,不需要太多的有意识的努力或注意力。例如,一位经验丰富的司机在熟悉的路线上驾驶就是一种类型1系统的应用。一旦司机对路线了如指掌,他/她就能在不太需要有意识努力或注意力的情况下驾驶。然而,如果司机遇到新的和不熟悉的情况,比如在外国驾驶,类型1的决策就不再可能。

另一方面,类型2系统通常被称为“理性”或“深思熟虑”。它们的特点是更慢、更费力的信息处理方式,通常用于需要仔细考虑和决策的情况。这些系统依赖于有意识的思考和注意力,并且比类型1系统更准确、更灵活。例如,解决一个复杂的数学问题就需要类型2系统。这项任务需要仔细考虑,并且大量依赖于有意识的努力和注意力。解题者必须仔细分析问题,考虑不同的策略,并选择最佳解决方案。这类任务不能使用类型1系统来完成。

类型1过程通常被认为生成默认响应,它们快速且并行运作,不依赖于工作记忆。它们无意识地运作,具有联想性质,类似于在动物中观察到的认知过程。相比之下,类型2系统依赖于工作记忆的使用,并可能涉及心理模拟以估计行为的后果。这些过程运作缓慢,并且以串行方式进行,具有有限的处理能力。它们利用显性知识,例如基于规则的机制。值得注意的是,类型2过程是人类认知的特征。

尽管双过程理论为理解个体如何处理信息和做出决策提供了见解,但也存在一些批评意见,Evans & Stanovich (2013)中讨论了几种这样的案例。例如,一个常见的批评是围绕两个系统分配的多种且有时模糊的定义。此外,一些学者认为二元分类过度简化了人类认知的复杂性,他们认为存在一个处理风格的连续体,而不是两种截然不同的类型。

当前的深度学习系统属于类型1。尽管它们可以解决复杂问题,但如前所述,它们偶尔犯的错误凸显了它们在类型2能力上的不足。一个例子是图像识别模型的对抗性样本的生成。这些样本在输入数据中进行微小、几乎不可察觉的更改,导致模型输出的大幅变化。在极端情况下,即使人类眼睛无法察觉的单像素修改,也可能导致神经网络将物体完全错误地分类。例如,一只鹿可能被错误地分类为飞机,一个婴儿摇篮可能被错误地分类为纸巾。这种对抗性攻击在关键应用中引起了重大关注,比如在自动驾驶汽车中,那里的照明条件的轻微变化可能导致事故。

尽管深度学习取得了不可否认的成功,但人们自己在日常行动中也常常本能地、无需深思熟虑地执行许多操作。他们经常依赖简单的规则来应对不熟悉的情况。使用经典逻辑不一定是自然的;它必须通过有意识的努力来学习和应用。

一个简单的例子是,在存在复杂前提或处理包括不寻常否定的简单逻辑规则时,得出合理结论的困难(Evans & Handley, 1999)。因此,使用否定前件的演绎法,如:“如果字母不是B,那么数字是7。数字不是7。因此,字母是B”,比使用肯定前件的演绎法,如:“如果字母是B,那么数字是7。数字不是7。因此,字母不是B”,要困难。

同样的局限性也出现在诸如Wason选择测试(Wason, 1968)之类的测试中,该测试调查了演绎推理和条件推理能力。参与者面前有一组四张卡片,每张卡片的一面包含信息。这些卡片通常一面有字母,另一面有数字。参与者的任务是确定他们需要翻哪张或哪些卡片,以判断特定的条件规则(通常格式为“如果P,则Q”)是真是假。这个测试旨在揭示条件推理的反直觉性质,因为参与者在尝试确定要翻的正确的卡片时往往会犯系统性错误。例如,给定卡片:A D 3 7,和规则“如果卡片的一面是A,那么另一面是3”,只有大约10%的参与者选择A和7(P和非Q),而许多人只选择A(P),或者A和3(P和Q)(Evans, Newstead & Byrne, 1993)。

通过反事实推理识别复杂的因果关系也不是一件简单的事情。例如,在第二次世界大战期间,英国皇家空军希望保护他们的战斗机免受德国高射炮火的攻击。挑战在于确定飞机上装甲的最佳位置。基于返回飞机各部位弹孔数量的初步评估表明,应该在受损最严重的区域增加装甲。然而,一位有洞察力的数学家提供了不同的视角:他指出没有弹孔的区域实际上是脆弱点,因为那些被击中的地方的飞机从未返回基地。因此,装甲应该被放置在没有弹孔的区域,即引擎上(Ellenberg, 2015)。

目前有几种尝试将主要是神经类型1的系统与推理类型2的系统结合起来,形成混合的神经符号系统。虽然有许多有趣的论文讨论这个方向,但这个方向仍处于早期阶段。如前所述,推理组件可能不必然遵循数学逻辑的原则,而可能采用特定的人类认知机制。

这些能力的整合为人工智能/通用人工智能利用两种方法的优势提供了可能性,除了从现有数据中学习外,还提供了有意义的分析的可能性。这种结合有可能推动该领域的创新进步,并可能使我们更接近奇点,即机器超越人类智能的点。

17.2. Jackendoff的挑战

Ray Jackendoff(2002)为认知神经科学确定了四个挑战。它们是在语言处理的背景下提出的,但如果目标是设计表现出通用人工智能(AGI)的系统,它们也需要从一般意义上得到解决。

第一个是绑定问题,在第13节中讨论过。一些提议表明,神经放电同步(编码相关特征的神经元同时放电)可能解决这个问题。然而,当应用于像句子这样的语言结构时,由于多个元素之间的复杂相互联系,挑战变得更加深刻。

第二个挑战是2的问题,或者表示多个对象的问题。当句子中出现相同的单词或需要处理相同类型的实体时,就会出现这个问题。例如,在句子“The little star is beside a big star”中,不清楚单词“star”的神经激活如何区分它的两次出现。一个可能的解决方案是为每个潜在实体在记忆中复制单元,但当应用于更大的上下文或带有大型词汇量的句子时,会遇到可扩展性问题。另一种解决方案表明,工作记忆包含作为长期记忆指针的“虚拟”节点,并编码被指向项目之间的关系,通过时间同步绑定。然而,仍然存在关于这些提议的神经合理性以及时间同步在这种情况下的充分性的问题。

第三个挑战,变量问题,解决了使用现有的神经激活模型有效地处理关系和语言规则时编码类型化变量的限制。即使是像两个单词押韵这样简单的关系,也会导致在编码它们的关系时遇到困难。大脑不能列出所有可能的押韵;此外,人们即使在外语中也有在没有显式学习的情况下识别押韵的能力。基于现有押韵的类比和推理不会有效地扩展到新单词。相反,押韵必须被编码为具有变量的模式:“任何音韵字符串如果从重音元音到结尾在两个字符串中是相同的,并且重音元音之前的起始部分是不同的,那么它就和其他任何音韵字符串押韵”。

第四个挑战与工作记忆与长期记忆的绑定有关。在语言结构处理的记忆中,瞬时(STM)和持久(LTM)连接之间存在差异。人们认为短期连接与扩散激活或放电同步有关,而长期连接通常归因于突触连接的强度。然而,语言的组合性质带来了困难,因为瞬时和持久的连接可能编码相同类型的关系。例如,成语如“kick the bucket”(暗指死亡)需要存储在LTM中,因为它们有非字面意义,但它们具有与组合构建的短语(如“lift the shovel”)相似的句法结构。在语言处理期间检索时,两种结构都预期在大脑负责句法的区域有类似的实例化,这挑战了一种假设,即一种通过突触权重编码,另一种通过放电同步编码。STM到结构化LTM的转移,特别是在情景记忆中,给问题带来了额外的困难,因为在这种情况下,重要的元素似乎在仅发生一次后立即存储,而不是通过突触效能的逐渐加强。此外,神经编码的信息不能像计算机系统那样直接转移到另一个记忆区域。

尽管这是Jackendoff挑战之一,但我们应该在这里提到,通常接受的所谓“记忆巩固”理论是,STM事件主要存储在海马体中,然后在非快速眼动睡眠期间重放它们,以便向新皮层发送激活波,逐渐加强皮层联合,确保长期存储。然而,一次事件之后被记住一辈子的案例是否容易用这一理论解释,尚不清楚。有研究提出至少对理论的一些细节提供替代解释,因此我们可以说,从STM到LTM的确切转移机制尚未完全阐明。

以这样或那样的形式,前几节介绍的一些方法已被证明能够解决一个或多个这些挑战。尽管如此,人们仍需要找到一个统一的认知模型,能够一致地解决所有这些挑战。

17.3. 稳定性-可塑性困境

稳定性-可塑性困境是神经科学和认知科学中的一个核心问题,它涉及到大脑如何在维持稳定性和适应性之间保持平衡。大脑需要保持足够的稳定性来存储和回忆信息,同时又需要足够的可塑性来学习新知识、适应新环境和形成新的记忆。这种平衡是至关重要的,因为过多的稳定性可能导致难以学习新事物,而过多的可塑性可能导致记忆和信息处理的不稳定。这个困境对于设计能够模拟人类认知和学习能力的AGI系统来说是一个重要的考虑因素。

稳定性-可塑性困境指的是大脑中两种基本过程之间的平衡:稳定性和可塑性。稳定性指的是保留已建立的神经连接以及对新信息或经验变化的抵抗力。稳定的神经回路对于维持长期记忆、熟练掌握的技能和一致的认知功能至关重要。另一方面,可塑性是大脑改变和适应的能力。它涉及形成新的神经连接、加强或减弱现有连接,以及获取新的信息和技能。可塑性对于学习、记忆形成和从脑损伤中恢复至关重要。

过分强调稳定性可能会阻碍学习和适应,使得获取新知识或适应变化的环境变得具有挑战性。反之,过多的可塑性可能导致不稳定,造成重要信息的丧失和扰乱已建立的认知功能。在稳定性和可塑性之间找到正确的平衡对于大脑的最佳功能至关重要,涉及到允许大脑巩固重要信息的同时,保持足够的灵活性以融入新的学习经验的机制。

细胞组装方法(第6节和第7节)和ART模型(第15.1节)等技术,就是尝试解决这一挑战的方法。这些方法试图在保持认知一致性和适应性的同时,处理信息的稳定性和大脑的可塑性。通过这些机制,可以更好地理解大脑如何处理记忆、学习以及如何从损伤中恢复,这对于开发能够模拟人类认知和学习能力的通用人工智能系统具有重要意义。

17.4. 符号接地问题

符号接地问题(Harnad, 1990)是人工智能和认知科学中的另一个基本挑战。它涉及如何将符号——计算和通信中使用的抽象表示——与现实世界连接或“接地”,使它们能够携带人类可以理解的含义。在AI中,符号通常用来表示概念、对象、动作或思想。例如,自然语言中的单词是代表现实世界实体的符号。然而,符号本身缺乏固有的含义。它们是任意的,并且它们的意义来自于它们在特定系统或上下文中的使用方式。要真正有意义,符号需要与现实世界连接,它们指代特定的对象、品质或动作。这种连接使个体能够基于他们与物理环境的经验和互动来理解和操作符号。另一方面,像神经网络这样的连接主义方法不依赖于人工设计符号和规则。相反,它们可以从原始来源,如感觉数据中学习它们的表示。通过这种方式,神经网络可以克服符号AI特有的问题,例如在处理不一致或噪声时的脆弱性,以及大量的人类工程努力。神经网络学习到的表示在它们的输入数据中是接地的,与完全依赖于人类解释以连接现实世界概念的符号不同(Greff, van Steenkiste & Schmidhuber, 2020)。

18. 结论

到目前为止,我们已经涵盖了许多概念。与专注于特定子领域的“水平”综述不同,这篇综述采用了“垂直”方法。它旨在提供选定概念的全景视图,从低层次到高层次。同样重要的是承认,这不是穷尽的,关于每个主题还有其他有价值的贡献。所选作品是被认为对AI受众感兴趣的那些。

内容不是最初以自上而下的方式设计,而是以自下而上的方式逐渐积累,然后进行结构化,因为它总结了作者对神经符号方法的探索。这次探索的一个令人惊讶的发现是,尽管正在进行积极的研究,但支配大脑过程的基本认知机制仍然有点难以捉摸。各种模型试图阐明特定的机制,可以被视为一个仍需解决的更大谜题的各个部分。

这些概念可以作为构建智能计算系统的基石,这些系统能够处理信息、从经验中学习,并以类似人类的适应性和多功能性执行任务,弥合人类认知和人工(通用)智能之间的差距。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档