前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >启示AGI之路:神经科学和认知心理学大回顾

启示AGI之路:神经科学和认知心理学大回顾

作者头像
CreateAMind
发布2024-07-05 11:12:27
1060
发布2024-07-05 11:12:27
举报
文章被收录于专栏:CreateAMind

A Review of Findings from Neuroscience and Cognitive Psychology as Possible Inspiration for the Path to Artificial General Intelligence

神经科学和认知心理学的发现回顾:作为通往人工通用智能之路的可能启示

https://arxiv.org/abs/2401.10904

摘要(仅粗略翻译5章 1.5万字)

这篇综述旨在通过研究神经科学和认知心理学方法,为人工通用智能的发展提供潜在的启示。尽管深度学习模型在各个领域取得了令人印象深刻的进展,但它们在抽象推理和因果理解方面仍然存在不足。为了超越数据驱动的局限性并以更接近人类智能的方式支持决策制定,这些能力最终应该被整合到人工智能系统中。这项工作是一项纵向综述,试图对大脑功能进行广泛的探索,从较低层次的生物神经元、尖峰神经网络和神经元集合,到较高级别的概念,如大脑解剖学、向量符号架构、认知和分类模型以及认知架构。希望这些概念可以为人工通用智能的解决方案提供见解。

关键词:尖峰神经元、细胞集合、神经科学、分类、认知架构、人工通用智能

1. 引言

人工智能(AI)近年来取得了显著进展,主要得益于深度学习模型的出现。这些模型在解决以往难以解决的复杂问题方面表现出了高效性,特别是在处理图像、声音和语言等主要处理领域。此外,深度学习通过发展生成模型,在内容生成方面取得了重大突破,使得文本生成、问答和图像合成成为可能。

深度学习模型的成功在各种应用中都有所体现。在图像处理中,这些模型在物体检测、图像识别和语义分割等任务中取得了显著成果,往往在特定场景中超过了人类水平的表现。类似地,在声音处理领域,深度学习算法展示了在语音识别和音频合成方面的能力,推动了虚拟助手的发展。此外,在自然语言处理领域,深度学习技术使得机器能够处理和生成人类语言,推动了机器翻译、情感分析和文本摘要等方面的进步。

生成模型代表了AI的重大进步,能够跨越不同形式生成新颖且逼真的内容。例如,基于文本的对话代理展示了生成一致且与上下文相关的回应的能力。另一方面,图像生成模型展示了根据文本描述生成高质量图像的能力。这些进步标志着AI系统表达能力的显著提升,以及它们在与人类进行创造性互动方面的潜力。

尽管取得了显著成就,深度学习模型存在固有限制,这些限制阻碍了它们朝向人工通用智能(AGI)的进展。当面对抽象推理和因果关系识别任务时,它们的缺陷变得明显。虽然深度学习方法在模式识别和数据驱动任务方面表现突出,但在理解导致观察到的模式的基础因果机制时往往困难重重。这种限制在要求高级抽象推理的任务中尤为明显,人类智能在这方面明显优于AI。

深度学习模型的另一个重大缺点是它们需要大量的训练数据才能实现良好的性能,这使得它们在数据稀缺、获取成本高或根本无法获取数据的情况下不太实用。相比之下,人类具备通过抽象推理、理解因果关系和利用简洁规则有效推广知识的能力。

实现人工通用智能(AGI)的道路在于解决这些限制。将推理和因果关系集成到AI系统中将是关键,使它们能够超越数据驱动的任务,做出类似人类推理能力的明智决策和推断。

此外,知识的积累在追求AGI过程中至关重要。除了从大量标记数据中学习外,AI系统还应具备类似人类常识的知识积累能力。这涉及到融入关于世界的背景知识、情境理解能力,以及基于先前经验和推理做出决策的能力。通过这种方式,这些系统可以更接近人类的能力,弥补不完整事实或在意外情况下行动的能力。

在本文综述中,我们将概述一些有潜力推动AGI发展的研究方向。尽管深度学习目前主导了AI研究领域,但重要的是要认识到一些可能未受到足够关注的领域。尽管这些领域似乎不在AI社区的关注焦点之内,但它们仍在积极进行研究。

此外,我们应强调将AI研究与神经科学和认知心理学领域相连接的重要性。从这些学科中汲取灵感可以提供新的见解和机会,使我们更接近实现AGI的目标。

然而,即使在神经科学和认知心理学的领域中,也存在明显的鸿沟,即微观神经功能细节与人类认知中观察到的宏观现象之间的差距。在一个极端,我们对单个神经元的内部运作和不同脑区功能有相当深入的了解。另一方面,认知心理学已经识别和描述了支持记忆、注意力和决策等复杂心理过程的高级机制。然而,一个重要问题仍然存在:神经元活动与高阶认知功能出现之间的联系仍然知之甚少。

我们的重点是描述大脑和心智功能的特征,涵盖了从低层基本原理到高级认知操作的范围。我们主要关注描述理论原理,而不是探索实际应用和计算优化,因为这些常常会掩盖基础研究的重要性。

需要注意的是,我们的目标不是提供每个概念的详尽描述,因为这个领域广阔而多样化。鼓励感兴趣的读者进一步深入探索这些方面。许多调查报告往往局限于特定领域或子领域。我们的意图是通过涉及更广泛的问题谱系,并尝试提供更全面的视角,来更全面地了解人类大脑及可能实现AGI的复杂旅程。

2. 生物神经元

我们将从描述单个生物神经元的行为开始,这是传递和处理信息的神经系统的基本构建模块。在第3节中,我们将介绍在这方面开发的一些计算模型。

2.1. 神经元的结构

神经元的主要组成部分包括细胞体、树突和轴突(图2.1)。细胞体,也称为胞体,是神经元的中心部分。细胞体内含有细胞核,其中包含必要的遗传物质,支持神经元的功能,以及各种细胞器,支持其代谢过程。

树突类似于树枝,从细胞体延伸出来,作为神经元的输入接收器。这些树突延伸接收来自其他神经元的电脉冲信号。

神经元内的关键决策点是轴突初段,位于轴突从细胞体发出的位置。在这里,来自树突的电输入被集成。如果这些输入的累积强度超过了某个阈值,将触发电冲动的启动,通常称为动作电位或尖峰。动作电位是一种“全有或全无”的事件,意味着它要么以完全强度发生,要么根本不发生。一旦在轴突初段生成了动作电位,它就变得不可逆,并沿着轴突单向传播。

轴突是一种长而像电缆的结构,负责将动作电位信号传递给其他神经元,通常跨越相当大的距离。这个过程确保了神经系统内部信息的传播。在轴突的末端,有专门的结构称为轴突末端按钮(或小结),它们将轴突信号传递给相邻神经元的树突。这种传输通常通过化学突触实现,轴突末端释放神经递质,进而在接收神经元的树突中引发电信号,继续神经通讯链。

重要的是要提到,这是关于神经信号传递的典型描述,但在大脑中存在神经元结构和连接类型的变化。例如,作为例外,有些神经元具有多个轴突或完全缺乏轴突,而有些突触是电性而非化学性的。

一般来说,可以将神经元视为一种探测器,通过评估其被连接检测的特定条件来对特定刺激做出反应。就像电子系统中的探测器一样,神经元识别并响应特定的输入模式。数学建模中的神经元激活(“全有或全无”响应)与二进制探测器的功能紧密相似,需要达到一定的输入阈值才能触发响应。

神经元是单个细胞,产生并传递电信号,而神经是由结缔组织围绕着的许多轴突束,作为在身体各部分和中枢神经系统之间传递这些信号的通道。

将神经元与其他类型的细胞进行比较,我们可以提到神经元是体内寿命最长的细胞之一。许多神经元在人的一生中存在并且通常不会被替换。相比之下,体内大多数其他细胞的寿命有限,通过细胞分裂不断被替换。此外,神经元不通过细胞分裂进行再生。因此,它们的再生能力有限;如果它们受损或死亡,通常不会通过细胞分裂而被替换,而是通过神经可塑性(调整神经元之间连接的结构)或其他神经元承担部分失去功能的过程。虽然存在新神经元的产生(神经发生),但其程度有限。

此外,神经元具有高代谢和能量需求,这是由于它们持续的信号活动以及维持跨其细胞膜的离子梯度所致,如下文所述。平均而言,大脑消耗了人体总能量的约20%,尽管它仅占总体重的约2%。

2.2. 化学突触的结构

接下来我们将描述化学突触的基本结构和运作方式(图2.2)。突触是神经元之间通信发生的微观连接点。它充当了从一个神经元传递冲动到另一个神经元的桥梁。

传递神经元被称为前突触神经元,接收神经元被称为后突触神经元,它们之间由称为突触间隙的小间隙分隔开来。当动作电位到达前突触神经元轴突的末梢按钮时,它会触发从特殊结构称为突触小泡中释放神经递质。释放的神经递质会扩散过突触间隙。在后突触神经元膜上,存在专门设计用于与神经递质结合的受体位点。这些受体位点类似于锁,而神经递质则起到钥匙的作用。

当神经递质与其受体结合时,它们会触发后突触神经元膜电位的变化。这种变化可以是兴奋性的,使后突触神经元更有可能产生动作电位,或者是抑制性的,使其 less可能。后突触神经元接收到的这些兴奋性和抑制性信号的综合效应决定了它是否会产生自己的动作电位,并继续沿神经途径传递神经冲动。

神经递质释放到突触间隙后,已经完成了从一个神经元到另一个神经元的信号传递,它们会被清除以终止信号并防止持续刺激。神经递质再摄取泵专门用于重新吸收它们回到释放它们的前突触神经元中。

2.3. 动作电位的形成

最后,我们将简要描述神经元中动作电位(AP)的形成过程(图2.3)。

在神经元的静息和放电过程中,电力和化学力之间的相互作用起着关键作用,涉及多种类型的离子,本文将仅关注钠(Na+)和钾(K+)离子的作用。

在神经元的静息状态下,大部分Na+离子位于细胞外,而大部分K+离子则位于细胞内。细胞外的Na+浓度约为细胞内的10倍,而细胞内的K+浓度约为细胞外的25倍(Henley, 2021)。这种浓度不平衡(或梯度)产生了强烈的扩散力,使离子倾向于形成更均匀的分布。然而,扩散力受到电力的抵消。当神经元处于静息状态时,电力和化学(扩散)力彼此抵消达到平衡(O’Reilly et al., 2012)。这就是为什么神经元的静息膜电位约为-70 mV(图2.3中的状态1),而不是零。

当神经元接收到传入信号时,Na+离子通过配体门控Na+通道进入细胞。这些通道在特定神经递质结合后打开。正离子的流入导致膜电位正向变化。如果膜电位保持在激活阈值以下,称为分级电位(图2.3中的阶段2),神经元不会产生动作电位。随后,神经元膜电位主要由正离子(如K+)的扩散离开细胞直到达到平衡,返回其静息状态。

然而,如果膜电位超过激活阈值,大约为-55 mV,这将触发电压门控Na+通道的打开。这些通道仅在细胞膜电位(电压)发生变化时才会打开。因此,Na+离子迅速流入细胞,使细胞膜的电荷反转。这个过程称为去极化(图2.3中的阶段3),并且它引发了动作电位的生成。去极化沿着细胞膜传播,促使电信号在轴突上传输。因此,膜电位达到了正值,大约为30-40 mV。

此时,电压门控K+通道也会打开。由于K+离子在神经元内部浓度更高,它们沿着电化学梯度流出细胞。这些正电荷离子的向外运动使神经元膜重新极化,这个过程称为复极化(图2.3中的阶段4)。

离子的运动取决于它们通过神经元细胞膜上的离子通道的电导率(电导率是电阻的倒数:G = 1 / R)。虽然Na+的电导率在图2.3中的动作电位形状中变化非常类似,但K+的电导率开始在稍后的动作电位峰值附近增加,经过复极化阶段的中点后达到最大水平,然后逐渐减少,但在细胞膜达到静息电位时并不达到最小值。

电压门控K+通道会保持打开稍长一段时间,导致超极化阶段(图2.3中的阶段5),这是由于K+离子的过度流出造成的。此外,神经元还具有K+泄漏通道,允许K+离子持续 passively 从细胞中流出,从而加剧了正电离子的流出。此时神经元进入不应期,这使得再次生成动作电位变得更加困难,因为需要更大的刺激来达到阈值。超极化允许神经元在响应另一个信号之前恢复。动作电位过多可能会有害,导致癫痫发作或心律失常等病症,而动作电位过少可能会导致肌无力、瘫痪或感觉和认知障碍等病理状态。因此,超极化在帮助细胞维持稳态(即确保稳定和相对恒定的内部环境)方面起着至关重要的作用。

随后,神经元膜电位再次回到静息状态,主要是由于正电离子(如Na+)通过膜内向外扩散,直到达到电化学平衡。

虽然所述的机制依赖于Na+的流入和K+的流出,单个动作电位的流动足够小,不会显著改变细胞内离子的浓度,因此也不会显著改变平衡电位。然而,长期来看,多个动作电位可能会逐渐影响离子浓度。维持静息状态的主要手段是钠-钾泵。Na+/K+泵是存在于所有动物细胞膜上的一种酶,其作用是将Na+从细胞内排出并吸收K+离子。在一个功能周期内,它交换3个Na+离子以获得2个K+离子(Byrne, 2023)。这是一个需要能量的主动过程。

因此,动作电位后K+和Na+浓度的小量耗竭是由Na+/K+泵恢复的。然而,这种补充并不需要立即启动下一个动作电位。在一个神经元内部,离子梯度足以生成大约10,000个动作电位,而无需依赖Na+/K+泵。

完整的动作电位周期持续时间很短,大约在1-5毫秒之间,具体取决于神经元类型和动物物种的不同。在大脑皮层中发挥重要认知功能的锥体神经元可以以每秒几个脉冲到超过100个脉冲的速率发放动作电位,这取决于任务和环境。

上述过程涉及兴奋性突触,增加了后突触神经元发放动作电位的可能性。在大脑中,还存在具有相反作用的抑制性突触。这类突触通过不同的机制运作。例如,兴奋性突触中主要使用的神经递质是谷氨酸,而抑制性突触中主要使用的是γ-氨基丁酸(GABA)。这两种神经递质在大脑中非常普遍,超过一半的大脑突触使用谷氨酸,大约三分之一使用GABA(Genetic Science Learning Center, 2013)。

抑制性突触的关键机制涉及氯离子(Cl–)的运动进入细胞。这些带负电的离子流入使神经元内部更加负电(超极化),远离触发动作电位所需的阈值。因此,神经元达到发放阈值的可能性降低。

2.4. 兴奋与抑制

虽然在多层感知器(MLP)中连接权重(对应生物神经元中的突触效能)可以是正或负的,但在大脑中神经元遵循戴尔原则(Eccles, 1986),即一个神经元不能同时具有兴奋性和抑制性突触。因此,我们可以认为生物神经元可以是兴奋性的或抑制性的。

兴奋性负责跨神经元之间的信号传输,支持信息的传播。兴奋性神经元在不同的皮层区域之间建立长距离连接,学习主要发生在它们之间的突触上。

另一方面,抑制性通过防止过度发放神经冲动和维持网络活动的平衡水平来控制神经活动。它对于时间精确性至关重要,同步神经发放,增强信号之间的对比度,调节网络振荡,并调整神经元对输入的敏感性。

在人类大脑皮层中,兴奋性神经元的百分比约为80-85%(Bratenberg, 1989; O’Reilly & Munakata, 2000; Nowak, Sanchez-Vives & McCormick, 2007),因此兴奋性神经元和抑制性神经元的数量比大约是4:1。

2.5. 大脑的复杂性

人类大脑是一个非常复杂的器官,具有广泛的神经机制。在这种复杂性的核心是大量的神经元和突触。成年人的大脑估计包含86 ± 8亿个神经元(Azevedo et al., 2019)。神经元之间通过大约100万亿个突触连接。平均而言,每个神经元大约有1万个树突接收来自其他神经元的输入,而轴突连接到大约1万个神经元以传递其输出(White, 1989; Abeles, 1991; Braitenberg & Schüz, 1998)。

此外,大脑由多种类型的神经元组成,每种神经元具有独特的特征和功能。在皮层神经元中,轴突可以长达数毫米,但人体中最长的神经元位于坐骨神经,其轴突长度可达60厘米。

神经通讯中涉及到100多种神经递质(Eliasmith, 2015),起着重要作用。除了前文提到的谷氨酸和GABA外,一些最为人熟知的神经递质包括多巴胺、5-羟色胺、乙酰胆碱和肾上腺素,每种都具有独特的功能和对行为及认知的影响。

神经元模型

今天最常见的人工神经元类型是感知器,它在各种形式的MLP神经网络中充当基本构建块。这也被称为点神经元模型。其输出表达为:

3.1. 霍奇金-赫胥黎模型

霍奇金-赫胥黎(Hodgkin-Huxley)模型是一个基础的数学框架,用于描述生物神经元的电生理特性。1952年,霍奇金和赫胥黎在巨型鱿鱼神经轴突上进行了一系列实验,该轴突直径约为0.5毫米,因此是研究的理想对象。相比之下,大多数鱿鱼和其他物种神经系统中的轴突要细得多,例如人类典型神经元的直径为1-2微米。

他们将神经元的电特性表示为等效的电路。一个电容器代表细胞膜,两个可变电阻代表电压门控的钠离子通道和钾离子通道,一个固定电阻代表由于Cl-离子而产生的小漏电流,三个电池代表由细胞内外离子浓度差产生的电化学电位。

该模型的基本方程为:

其中,Is代表刺激电流,Ii代表离子电流,表示为三种电流的总和 - 钠离子电流(Na+)、钾离子电流(K+)和漏电流:

门控变量n、m和h也由附加方程建模:

我们包含这些方程式是为了强调这一被广泛认可的神经元行为的数学模型的复杂性。然而,我们不打算深入讨论涉及的参数的含义和具体数值。这些参数在表3.1中简要列出(Nelson, 2004; Coombes, 2010; Wells, 2010)。

这些参数的值是近似的,以使方程式与实验数据吻合。我们应该提到,方程式(3.5、3.6、3.7)与原始论文(Hodgkin & Huxley, 1952)中的方程式略有不同,因为当前使用数值技术如欧拉方法来解决微分方程,而在1950年代,作者们不得不使用更为原始的方法进行手工计算(Wells, 2010)。此外,他们研究中使用的乌贼的动作电位数值与人类神经元中测量到的数值有些许不同(见图2.3)。

当没有外部刺激时,Hodgkin-Huxley模型的动态会达到稳定状态,即静息电位。因此,为了产生一个动作电流,必须添加一个刺激电流 Is。图3.1展示了在加入阶跃输入电流的情况下,Hodgkin-Huxley神经元的表现示例。

3.2. 伊热凯维奇模型

正如我们所看到的,Hodgkin-Huxley模型非常复杂。Eugene Izhikevich(2003年)设计了一个简单得多的模型,但却能够复现生物神经元中的大量行为。它仅由两个微分方程和一个非线性测试条件组成:

V和U被构想为无量纲变量;然而,通过将第一个方程中的系数与皮层神经元的动态拟合实验数据,可以将V解释为神经元的膜电位,而将U解释为考虑离子电流效应并对V施加负反馈的变量。该模型还为参数a、b、c和d提供了适当的值。通常阈值θ = 30。除了其用于模拟多种行为的潜力外,该模型的主要优势在于其计算效率。作者报告称,在1 GHz计算机上,可以以1毫秒的分辨率实时模拟数万个尖峰神经元(Izhikevich,2003)。

3.3. 积分-火和漏积分-火神经元模型

更简单的模型是漏积分-火(LIF)模型(Koch & Segev, 1998)。神经元的行为类似于一个积分器:当它接收到外部刺激或输入信号I时,其膜电位增加。膜电位随时间衰减,因此当没有刺激时,电压会缓慢返回到静息电位Vr。当电压V达到阈值时,神经元产生一个尖峰(动作电位),然后V被重置为Vr。类比于第3.1节中考虑的电路,LIF模型基于以下形式的微分方程(其中τ是膜时间常数,类似于学习率的倒数):

然而,软件模拟通常采用离散时间动态。因此,漏积分-火(LIF)模型的等效表述是(Jin et al., 2022):

在这个方程中,V代表膜电位或电压,I代表输入电流或刺激,α是泄漏或衰减因子,决定了膜电位随时间趋于零的速度。可以注意到方程(3.12, 3.13)模拟了一种标准化的活动,其中静息电位为0,产生尖峰的阈值为1。

可选地,在发生尖峰后,可以保持V = 0多n个时间步,模拟神经元无法产生另一个尖峰的不应期。在方程(3.12)中,α通常属于(0, 1)范围内,通常接近1(例如,0.9),而刺激I通常接近[0, 1]范围内的0,以允许多个时间步直到发生尖峰(例如,0.1或0.2)。

虽然比其他模型缺乏生物学细节,LIF提供了一种计算高效的方式来模拟尖峰神经网络。

更简单的模型是积分-火(IF)模型,它与LIF类似,但不包括衰减因子:

3.4. 尖峰频率适应

尖峰频率适应(SFA)是神经元中观察到的一种生理现象,即神经元在持续输入刺激下的射频率有逐渐减少的趋势。换句话说,当神经元接收连续输入时,其射频率逐渐降低,随着时间的推移生成的动作电位(APs)变少。这种现象也称为适应性,即神经元对输入的快速变化变得不太敏感,而对长时间尺度内发生的变化更为敏感。

当与LIF神经元结合使用时,SFA的思想转化为在神经元产生尖峰后增加其阈值,在没有尖峰发生时将阈值降低到其正常值(例如1)。以下方程描述了这一过程。使用θ(t)作为动态阈值,而不是1。β和γ是控制阈值增加和减少的参数。

Figure 3.2 展示了LIF神经元和带有SFA的LIF神经元之间的比较。从计算的角度来看,SFA可以具有各种功能上的影响,例如,它可以有助于调节在尖峰神经网络中兴奋性和抑制性信号之间的平衡(见第4节)。

3.5. 分区神经元

在许多模型中,包括多层感知器,突触被统一对待,没有考虑到特定的树突类型或树突处理。然而,与这种传统方法相反,分区神经元模型认识到区分不同类型的树突(即近端(基底)和远端(顶端))的重要性。在第10.1节中,我们将看到这种区分是如何应用于受到神经科学启发的分层时间记忆模型中。

近端(附近)树突靠近神经元细胞体,作为接收来自邻近神经元的传入信号的主要部位。远端(远程)树突从细胞体延伸得更远,通常进入神经元感受场的更远区域。

在(Schubert & Gros,2021)中,提出了一个两隔室模型,该模型解释了近端和远端输入之间的非线性相互作用。这项研究的主要动机是,皮质中生物锥体神经元细胞的一些动态特性无法使用简单的点神经元模型来重现(Spruston等人,1995;Häusser等人,2000)。当来自近端和远端来源的突触输入同时发生时,神经元表现出高尖峰活动,这比仅通过近端突触输入可能的最大放电率要大。这表明了一种远端和近端刺激之间的时间巧合检测形式。

这里提出的神经元模型是一个离散时间速率编码模型,即其输出表示神经元在某个时间步长的尖峰频率。实际上,这意味着它的输出是一个实数值,就像经典MLP神经元的输出一样。该模型假设两个不同的输入变量Ip(总近端输入)和Id(总远端输入)。它们可以是正数或负数,再次类似于MLP神经元的情况。隔室神经元的输出为:

该论文还在方程(3.21)中使用了某些阈值,但由于它们的值也被提供(例如,一些阈值被设置为0,另一个设置为-1),这些值被直接包含在内,以简化表达式。这个方程本身就是(Shai等人,2015)中描述的现象学模型的简化版本。

根据这个方程,在(Ip,Id)平面上有两个不同的神经激活区域,如图3.4所示。当输入电流Ip和Id都很大时,第二项占主导地位,导致y≈1。当Ip为正且Id为负时,会出现中等活动平台。因此,隔室模型区分了低活动水平的神经元(例如,在α=0.3时)和强烈爆发的神经元,其中最大放电率为1。在中等活动平台中,神经元在没有远端刺激的情况下处理近端输入。远端电流作为一个调制器。在图中,最大值为1的区域出现在右上角象限,两种类型的输入都处于活动状态,而值为α=0.3的区域出现在右下角象限。这意味着当只有近端输入处于活动状态时,只能达到最大放电率的30%。

4. 尖峰神经网络尖峰神经网络(SNN)旨在紧密模仿真实神经元的行为,强调神经信号的时间方面。与传统的多层感知器等人工神经网络不同,SNN使用离散事件(尖峰)来表示神经元激活。这些尖峰的时间和速率允许SNN捕获数据中精确的时间动态。

SNN的基本组成部分是尖峰神经元,它随时间累积输入信号,并在达到某个阈值时发出尖峰。神经元之间的突触连接由权重表征,这些权重决定了神经元活动对另一个神经元的影响。当一个突触前神经元发出尖峰时,这个脉冲(例如,归一化为1)乘以将其连接到突触后神经元的突触权重。然后,突触后神经元随时间整合加权输入。当其膜电位达到某个阈值(例如,也为1)时,它会依次发出尖峰,并重置其膜电位(例如,到0)。然后,这个尖峰通过相应的突触权重传输到其他神经元,影响它们的膜电位,依此类推。

4.1. 神经编码

SNN从生物神经元中获得比MLP更深入的灵感。神经元通信的一个重要方面是使用尖峰。生物神经元的另一个关键特征是稀疏性。神经元大部分时间都处于静止状态;在任何给定时刻,只有一小部分神经元处于活动状态。一个相关的概念是“静态抑制”(或“事件驱动处理”)。例如,在感觉系统中,神经元对输入的变化比对静态、不变的信号更敏感。这种对动态信息的响应性使大脑能够优先关注相关刺激,同时过滤掉恒定的背景输入(Eshraghian等人,2023)。这些原则导致了SNN中信号的编码和处理方式。

4.1.1. 速率编码

一种编码机制是速率编码,其中输入刺激x被转换为发射率或尖峰计数。输入的强度越高,产生的尖峰就越多。在这种方法中,感觉输入的强度对应于神经元的发射率。例如,更亮的光线导致更高的发射率,而更暗的输入导致更低的发射率。神经元在一定时间间隔内产生的一组尖峰被称为尖峰序列。在速率编码中,由于神经元的发射率是已知的(与x成正比)且恒定,因此产生的尖峰序列遵循泊松分布,用于描述在固定时间间隔内发生的事件数量。

设k为时间间隔内的总尖峰数,T为时间间隔的长度。那么平均发射率r = k / T。有两种常用的方法来生成泊松尖峰序列(Heeger,2000)。第一种是基于这样的想法:在一个短子区间Δt内发生尖峰的概率近似等于rt Δ。因此,总时间间隔被划分为一组短时间间隔(bin),并为每个bin生成一个均匀随机数ui ∈[0,1]。如果ui ≤ rt Δ,我们认为在第i个bin中发生了尖峰。

然而,这种方法的一个缺点是时间离散化。另一种方法是使用泊松过程的指数分布特性来计算尖峰之间的间隔,其概率密度函数为:

在实践中,可以生成均匀随机数ui ∈[0,1],并使用以下公式将它们转换为所需的指数分布:

与SNNs的特征离散尖峰不同,发射率是一个实数值,可以与MLP神经元的激活函数的输出进行比较。对于单个神经元,两者并不等同,因为SNNs中的尖峰序列包含MLP神经元的瞬时激活中不存在的时间信息。然而,在统计背景下,例如,通过分析SNN神经元群体,MLP神经元的激活可以被视为代表一组尖峰神经元的平均发射率。

4.1.2. 时间编码

另一种神经编码方法是时间编码。在这里,输入刺激的强度决定了尖峰何时发生。例如,首次尖峰时间机制将较大的刺激编码为较早的尖峰。

感觉系统中的神经元表现出对广泛动态范围内的刺激做出反应的巨大能力。因此,尖峰时间和输入特征强度之间经常使用对数关系。我们将在第11.1节中遇到这种对数关系,该节专门讨论大脑中数量(与数字相关的量)的表示。

时间编码作为一种神经策略,可以缓解速率编码的一些缺点。它使大脑能够快速准确地解码复杂的感官输入,这在需要快速反应时间的场景中是至关重要的。在感觉处理中,有一些情况,例如,速率编码太慢,无法提供人类受试者观察到的必要速度。这些情况包括:声音定位,短暂刺激需要快速响应,视觉编码,特别是在高对比度情况下的边缘检测,以及味觉和嗅觉系统中相似刺激的辨别。此外,大脑的能耗估计低于仅使用速率编码所需的情况。

虽然时间编码方案比速率编码更复杂,但我们可以提到,例如,在一种简化的形式中,(Park等人,2020)在名为T2FSNN(深度SNN的首次尖峰时间编码)的模型中提出的想法,具有编码和解码阶段。

编码阶段将动态输入(或膜电位)Vi转换为尖峰时间si:

其中i是神经元的索引,τ是时间常数,r是定义为后续解码(或发射)阶段开始时间的参考时间,δ是时间延迟。该模型假设一定数量的层,信号在层之间传播。τ和δ是每个层的可训练参数,但为了简单起见,它们可以对所有层具有相同的值。

在解码阶段,突触后神经元整合在前一阶段编码为单个尖峰的信息:

其中w是突触权重。神经元是IF神经元,因此它们在相应的时间连续整合每个尖峰,除了权重之外,由于指数变换,较早的尖峰具有更大的影响。

时间编码可以用于分类任务(Comșa等人,2020),基于其对应的输出神经元首先尖峰的类别。在生物学背景下,获胜神经元可以通过侧向抑制来抑制邻近神经元。在机器学习中,受抑制神经元的尖峰时间可以按后续尖峰的顺序建议替代预测。

相关文献还包括反向编码方法(Zhang等人,2019),其中输入刺激越强,相应的神经元就越晚发出尖峰。

4.1.3. 突发编码

速率编码和时间编码是神经编码过程的两个极端。然而,还有其他类型的编码。例如,在突发编码(Park等人,2019)中,考虑一个归一化的刺激x ∈[0,1],神经元在时间间隔T内产生的尖峰数为:

其中nmax是尖峰的最大数量,通常不超过5(Buzsáki,2012)。

这些尖峰然后在指定的间隔内均匀分布,尖峰间间隔(Guo等人,2021)为:

因此,x刺激越大,尖峰的数量就越多,但与速率编码不同,它们是均匀分布的。突发也会导致不遵循泊松分布的尖峰序列。突发编码的优点是,在噪声存在的情况下,它比单尖峰时间编码更可靠。

4.1.4. 比较

速率编码和时间编码提供了不同的优势。速率编码通过随时间出现多个尖峰提供了容错性。这种冗余减少了错过事件的影响。此外,速率编码产生更多的尖峰,在使用基于梯度的算法时,这增强了学习的梯度信号。另一方面,时间编码通过产生更少的尖峰来实现更好的功率效率。这减少了专用硬件中的动态功耗,并由于稀疏性而最小化了内存访问频率。时间编码在需要快速响应的场景中特别有效,因为单个尖峰有效地表示信息,使其成为具有时间限制的任务的理想选择。这与生物学中的观察结果一致,大脑通过神经元中的低平均发射率来优化效率。

4.2. SNNs的计算能力

Maass(1997)表明,就某些任务所需的神经元数量而言,SNNs在计算上比使用sigmoid激活函数的MLPs更强大。他还证明了SNNs和MLPs作为通用函数逼近器是等价的。

为了展示SNNs的(理论)优越性,他考虑了一个“元素不同性”函数ED:(ℝ+)n → {0, 1},定义为:

然后,他提出了一个不太直观的ED变体,定义为:

 如果存在k ≥ 1,使得x1, x2, x3, x3k+1, x3k+2, x3k+3具有相同的值,则为1; 如果ℝ+中长度为1的每个区间最多包含3个输入xi的值,则为0; 否则为任意值。

作者证明了这个函数可以由单个尖峰神经元使用时间编码来计算,因为它只需要在两个相邻的三个突触块接收到同步兴奋性电位时才发射。他还发现了sigmoid MLP所需的隐藏单元数量的下限,对于n = 10000,这可能超过1000。

这绝对是一个巨大的差异,有趣的是,它是针对检测输入之间相似性的通用问题的版本发现的。从同一类别中,我们有xor问题,它不能由单层感知器学习。

进一步推广SNNs的通用性,在(Vineyard等人,2018)中描述了使用时间编码实现几种基本算法,例如计算最小值、最大值和中位数,排序,最近邻分类,甚至更复杂的神经模型,自适应共振理论,将在后面的第15.1节中描述。

4.3. 讨论

SNNs和MLPs在结构、行为和应用方面表现出差异和相似之处。

一个关键的区别是,SNNs显式地模拟神经元尖峰的时序,模仿真实神经元的时间动态,而MLPs将输入数据作为静态快照处理,没有显式的时间表示。SNNs可以使用更符合生物学的学习规则进行训练(在第5节中介绍),这些规则可以根据尖峰的精确时序调整突触权重,而MLPs主要使用梯度下降算法,如反向传播及其现代变体进行权重更新。此外,由于SNNs的事件驱动处理特性,它们往往具有更高的能源效率,仅在必要时激活神经元,而MLPs通常需要连续计算,因此消耗更多资源。

然而,它们也有相似之处。SNNs和MLPs都由相互连接的神经元层组成,适用于分类、回归和模式识别等任务。在SNNs中,神经元基于膜电位的积累和发射阈值产生输出尖峰,反映了MLPs,其中神经元使用输入的加权和后跟一个激活函数来计算激活。这两种模型都依赖于输入累积的思想,并且它们都包括对这个净输入进行非线性转换的思想。

SNNs具有各种优点和缺点,这些优点和缺点会影响它们在不同任务中的适用性和性能。

讨论它们的优点,与传统神经网络(如MLPs)相比,它们表现出更高水平的生物学合理性。SNNs擅长处理时间信息和序列,使它们适用于涉及语音识别、事件预测和时间序列分析的任务。它们通过尖峰模式编码时序的内在能力在事件顺序和时序至关重要的场景中提供了显著的优势。SNNs还表现出对输入噪声的鲁棒性,依赖于随时间推移的尖峰模式,而不是确切的连续值。

然而,SNNs也存在一些值得注意的缺点,需要加以考虑。首先,它们的复杂性是一个突出的挑战。与传统的NNs相比,开发和训练SNNs本质上更加复杂。在大规模网络中,由于硬件限制,可扩展性可能是一个问题。SNNs的学习和训练过程,特别是当使用生物学上合理的学习规则时,可能比MLPs中使用的反向传播变体更慢、更困难。此外,SNNs通常依赖于稀疏表示,这可能导致在某些应用中过度拟合或未充分利用可用资源。最后,SNNs的可解释性和表达能力带来了挑战。尖峰模式和网络行为之间的复杂关系可能使解释和理解SNNs的内部表示和决策变得更加困难。

尽管尖峰神经元是现实大脑建模的基础,但如果目标是解决认知能力,直接使用它们可能过于底层。这可能就像用汇编语言编写智能算法一样。这就是为什么,在第7节中,我们将描述在神经元组级别上运行的模型,称为“细胞集合”。

5. 学习规则

在本节中,我们将介绍几种神经网络的学习规则,这些规则比经典的反向传播算法及其最近的扩展更具生物学合理性。

反向传播被认为不具有生物学合理性,因为错误传播是通过与神经元激活不同的机制发生的。在等效的生物环境中,需要一个全局错误信号,提供关于网络实际性能与期望输出相比的信息,该信号需要从突触后神经元的树突传播到突触前神经元的轴突。实际上,这种通过网络向后传播以调整权重的明确的全局错误反馈并不存在,尽管确实存在错误后发生变化的想法。此外,梯度编码的实际数量没有生物学对应物。

总的来说,大脑中的学习依赖于更局部的学习规则,神经元根据邻居的活动模式调整它们的连接。

单层感知器中使用的简单delta规则可以被视为生物学上合理的,因为权重的变化取决于局部错误。正是通过MLP的隐藏层的梯度传播不太合理。

生物突触也表现出各种形式的可塑性,包括神经元尖峰的时间,这些可塑性更复杂,通常涉及超出简单基于梯度的调整的多个因素。

5.1. Hebbian学习Hebbian学习描述了一种基于突触可塑性的基本学习原则,即神经元之间连接(突触)的强度能够响应神经活动而改变。它以唐纳德·赫布的名字命名,经常被总结为著名的短语:“一起激发的细胞(神经元),一起连接”。

Hebb的规则实际上是这样表述的:“当细胞A的轴突足够接近以激发细胞B,并反复或持续地参与激发它时,一个或两个细胞中会发生某种生长过程或代谢变化,使得A的效率,作为一个激发B的细胞之一,得到提高”(Hebb,1949)。简单来说,如果两个神经元经常同时活跃,它们之间的突触就会加强。如果神经元A总是在神经元B之前激发,那么从A到B的突触就会变得更强,使得A的活动在未来更有可能触发B的活动。

这一原则基于这样一种观点,即大脑中的学习和记忆形成是频繁一起激活的神经元之间连接加强的结果。

从计算的角度来看,这种学习规则通常是无监督的,涉及具有图5.1所示结构的网络。我们在这里介绍它对具有静态行为的神经元的应用,例如MLPs中的神经元,而不是尖峰神经元。这些神经元通常是简单的,具有线性激活函数。

完整内容请阅读原文。

Abbreviations AGI: artificial general intelligence AI: artificial intelligence ALCOVE: attention learning covering map AP: action potential ART: adaptive resonance theory ATRIUM: attention to rules and items in a unified model BG: basal ganglia BSC: binary spatter code CA: cell assembly CLS: complementary learning system CNN: convolutional neural network COVIS: competition between verbal and implicit systems DBN: deep belief network DFT: discrete Fourier transform DIVA: divergent autoencoder DPAAN: dynamically partitionable autoassociative network EpCon: episodes to concepts ESN: echo state network ESP: echo state property FHRR: Fourier holographic reduced representation fMRI: functional magnetic resonance imaging GABA: gamma-aminobutyric acid GCM: generalized context model HAM: human associative memory HDC: hyperdimensional computing HRR: holographic reduced representation HTM: hierarchical temporal memory HV: hypervector IDFT: inverse discrete Fourier transform IF: integrate and fire kWTA: k winners take all LCA: leaky, competing accumulator LEABRA: local error-driven and associative, biologically realistic algorithm LIF: leaky integrate and fire LSM: liquid state machine LTD: long-term depression LTM: long-term memory LTP: long-term potentiation MAP: multiply, add, permute MLP: multilayer perceptron MTL: medial temporal lobe NBP: neural binding problem NEF: neural engineering framework NMDA: n-methyl-d-aspartate NN: neural network NVAR: nonlinear vector autoregression PCA: principal component analysis PFC: prefrontal cortex PSCM: problem-space computational model RBF: radial basis functions RBM: restricted Boltzmann machine RC: reservoir computing ReLU: rectified linear unit RL: reinforcement learning RP: random projection RULEX: rule plus exception model SDR: sparse distributed representation SFA: spike frequency adaptation SNN: spiking neural network SOAR: states, operators, and reasoning SPA: semantic pointer architecture SR: successor representation SSE: sum of squared errors STDP: spike timing dependent plasticity STM: short-term memory SUSTAIN: supervised and unsupervised stratified adaptive incremental network SVM: support vector machine SVS: spatial-visual system T2FSNN: time to first spike coding for deep spiking neural networks TEM: Tolman-Eichenbaum machine TPR: tensor product representation VSA: vector symbolic architecture WTA: winner takes all

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档