前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >慢神经元进行任意快计算的学习理论

慢神经元进行任意快计算的学习理论

作者头像
CreateAMind
发布2023-09-01 08:05:46
1190
发布2023-09-01 08:05:46
举报
文章被收录于专栏:CreateAMind

Latent Equilibrium: A unified learning theory for arbitrarily fast computation with arbitrarily slow neurons

摘要

物理计算元素的响应时间是有限的,神经元也不例外。在皮层网络的层次模型中,每一层都引入了反应滞后。物理动力系统的这一固有特性导致刺激的延迟处理,并导致网络输出和指令信号之间的时间不匹配,从而不仅影响推理,还影响学习。我们引入了潜在平衡,这是一种在慢成分网络中进行推理和学习的新框架,它通过利用生物神经元相对于其膜电位相位超前输出的能力来避免这些问题。该原理允许独立于网络深度的准瞬时推断,并且避免了对分阶段可塑性或计算昂贵的网络松弛阶段的需要。我们共同从一个预期的能量函数中推导出解开的神经元和突触动力学,该能量函数依赖于网络的广义位置和动量。由此产生的模型可以被解释为具有连续时间、泄漏神经元动力学和连续主动、局部可塑性的深层皮层网络中错误反向传播的生物学合理的近似。我们展示了标准基准数据集的成功学习,使用全连接和进化架构实现了有竞争力的性能,并展示了我们的原理如何应用于皮质微电路的详细模型。此外,我们研究了我们的模型对时空基底缺陷的鲁棒性,以证明其物理实现的可行性,无论是在体内还是在计算机上。

1 介绍

由大量简单但错综复杂的元素组成的物理系统可以展示强大的集体计算特性。一个主要的例子是动物的神经系统,最突出的是人类的大脑。它的计算能力已经激发了一个大规模的、跨学科的和持续的努力,在人造基底上模拟它的结构和动力学方面,目的是最终能够复制它的功能。这种系统中信息处理的速度取决于其组件的响应时间;例如,对于神经元,它可以是由其膜时间常数确定的积分时间尺度。

如果我们考虑由这样的元素组成的分级组织的神经网络,分级中的每一层都导致对变化的刺激的响应滞后。这种滞后带来了两个相关的关键问题。首先,这些系统的推理速度随着深度的增加而降低。反过来,这导致指导性信号和神经活动之间的时间不匹配,从而扰乱学习。例如,最近关于大脑中错误反向传播(BP)[1–4]的生物合理的实现的建议都需要某种形式的放松,无论是在推理中还是在学习过程中[5–11]。值得注意的是,这也影响了一些涉及辅助变量的纯算法方法[12]。为了处理物理动力系统的这种固有属性,已经提出了两种方法:或者是仅在某个松弛期之后才活跃的阶段性可塑性,或者是具有小学习速率的长刺激呈现时间。这两种解决方案都有明显的缺点:前者在异步、分布式系统(如皮层网络或神经形态硬件)中难以实现,而后者在构造上导致学习缓慢。这引发了一种批评,即任何需要这种稳定过程的算法都太慢,无法描述复杂的大脑功能,尤其是在涉及实时响应的时候[13]。据我们所知,这一基本问题影响了生物基质中所有近似BP的现代模型[5–11]。

为了克服这些问题,我们提出了一个新的框架,用于在具有慢分量的物理衬底上进行快速计算和学习。如下所示,这个框架联合解决了神经元计算的多个方面,包括神经元形态学、膜动力学、突触可塑性和网络结构。特别是,它提供了一个在具有连续时间、漏神经元动力学和局部、连续可塑性的深层皮质网络中BP的生物学合理的近似。此外,我们的模型易于在软件和硬件中实现,非常适合分布式异步系统。

在我们的框架中,尽管单个系统组件的响应时间有限,但推理可以任意快(达到有限的模拟分辨率或跨越物理距离的有限的通信速度);因此,下游对输入变化的响应实际上是即时的。相反,对生成局部误差信号的指导性自上而下输入的响应也是近乎瞬时的,因此有效地消除了对任何松弛阶段的需要。这允许从信号中进行真正的无相位学习,该信号在比单个网络组件的响应速度更快的时间尺度上变化。

类似于其他方法[5,6,9,14,15],我们从联合能量函数中导出神经元和突触动力学。然而,我们的能量函数旨在有效地理清这些动态,从而消除在放松时产生的破坏性相互依赖。这是通过引入一个简单但至关重要的新成分实现的:试图根据当前信息猜测未来状态的神经元输出,这是一个我们称为“前瞻性”的属性(不应该与预测编码中的“预测性”混淆,我们也将在下面讨论)。因此,我们的框架也在这种“慢”神经元网络和人工神经网络(ANN)1之间构建了密切的关系,从而使来自深度学习的各种辅助方法得以应用。

2 慢速组件的问题 (后续为部分内容节选)

由于输出误差需要输入在向后传播之前通过整个网络向前传播,输入层仅在大约2nτ m后观察到正确的误差,我们将此问题称为“松弛问题”。在下文中,我们提出了这个问题的解决方案,将前瞻性神经元动力学与持续活跃的局部突触可塑性相结合。

3 慢速基底中的快速计算

导数纳入系统输入-输出函数的想法在控制理论中有很长的历史[17],也代表了(单个)生物神经元的一个已知但经常被忽略的特征[18,19]。一个相关的,但不同形式的神经元的前瞻性也被认为是在其他模型的生物合理的BP从一个稳定的行动[20,21]。在具有加性高斯噪声的神经元群体的水平上,存在研究快于τ m响应的长期传统,包括具有[22]和不具有[23]循环连接的情况。类似的观察结果也适用于存在噪声的单个神经元[24,25]。基于这些见解,并将它们整合到神经元动力学和学习的统一理论中,我们的模型提出了一种特定形式的前瞻性编码,这种编码也可以通过局部适应机制来学习,正如我们在第6节中讨论的那样。

注意,即使对于功能前馈网络,我们得到的网络结构也是递归的,具有由顶点树的误差输入引起的反向耦合。作为一个非线性循环网络,它不能瞬间稳定到正确的状态;更确切地说,在数值模拟中,它快速地向一个估计的稳定活动状态跳跃,并在几次这样的跳跃中达到平衡(无限小的持续时间)。在实践中,饱和激活函数可以帮助避免强耦合下的病理行为。此外,我们可以在自上而下的信号上引入一个非常短的指数低通滤波器τ s,略大于模拟的时间分辨率。因此,在以连续时间运行的物理系统中,τ s也可以有效地变得无穷小,并且不影响信息通过网络传播的速度。特别是,正如我们下面讨论的,输入和输出之间的永久一致性允许我们的模型不断学习以减少损失,从而避免了对网络松弛阶段和精确定时可塑性机制的相关全局控制的需要

4 慢速底物中的快速学习

5 Fast computation and learning in cortical microcircuits

Due to the simplicity of their implementation, the principles of LE can be applied to models of approximate BP in the brain in order to alleviate the issues discussed above. Here we demonstrate how a network of hierarchically organized dendritic microcircuits [8, 34] can make use of our theoretical advances to significantly increase both inference and training speed, thus removing several critical shortcomings towards its viability as a scalable model of cortical processing. The resulting dynamical system represents a detailed and biologically plausible version of BP, with real-time dynamics, and phase-free, continual local learning able to operate on effectively arbitrary sensory timescales.

In this architecture, plasticity serves two purposes. For pyramidal-to-pyramidal feedforward synapses, it implements error-correcting learning as a time-continuous approximation of BP. For pyramidal-tointerneuron synapses, it drives interneurons to mimic their pyramidal partners in the layers above (see also SI). Thus, in a well-trained network, apical compartments of pyramidal cells are at rest, reflecting zero error, as top-down and lateral inputs cancel out. When an output error propagates through the network, these two inputs can no longer cancel out and their difference represents the local error ei.

This architecture does not rely on the transpose of the forward weight matrix, improving viability for implementation in distributed asynchronous systems. Here, we keep feedback weights fixed, realizing a variant of feedback alignment. In principle, these weights could also be learned in order to further improve the local representation of errors Section 7.

6 Robustness to substrate imperfections

7 Implications and limitations

8 结论

我们已经介绍了一个新的框架,用于由具有有限响应时间的计算元素组成的物理系统中的推理和学习。我们的模型基于四个简单的公理:预期编码(等式。1),神经元错配能量(方程式。2),神经元动力学下的能量守恒(方程。3)和在突触可塑性下能量的梯度下降(方程式。5).特别是,结合简单的、受生物学启发的前瞻性编码机制,使我们能够避免许多当前皮层近似BP模型固有的关键问题和可扩展性瓶颈。此外,我们已经证明了所得到的实现对基底缺陷的鲁棒性,这是在模拟神经元系统中部署的先决条件,无论是生物的还是人工的。

我们的框架对神经科学和神经形态硬件的设计都有意义。这里描述的预期机制将使生物回路的反应比以前设想的要快得多。此外,我们的框架表明,推理和学习都发生在预期的,而不是瞬时的神经元数量。从硬件角度来看,这消除了以前认为的慢速模拟器件的局限性(与数字器件相比),而不会降低其功效。

阅读原文参考完整原论文。

相关推荐:

AI分析框架

神经科学的深度学习框

Self-building Neural Networks 代码

一个epoch打天下:深度Hebbian BP (华为实验室)

神经突触算法结构图大全(13篇论文汇总)

在突触学习和计算目标之间建立精确关系的框架

树突脉冲神经元 开源模拟框架

人、鼠神经细胞差异对比 及神经元计算建模

大脑中复杂适应动力学的神经调节控制

DhPC 一个脉冲脑皮质计算理论

生物躯体稳态控制的第一原理

代码Unsup Visual Dynamics Simulation with Object-Centric Models

下一代神经网络深度学习 技术亮点梳理-换道chatGPT

脑网络结构高清大图

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-05-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档