首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >缸中之脑:神经模拟设计原则

缸中之脑:神经模拟设计原则

作者头像
CreateAMind
发布2026-04-03 09:34:53
发布2026-04-03 09:34:53
960
举报
文章被收录于专栏:CreateAMindCreateAMind

Brain in the Dark: Design Principles for Neuromimetic

《黑暗中的大脑:自由能原理下的神经模拟推理设计原则》

Inference under the Free Energy Principle

https://github.com/MLDawn/PC-network-NeurIPs-2024

https://arxiv.org/pdf/2502.08860

摘要

深度学习通过从原始数据中实现自动特征提取和函数近似,彻底改变了人工智能(AI)。然而,它面临着诸如缺乏分布外泛化能力、灾难性遗忘和可解释性差等挑战。相比之下,生物神经网络(如人脑中的神经网络)并不存在这些问题,这激发了AI研究人员探索神经模拟深度学习,其目标是在AI模型中复制大脑机制。这种方法的一个基础理论是自由能原理(FEP),尽管它具有潜力,但由于需要跨多个领域的跨学科理解,通常被认为在AI中理解和实现起来过于复杂。本文旨在揭开FEP的神秘面纱,并为设计具有类人感知能力的神经模拟模型提供一个全面的框架。我们提出了一个实现这些模型的路线图,并提供了一个Pytorch代码库,用于在预测编码网络中应用FEP。

1 引言

尽管被限制在头骨的黑暗中,人脑却拥有令人惊叹的能力,能够解释周围的世界,理解并分析外部环境,为不可预见的未来做计划,并做出能够改变事件进程的决策。大脑这种非凡的能力被认为源于其作为预测机器的功能,它不断地推断感觉输入背后的隐藏原因,以保持对环境的连贯理解。这种观点可以追溯到赫尔姆霍茨关于“感知作为无意识推断”的想法,并后来发展为“贝叶斯大脑”假设,它表明大脑作为一个复杂的统计器官运行。大脑根据传入的感觉数据更新其对外部世界的信念,并通过生成模型(GM)优化这一过程。这种生成模型使大脑能够推断出产生其感觉输入的外部环境的动态状态,以及这些输入产生的机制。本质上,大脑不断根据贝叶斯推断的原则,完善其对世界隐藏状态的概率信念。

更具体地说,给定一个感觉观测值y,感知的目标是推断出导致这一观测的最可能的世界隐藏状态x,这是通过贝叶斯定理实现的。自由能原理(FEP)是开发受大脑启发的计算最有前景的框架之一,它是一种信息论原理,认为大脑的运行是为了最小化一个称为变分自由能(VFE)的量。VFE为贝叶斯模型证据的负对数提供了一个上界,定义为 - ln(p(y|M)),其中M是生成模型(GM)。在某些假设下,VFE可以定义为大脑预测的感觉数据与实际接收到的感觉数据之间的差异。该原理表明,大脑试图减少这种差异以维持一种平衡状态,从而在不可预测的环境中保持“自我”的生存和持续存在。

尽管自由能原理提供了基础性的见解,但将其应用于神经模拟人工智能(AI)是具有挑战性的,因为它需要跨动态系统建模(通过状态空间模型(SSMs))、随机过程、概率论、变分微积分和神经科学等领域的跨学科理解。因此,由于追求这一研究方向所需的博学多才,只有少数人工智能研究人员使用自由能原理。进一步限制其在人工智能界广泛使用的是,自由能原理的最初实现是在Matlab*中完成的,这在人工智能界不如Python或Pytorch常用。为解决这些障碍,本文贡献了以下内容:

1. 一个准确且高效地使用自由能原理设计神经模拟AI的路线图。

2. 一个轻量级且基于CPU的Pytorch代码库,实现了在预测编码(PC)网络中的自由能原理[^†^]。

本文的其余部分如下:第2节介绍变分自由能和模型反演;第3节详细阐述了各种问题表述及其在基于自由能原理的神经模拟AI设计中的影响;第4节介绍预测编码并提供其数学表述;第5节详细介绍实验和结果。最后,第6节总结本文。

2 推理、学习和不确定性估计

为了使神经模拟人工智能模型能够在动态且不断变化的世界中有效运行,它必须能够持续适应新的感觉输入。为此,它需要一个生成模型(GM),以封装其对感觉数据背后隐藏的生成过程(GP)的理解。生成过程对模型来说是不可直接获取的,就像大脑无法直接感知头骨之外的真实外部世界一样。因此,确定世界的隐藏状态成为一个推理问题,模型需要从观察到的感觉输入中反向推导出生成过程。这涉及模型反演,使我们能够推断出最有可能生成给定感觉数据的隐藏状态。有趣的是,在人工智能和机器学习领域,研究的主要焦点常常集中在参数估计,而不是隐藏状态估计。

其中,DKL表示Kullback-Leibler散度。最小化变分自由能(VFE)有两个目的:一是近似模型证据,二是为选择不同的生成模型(GM)提供一个稳健的标准。由于VFE是关于q的泛函(即输入一个函数并返回一个标量),因此使用变分法进行最小化。

VFE平衡了两个相互对立的量:准确性(确保模型的预测与观测数据紧密匹配)和复杂性(惩罚过于复杂的模型以防止过拟合)。具体来说,复杂性衡量了模型对世界状态的先验信念

在观测到

后向近似后验信念

的偏移程度。通过最小化VFE,模型在拟合数据和保持简洁性之间实现了最优权衡,遵循了奥卡姆剃刀原则。

通过最小化VFE进行的推理过程赋予了神经模拟AI三个关键能力:(i)参数估计:学习生成模型的参数以最好地解释数据;(ii)精确度估计:估计隐藏状态和观测的精确度(逆不确定性),相关内容将在第4节讨论;(iii)状态估计:推断导致观测数据的隐藏状态。这三种能力对于构建能够适应和泛化不同情境的真正神经模拟AI系统至关重要,就像生物神经网络一样。然而,为了说明目的,我们专注于场景(iii),即

,同时保持生成模型的其他部分固定(即固定参数和状态/观测的精确度项)。

3 不同的问题表述及其影响

在设计生成模型(GMs)及其反演方法时,需要考虑各种不同的问题空间。本节探讨了不同的问题表述及其对基于自由能原理(FEP)开发神经模拟人工智能的影响。在以下内容中,我们讨论了离散时间、离散空间的马尔可夫链以及连续时间、连续空间的随机过程;其他表述方式超出了本文的范围。

4 预测编码

为了维持稳定性(即内稳态)并确保生存,像大脑这样的生物系统必须持续最小化其内部和外部状态的波动或熵。这一过程类似于最小化大脑对其感觉状态的“惊讶”,从统计学角度来看,这转化为最大化其感觉输入的贝叶斯模型证据——这一过程被称为贝叶斯滤波。预测编码[13,14]是一种突出且在神经生物学上可行的贝叶斯滤波方法,它将大脑的功能框架化为预测与误差校正之间不断的相互作用。在预测编码框架下,大脑被视为一个分层的生成模型,通过最小化预测误差来优化其对世界的内部模型。这些误差是大脑的预测(自上而下的信号)与实际感觉输入(自下而上的信号)之间的差异。大脑通过一个双重过程实现这一点:首先,生成关于感觉输入的自上而下的预测;其次,计算预测误差(自下而上的信号),这些误差用于更新这些预测。变分自由能(VFE)为贝叶斯模型证据提供了一个数学近似,在某些条件下,它等同于加权的预测误差。这是通过拉普拉斯近似实现的,该方法用更简单的高斯分布来近似复杂的模型分布。在变分范式下进行推理,可以得到变分拉普拉斯(VL),它以一种生物学上可行的方式高效地计算和优化VFE。在这个框架中,感知被概念化为通过持续更新沿着皮层等级向下传播的期望来最小化预测误差。预测从更深的皮层层流向更表层的层,而由此产生的预测误差则向上流动,完善大脑的期望并改善未来的预测。本质上,大脑作为一个自我校正系统,不断寻求减少其期望与感觉现实之间的差异,从而优化其对世界的内部模型。从数学上讲,预测编码可以被建模为一个分层状态空间模型,其中层次结构的每一层(共L层)代表一个抽象层次:

5 单层PC模型的实验与结果

我们展示了实验结果,证明了一个简单的单层预测编码(PC)网络如何从嘈杂的感觉输入中推断出外部世界的隐藏状态;实现细节包含在提供的基于CPU的Pytorch代码库中。所有实验均在一台个人笔记本电脑上进行,该电脑配备Intel® Core-i9处理器和16GB内存(RAM)。伪代码在附录D中提供。

6 结论

神经模拟人工智能(Neuromimetic AI)旨在赋予传统人工智能模型(例如深度学习)类似大脑的神经元消息传递和类人推理能力。自由能原理(FEP)是实现这一目标最有前景的方向之一。然而,由于其数学上的复杂性和多学科的性质,沿着自由能原理的路径探索神经模拟、理解它以及当然,实现它,仍然是研究人员面临的艰巨任务。本文详细阐述了基于自由能原理设计神经模拟人工智能模型的设计原则,该原理应用于预测编码(PC)网络。最后但同样重要的是,我们提供了一个基于自由能原理实现预测编码网络的Pytorch代码库,该网络模拟了人类的感知能力。

A 用于推理/学习的隐马尔可夫模型

B 关于运动的广义坐标

C 单层预测编码网络中的神经元消息传递

在本附录中,我们描述了一个单层预测编码(PC)网络如何通过神经元消息传递更新其对世界状态及其动态的信念。该模型通过自上而下的预测和自下而上的误差信号的结合,来完善其对世界隐藏状态及其时间动态的内部信念。

D 状态推断伪代码

算法1展示了在第5节中定义的隐藏状态估计问题的伪代码,其中生成模型(GM)是一个单层预测编码(PC)网络,生成过程(GP)是一个Lotka-Volterra过程。这意味着隐藏状态 x 和感觉 y 的维度等于2。伪代码是自解释的,然而,在第9行,我们有一个神秘的块矩阵 D,这需要进一步解释。

E Lotka-Volterra生成过程及其观测

图2展示了Lotka-Volterra生成过程(GP)的解,作为需要估计的隐藏状态 x(左侧),以及通过在 x 中加入有色噪声生成的观测值 y(右侧)。

F 变分自由能与变分拉普拉斯

G 实验进一步分析

图3的上半部分和下半部分分别展示了M1和M2的推断隐藏状态以及在整个推理期间自由作用的演变。

H 单层预测编码网络的生成能力

I 计算给定生成模型的近似变分自由能的梯度

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档