paper:Learning on Arbitrary Graph Topologies via Predictive Coding
摘要:
标准深度学习中的反向传播 (BP) 训练包括两个主要步骤:
将数据点映射到其预测的前向传播, 以及通过网络将此预测的错误传播回的反向传播。 当目 标是最小化特定目 标函数时, 此过程非常有效。
但是, 它不允许在具有循环或反向连接的网络上进行训练。 这是实现类脑能力的一个障碍, 因为新皮质中神经连接的高度复杂的异质结构可能是其有效性的基础。
在本文中, 我们展示了预测编码 (PC)这一皮层信息处理理论如何用于对任意图拓扑进行推理和学习。 我们通过实验展示了这种称为 PC 图的方式如何通过简单地刺激特定神经元来使用同一网络灵活地执行不同的任务。 这使得模型可以针对具有不同结构的刺激进行查询, 例如部分图像、 带标签的图像或不带标签的图像。 我们通过调查图的拓扑结构如何影响最终性能, 并与使用 BP 训练的简单基线进行比较来得出结论。
1 简介
经典深度学习通过训练深度神经网络来最小化目 标函数, 取得了显著成果。在这里, 每个权重参数都得到更新, 以使用反向微分[1, 2] 最小化此函数。然而, 在大脑中, 每个突触连接都会独立更新, 以使用局部信息纠正其突触后神经元[3]的行为, 并且不知道该过程是否最小化了全局目 标函数。
大脑维护着一个关于世界的内部模型, 它不断地对外部刺激做出预测。当预测与现实不同时, 大脑会立即通过更新突触连接的强度来纠正这个错误(现实与预测之间的差异) [4‐7]。这种称为预测编码 (PC) 的信息处理理论具有很大的影响力, 尽管大脑皮层的实验证据是混合的[8‐11], 它是计算神经科学中大量研究的中心[12‐16] ].
从机器学习的⻆度来看, PC 具有良好的特性: 它能够在分类[17]和记忆[18] 方面取得优异的成绩, 并且能够在自 下而上和自 上而下的方向上处理信息。
PC 还具有标准深度学习的泛化能力, 因为它能够在任何神经结构[20] 上近似反向传播 (BP), 并且 PC 的变体能够在任何计算图上精确复制 BP 的权重更新[21] , 22]。而且, PC只使用本地信息更新突触, 让网络完全并行化, 可以在任何拓扑结构的网络上进行训练。
在标准深度学习中不可能在任何结构的网络上进行训练, 其中信息仅通过前馈传递沿一个方向流动, 然后 BP 按顺序向后执行。如果在人工神经网络 (ANN) 的计算图中存在循环, BP 就会陷入无限循环。
更一般地, 任何函数的计算图是偏序集, 因此是非循环的。虽然使用 BP through time [24]在顺序数据上部分解决了某些特定循环结构的训练问题, 但对层次结构的限制可能会限制实现类脑智能, 因为人脑具有极其复杂和用小世界连接[23]进行异质组织的纠缠神经结构, 一种可能通过进化得到高度优化的拓扑结构。如图 1 所示, 这种结构性大脑网络的形状产生了一种独特通信动态, 这是大脑信息处理的基础,
因为网络拓扑的不同方面意味着不同的通信机制, 因此执行不同的任务[23]。大脑网络的分层拓扑激发了旨在开发任何拓扑图学习方法的研究。一个流行的例子是装配演算[25, 26], 这是一种赫布学习方法, 可以执行与认知现象有关的不同操作。
在这项工作中, 我们通过提出 PC 图来解决这个问题, PC 图是一种允许使用 Rao 和 Ballard [7] 的原始(错误驱动) 框架在任何有向图上进行训练的结构。然后, 我们通过在不同任务上测试同一网络来展示此类网络的灵活性, 这可以解释为对网络不同神经元的条件期望。我们的 PC 图框架使模型能够查询具有不同结构的刺激, 例如部分图像、 带标签的图像或不带标签的图像。这比标准 ANN 严格的输入‐输出结构要灵活得多, 标准 ANN 仅限于始终以相同格式显示数据和标签的场景。
请注意, 这项工作的主要目 标不是提出在特定任务上实现最先进(SOTA) 结果的特定架构, 而是将 PC 图呈现为一种新的灵活且生物学上合理的模型, 可以实现良好的效果同时对许多任务产生结果。在这项工作中, 我们研究了 PC 图的同时进行生成、 分类和关联记忆功能, 突出了它们相对于标准基线的灵活性和理论优势。我们的贡献简要总结如下:
1) 我们展示了 PC 图, 将 PC 推广到任意图拓扑, 并展示了如何通过简单地更改特定节点的值以多种方式查询单个模型来解决不同的任务, 而无需在任务之间切换时重新训练。 特别地, 我们定义了两种不同的技术, 我们称之为条件查询和初始化查询。
2) 然后我们在最一般的情况下通过实验证明这一点, 即对于完全连接的PC 图。在这里, 我们在 MNIST 和 FashionMNIST 上训练了不同的模型, 并展示了如何使用这两个查询来执行不同的生成任务。 然后, 我们在分类任务上测试模型, 并探索其作为联想记忆模型的能力。
3) 我们接下来研究不同的图拓扑如何影响 PC 图在生成任务上的性能, 将前馈、 循环和残差网络等常⻅网络架构再现为 PC 图的特例, 并研究所选结构如何影响生成任务的性能.最后, 我们还展示了如何使用 PC 图来推导流行的装配微积分 [25]。
2 PC 图
vertices V is partitioned into two subsets,
the sensory and internal vertices.
External stimuli are always presented to the network via sensory vertices, which we consider to be the first d vertices of the graph, with d < n. The internal vertices, on the other hand, are used to represent the internal structure of the dataset
完整内容请参考原论文。