IBM | 提出具有「情景记忆」的大模型：Larimar，无需训练，可快速更新模型知识！

ShuYini

发布于 2024-03-25 14:02:20

4560

引言

随着大语言模型应用场景的不断拓展，如何高效、准确地更新大语言模型 (LLM) 知识是当前急需解决的问题。为此，IBM研究人员提出了一种新型架构Larimar，其设计灵感来源于大脑，特别是海马体的情景记忆功能。Larimar通过分布式情景记忆系统增强了LLMs的能力，使知识更新既高效又准确。这种记忆系统支持动态、一次性的知识更新，无需进行计算成本高昂的重训练或微调。

https://arxiv.org/pdf/2403.11901.pdf

背景介绍

得益于大量的数据知识，预训练的大语言模型（LLMs）在各种自然语言处理（NLP）任务上表现出了超强的性能，人们通常将其被视为知识库。在实际应用过程中，为了让这些模型始终保持事实相关性、安全性和伦理性，我们需要不断地更新LLMs中的知识。所以，研究出能够快速更新LLMs内部知识的方法就显得尤为重要了，这样模型才能够跟上新的事实知识，消除偏见，避免出现大模型幻觉。

「模型编辑（LLM Editing）」应该从LLMs的“记忆”中移除那些不想要的、错误的、过时的信息，并可以选择想要的结果进行替换。同样地，快速更新LLMs的能力也能帮助解决输入上下文长度的泛化问题，尤其当数据集中含有较少长上下文实例时。之前，针对这个问题的解决方案是新数据集上对模型进行微调。但这种方法有过度拟合、灾难性遗忘的风险，因为知识是隐式地、分布式地编码在LLM的参数的。

当前，其实研究人员们已经提出了一些有效的LLM编辑方法。一种方法是：训练一个外部记忆模型与参数冻结的LLM进行联合；另一种方法是：定位LLM特征中的原始事实，然后进行局部参数更新。如下表所示，

这两种方法都面临着可扩展性的问题，主要是因为过度拟合以及需要对新状态进行再训练，这会降低模型编辑速度，除此之外，存储大量编辑所需的中间数据对内存提出了较高的要求。此外，即使是目前最先进的模型编辑方法，在同一框架进行事实编辑、选择性事实遗忘也是相当困难，而在人类大脑中，新信息的学习和旧信息的遗忘本质上是相互关联的。

相比之下，人类能够非常迅速地进行知识更新和泛化，这两者都符合在看到第一个相关实例后迅速学习的特点。在大脑中，这种快速学习被认为依赖于海马体及其情节记忆的能力。并且无论是语义记忆系统还是工作记忆系统，在处理顺序决策任务时都会遇到困难，而情节记忆系统却被发现是有益的。「互补学习系统（CLS）理论为大脑中耦合互补的快速（海马体）和慢速（新皮层）学习系统提供了理论基础，前者从单一实例中学习，而后者则对输入分布进行建模」。

为此，本文作者遵循CLS的观点，提出了一种新架构Larimar，是一种创新的大型语言模型（LLMs）架构，它融合了分布式情节记忆系统，以提高LLMs在知识更新和泛化方面的性能。Larimar的核心是一个动态的情节记忆模块，它作为全局存储，「能够一次性地更新知识」，避免了对模型进行昂贵的重新训练或微调。

Larimar

「Larimar」模型包括一个编码器和一个解码器，它们通过一个适应性记忆模块相连，如下图所示：

其中，「编码器」负责将输入数据转换到潜在空间，而「解码器」则将这些编码后的信息解码回输出空间。记忆模块的更新机制基于最小二乘解的线性系统方法，允许模型在接收新事实或编辑时快速响应。此外，Larimar实现了「基本的记忆操作」，包括写入、读取和生成，这些操作在生成模型中被视为推理过程，算法如下图所示：

为了提高操作的准确性，Larimar还包括了一个「范围检测器」，它能够判断传入查询是否与内存中存储的事实相关，从而决定是否使用记忆条件解码。在训练过程中，编码器、记忆模块和解码器是联合优化的，目标是最大化给定输入数据的条件对数似然。

在实现方面，研究者使用了BERT大型编码器结合GPT-2-large或GPTJ-6B解码器，以及一个512x768的记忆矩阵进行训练，分别命名为「Larimar-1.3B」和「Larimar-6B」。记忆操作的数学描述包括一系列算法步骤，如采样、计算地址权重和输出潜在向量等，以确保记忆的高效读写和生成。