智能体的记忆系统该怎么设计?大多数人的第一反应是选数据库:关系型、向量、图数据库,各有千秋。但这个思路从根本上就错了。
Plastic Labs 最近发布了一篇深度文章,提出了一个颠覆性的观点:记忆的本质是推理,不是检索。
传统方案把记忆当成静态存储。提取事实、向量化、存进去,完事。但这些存储的东西是死的。系统能不能用好它们,完全取决于检索策略是否恰好匹配当初存储时的上下文。这太脆弱了。
人类的认知系统是怎么处理记忆的?大脑在能量、信息、算力都极度受限的环境下进化,根本不可能完美记住所有东西。所以它发展出了一套基于预测和惊讶度的机制:先根据不完整的数据做预测,再用感官输入检验预测是否出错,然后修正下一轮预测。记忆不是静态数据的编码和提取,而是一个不断自我修正的内部模型。
社交认知也是同样的逻辑。你对一个朋友的“记忆”,不是一堆静态事实的集合,而是一个关于这个人的动态模型。每次互动都在更新、重新加权。这就是为什么人类能用极少的数据,在社交场景中做出恰当的判断。
问题来了:大语言模型没有人类的资源限制。它们不需要用预测和惊讶度来节省算力,可以直接做高保真的逻辑推理。演绎、归纳、溯因,这些对人类来说极其消耗认知资源的推理任务,对 LLM 来说几乎是零成本的。
所以正确的做法是:把记忆当成一个可训练的推理任务。用逻辑推理从用户和智能体的数据中提取洞察,形成原子化、可组合的结论,这些结论可以相互支撑、动态重组,在推理时合成出最优的上下文。
这种方法产出的是一棵逻辑推理树。它可以从任何节点进入和遍历,回答任何查询。新信息进来时,系统能即时推理出所有潜在的洞察。LLM 处理矛盾和更新时不会有人类那种认知惯性、情绪干扰或信念抵抗。
存储越少,计算越多。这才是 AI 原生的记忆系统该有的样子。
传统 RAG 把记忆当数据库查询,问的是“发生了什么”。预测框架问的是“什么有效”。前者是死的,后者是活的。
深入记忆这个兔子洞,你要么放弃,要么得出结论:必须为每个用户建模身份。这不是存储问题,是身份拓扑的精确映射问题。
blog.plasticlabs.ai/blog/Memory-as-Reasoning