智猩猩GenAI整理
编辑:六一
在AI技术快速迭代的今天,大语言模型的"记忆能力"成为制约其发展的关键瓶颈。现有系统大多采用扁平化存储,难以实现真正的个性化交互和长期记忆。
为此,UCSD博士生王禹和纽约大学教授陈溪两位华人学者联合研发并开源了MIRIX记忆系统,这是全球首个真正实现多模态、多智能体协同的AI记忆系统。MIRIX通过六种专业记忆模块和多智能体架构,实现了AI对多模态信息的结构化记忆与精准调用。实验显示,MIRIX在ScreenshotVQA多模态任务中,准确率提升35%的同时存储需求降低99.9%,在LOCOMO长对话基准上以85.38%准确率达SOTA。
研究团队已发布配套应用程序,用户可直接在个人电脑上部署具备长期记忆功能的智能助手。值得注意的是,MIRIX系统在可穿戴AI设备领域展现出巨大潜力,其持续记忆特性为下一代智能穿戴设备提供了创新解决方案。接下来,我将从MIRIX系统的方法和实验维度为大家介绍这项工作的核心贡献。
论文标题:
MIRIX: Multi-Agent Memory System for LLM-Based Agents
论文链接:
https://arxiv.org/pdf/2507.07957
项目地址:
https://github.com/Mirix-AI/MIRIX
项目主页:
https://mirix.io/
方法
1.记忆组件
MIRIX设计了一个模块化的记忆架构,每个记忆组件都经过专门优化,分别处理不同类型的用户交互和知识信息,确保智能体能高效地进行检索、推理和行动。具体包括:
核心记忆:核心记忆采用双模块设计,专门存储高优先级的持久信息。
角色模块定义智能体的身份特征和行为模式;
人类模块则记录用户的个人偏好和身份标识等持久数据。
当记忆使用量超过容量的90%时,系统会触发重写过程,以保持紧凑性,同时不丢失关键信息。
情景记忆:情景记忆用于记录带有时间戳的用户行为事件和交互过程,形成结构化日志,使智能体能够推理用户的日常习惯、最近活动和上下文感知的后续行动。
语义记忆:语义记忆是MIRIX的知识中枢,它采用标准化模板(名称+摘要+详情+来源)记录两类核心信息:
通用常识(如:《哈利·波特》作者是J.K.罗琳);
用户社交图谱(如:约翰是爱慢跑的旧金山朋友)。
与情景记忆不同,所有信息除非被重写,否则一直存在,并支持对社交、地理或常识知识的推理。
程序性记忆:程序性记忆存储结构化的目标导向流程(操作指南、工作流程等),代表可随时调用的操作性知识,用于协助用户完成复杂任务。该记忆模块通过将用户目标拆解为可执行子任务,有效支持操作规划与自动化执行。
资源记忆:资源记忆处理用户正在使用的完整或部分文档、转录文件或多模态文件。例如,如果用户正在阅读朋友详细野餐计划或项目提案文件,智能体可以从资源记忆中存储和检索这些信息,使得在长期任务中能够保持上下文的连续性。
知识库:知识库用于安全存储敏感信息,如凭证、地址、联系信息和API密钥。这些条目通常不参与常规对话推理,但对执行认证任务或长期身份标识存储至关重要。高敏感度的条目通过访问控制加以保护,并限制随意检索,以防止滥用或泄露。
2.主动检索
传统记忆系统中记忆检索必须显式触发,否则默认使用参数化知识,导致模型易给出过时答案。
MIRIX创新性地采用两阶段主动检索机制:
智能主题生成:智能体自动分析输入内容生成检索主题;
多维度记忆检索:基于主题从六大记忆组件中智能提取相关信息。
检索结果会标注来源类型(如<情景记忆>),并自动整合到系统提示中,让模型既能识别内容本身,也能了解其来源。
3.多智能体工作流
为应对用户交互的动态性和异构性,MIRIX采用模块化的多智能体协同架构,通过协调高效的工作流,使用中央元记忆管理器统一调度一组专门的记忆管理器,每个记忆管理器负责维护一种记忆类型。
记忆更新工作流
记忆更新流程如下图所示:
当用户输入新信息时,系统自动检索记忆库,并将检索结果与输入内容一并提交给元记忆管理器进行分析。
元记忆管理器精准识别相关记忆组件,组件对应的记忆管理器进行并行更新,同时自动过滤重复信息。
完成更新后向元记忆管理器进行反馈确认,形成完整的闭环处理流程。
对话检索工作流
在对话交互中,聊天智能体首先自动检索六大记忆组件获取概要信息,随后分析查询意图,针对性地深度检索相关记忆组件并选择最优检索策略,最终整合信息生成回答。当查询涉及记忆更新时,聊天智能体会直接协调对应记忆管理器完成精准修改。
实验
为了验证MIRIX,研究团队还创建了ScreenshotVQA数据集(通过智能截取三名博士生1天到1个月的电脑屏幕活动,构建了87个经过验证的问答对),这是一个极具挑战性的多模态基准,每个序列包含近20,000张高分辨率计算机截图。
采用双指标评估体系:
准确率:基于LLM-as-a-Judge方法,通过对比生成回答与标准答案计算三位参与者的平均准确度;
存储效率:Gemini记录256×256缩放后图像总量,SigLIP统计原始2K-4K分辨率检索图像总大小,MIRIX则采用SQLite数据库存储提取信息,仅报告sqlite.db文件体积。
与检索增强型的基线模型SigLIP相比,MIRIX在准确率上提高了35%,同时将存储需求减少了99.9%。相对于长文本上下文的基线模型Gemini,MIRIX在准确率上提高了410%,存储需求减少了93.3%。
在一个仅文本输入的长篇对话基准LOCOMO上,MIRIX达到了85.38%的SOTA性能,远远超过了现有的基线,表现仅次于输入全上下文的性能!同时MIRIX还保持了高效和模块化特性,其组件化记忆管理和智能路由机制特别适用于长距离多跳推理任务。