近日,来自北大、通研院、北师大、北信科等单位的研究者针对社会科学问题——Diplomacy 外交游戏提出了一个新的 AI 智能体模型 Richelieu,且战胜了所有已有方法。Richelileu 模型能够不依赖于人类玩家数据,而自动不断自我进化。
图|项目主要研究人员(从左到右):孔祥宇、管振宇、钟方威(来源:课题组)
首先,该团队基于大语言模型设计了社会推理与子目标规划模块。社会推理可以让智能体更好刻画其他智能体所思所想及外交关系,为后续的决策和协商提供基础。将长期目标分解为多步小目标,就像是将复杂的拼图拆分成小块,一块一块地拼凑出完整的画面,使得智能体可以根据复杂环境变化动态调整策略。
其次,该团队引入了记忆增强模块,可持续存储历史交互记录,并对其进行归纳总结,减少冗余,类似于 RAG(检索、增强、生成),为大语言模型决策提供有效的上下文参考信息。这就像是给模型配备了一个智能的“记事本”,帮助它更好地记住和利用关键信息,是能力提升的关键引擎。
最后,该团队引入多智能体博弈机制,通过多个具有这种推理决策架构智能体间交互玩游戏,可自主产生丰富的游戏经验,这些经验可存储到记忆增强模块,将进一步促进模型能力的提升,涌现了多种复杂的交互行为。
图|以近现代欧洲为背景的外交游戏示例(来源:课题组)
这种基于多智能体博弈的自我提升机制对构建通用的社会智能体有着一定启发作用,特别是在智能体间关系复杂的交互场景下。一个直接的应用是可以对一些类似外交的场景进行推演模拟,辅助人类专家进行决策。还有一个有趣的应用前景是将该模型用于贸易谈判领域,特别是大型公司的采购部门,使用智能体可以自主与供应商进行谈判并决定采购哪些商品,以降低成本并实现公司的长期战略目标,同时避免可能的欺诈行为。即使只是作为一个辅助的 AI 助手,也能极大减轻相关工作人员的繁重工作,帮助公司作出更好的决策。
图|外交智能体的发展历程(来源:课题组)
据了解,AI 智能体(Agent)已经在 AlphaGo、StarCraft、DOTA 等游戏上战胜人类,但对于解决更复杂的多智能体交互与博弈问题仍不能完全胜任。
虽然近年来大模型使得 AI 模型能力进一步提高,然而一旦涉及复杂(如同时需智能体进行对话和决策)、长期目标的策略规划问题,大模型智能体囿于推理能力所限尚不能很好解决。
其中一个典型的任务即为外交(Diplomacy),每个玩家控制一个现代欧洲强国,通过与他国结盟达成攻城略地的目标。
基于此,本次研究团队探索了基于大语言模型的端对端智能体模型如何解决类似这种的复杂多智能体任务。
相关论文以《Richelieu:基于 LLM 的自我进化 AI 外交智能体》(Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy) 为题发表在人工智能领域顶会 NeurIPS 2024。
图|相关论文(来源:NeurIPS 2024)
在 Diplomacy 任务中,玩家需要与对手谈判达成合作实现其战略目标(如共同夺取他国土地),但谈判中允许任一玩家欺骗对手,这就要求智能体模型能够甄别对方意图,避免被欺骗陷入“背刺”的不利境地,这无疑增加了任务的复杂度。
虽然已有模型如 Cicero 为解决外交任务提供了一种可行的方法,但需要收集大量专业人类玩家数据进行模仿学习才能达到接近人类玩家的水平。
因此,本次研究希望能够在不依赖于人类专家数据的情况下,让智能体在交互中自我提升,自主完成该任务。
该团队通过实验发现,直接使用现有大模型(如 GPT-4 系列)无法达到面向长期目标的推理决策能力,难以直接用于解决上述任务,但通过引入基于多智能体自我对弈机制和合理的推理、记忆和反思机制可以使之成为可能。
图|Richelieu 模型框架(来源:课题组)
具体而言,研究团队基于大模型构建了一套能够根据历史经验自我提升的智能体架构,包括了社会推理、记忆、对话协商和任务规划等模块。任务规划模块通过给出决策目标,使之能够对长短期目标进行分解和规划。
在这种智能体架构的基础之上,只需要通过自我对抗就能以低成本方式大量生成交互数据,借此让智能体对这些记忆中的经历进行反思总结,从而使得智能体不依赖于难以获得的人类专家数据的情况下实现自我提升,最终在表现上超过了 Cicero。
研究中,研究团队将记忆与智能体反思机制结合,以从数据中提炼出有用信息,实现智能体不断进化迭代,以期最终达到能够对抗现有最好模型的水平。
因为实验主要以欧洲国家之间的外交进行,因此研究团队用现代外交之父、著名的法国宰相、红衣主教黎塞留(Richelieu)来命名所提出的模型。
实验结果表明,通过上述结构化设计,能够帮助现有不同的大语言模型智能体提升在外交(Diplomacy)上的复杂决策能力,并涌现了“合纵连横”的策略,获得高胜率。
据了解,研究团队在为模型取名的过程中曾经提出了很多方案,由于已有的方法已经用了古罗马外交家西塞罗的名字,因此他们认为,具备更强大能力的模型也需要一个更成熟、在世界外交史上地位更重要的名字。
于是,研究团队想到了中国战国时期的纵横家苏秦和张仪以及德国的铁血首相俾斯麦等,但准确地体现模型的外交才能和长期规划能力,以及考虑其到全世界的知名度,对于现代外交体系的贡献等。最终,他们选择了法国的红衣主教黎塞留(Richelieu)。
图|Richelieu 协商推理机制示意图(来源:课题组)
只要读过大仲马的名篇《三个火枪手》或者稍微熟悉欧洲近代史和世界外交史的朋友一定不会对这个名字陌生,正是黎塞留提出的很多外交原则成为了现代国际法的基石,他的灵活外交手段则领导原本并不是最强的法国(特别是与法国强大的对手哈布斯堡王朝相比)奠定了近代在欧洲大陆的主导地位,并催生了现代国际外交条约体系的开端《威斯特伐利亚条约》的最终签订。
图|Richelieu 模型可以有效进行长期的规划,以及甄别谈判中可能存在的欺骗行为的例子(来源:课题组)
而在未来,研究团队将尝试将 Richelieu 拓展到更多的多智能体谈判决策任务上,以及在社会科学中寻找更多的挑战性场景检验模型的性能,同时不断优化模型的推理架构,特别是从自己的对手身上学习的能力。
其希望构建通用的社会智能体,通过智能体间的仿真模拟,为社会科学的研究提供切实有用的启发或参考价值,甚至改变现有的社会科学研究范式。
钟方威补充称,社会人工智能(Artificial Social Intelligence)是一个很有前景但目前尚未充分得到关注的领域,也存在很多挑战。但智能体学习与人类社会演化不是孤立的,人类也是在社会中不断进化成长到今天的智能水平,这是一个有意义的研究领域,希望得到更多的关注和参与。
领取专属 10元无门槛券
私享最新 技术干货