你是否想过,如果有一天,当你面临人生重大抉择时,有一个AI助手能够为你提供决策甚至能帮你做出决定?
复旦大学和阿里巴巴的最新研究报告显示,大型语言模型(LLMs)正逐渐展现出其在模拟人类决策过程中的潜力。但它们真的能够替代人类,在关键时刻做出重要决策吗?本文将带你深入了解最新的研究成果,探索LLMs在模拟角色驱动决策方面的能力和局限。
作者单位:复旦大学,阿里巴巴 论文:Character is Destiny: Can Large Language Models Simulate Persona-Driven Decisions in Role-Playing? 链接:https://arxiv.org/pdf/2404.12138.pdf
If we can thoroughly understand all the causes, the future is not an unpredictable miracle but an inevitable result of the past. -Voltaire
"如果我们能够彻底理解所有原因,未来便不是不可预测的奇迹,而是过去不可避免的结果"。作者通过引用Vlotaire的出自"The Philosophy of History."的名言阐述了本研究的背景。
决策是人类活动的重要组成部分,每一个重要决策都反映了一个人的历史。而LLMs在模拟特定人物角色方面已取得显著进展,如理解人类行为、评估角色扮演模型和构建个人助理。
先前的基于LLMs的工作的决策过程仅限于简短而直接的背景,因此尚不清楚角色分配的LLM是否可以复制深思熟虑的行动的思维过程和心态,即他们的决策。LLM的角色驱动决策仍然是一个重要但未被充分探索的问题。
作者提出了NEXT DECISION PREDICTION,这是一项新任务,用于测试LLM在模拟目标人物角色的决策过程中的能力。NEXT DECISION PREDICTION任务示例如下图所示。
在情节细致的小说中,关键人物的决定通常是预示着他们的命运。因此正确的决策显得尤为重要。
具体来说,本文研究LLMs是否可以预测高质量小说中前面故事中人物的决定。利用文学专家撰写的人物分析,构建了一个由395本书中的1401个人物决策点组成的数据集LIFECHOICE。然后,我们用各种LLM和LLM角色扮演方法对LIFECHOICE进行了全面的实验。
作者使用Supersummary网站建立数据集,该网站提供文学专家对小说的高质量总结和分析。并使用GPT-4为关键人物设计了人生决策问题。数据集构建包括以下三个主要步骤:
完整的数据样本示例如下表所示
作者参考Aristophanes提出的戏剧理论作为系统提示,使用GPT-4将角色决策的动机分为两个元动机和几个伴随的子动机:
每个主题只分配一类动机,数据集中的不同动机比例如下图所示:
给定输入
=(D,S,C,Q,A),包括决策节点D之前的原书的先前文本内容、当前场景S、关注的角色C、概述该角色面临的决策的多选问题Q以及一组候选答案
。最终目标是确定与角色在叙事中的决定一致的正确选择Y。
这个任务可以公式化为
。对于评估,直接使用多项选择题QA的准确性。如下表所示:
与其他人物理解任务相比,LIFECHOICE需要通过过长的上下文来理解人物以进行选择。与个人LLM助手类似,该模型需要在与当前场景相关的大量稀疏个人数据中定位相关信息。这种行为需要对人物有更深刻的理解。
由于文本输入通常超过100k,LLM很难直接处理。本文的方法分为两个步骤:首先,将输入压缩到5k个tokens以下,以构建符合大多数 LLM 标记限制的配置文件。其次,将构建的配置文件和问题输入不同的 LLM 以进行响应。
Character Profile Construction:人物简介构建。通过参考角色扮演模型,并提出了两种基线方法。第一种方法将所有的上下文概括为对相应角色的描述,由角色的基本情况和故事情节组成。这提供了角色扮演过程中角色的整体刻画。第二种方法侧重于检索当前场景的记忆,这可以提供更多细节。具体可以划分为描述构建、内存检索以及二者合并的方法。
Reasoning the Answer:答案推理。在将原始输入X压缩为Character Profile之后,将其输入LLM。对于单独的方法,分别使用GPT-4作为最终的推理模型。对于联合方法,使用以下LLMs进行实验:Mixtral-8x7B-MoE、Claude2.1、GPT-3.5-Turbo和GPT4-Turbo。
在实验中,作者希望回答三个研究问题:
1. 对于第一个问题,下表中展示了数据集中基线方法对未来预测任务的准确性结果。
可以得出以下几个结果:首先,组合方法的性能优于单一方法的使用,这表明整体和详细的特征数据在最终决策中都很重要。其次,当提供gold explanation,时,准确性始终超过90%,表明这些解释在数据中的合理性。最后,在推理答案时,不同LLM之间的性能差距并不显著。这表明结果的主要因素是生成的个人资料,而不是推理能力。
2. 根据划分的动机类型,研究了不同类型的动机如何影响角色的决策。本文评估了三种场景:仅使用模型生成的描述,嵌入检索到的记忆,以及两者的组合。为了进行推理,统一使用GPT-4。结果如下图所示:
对于所有方法,需要连贯推理的任务,如谜题和奥秘,都没有得到很好的答案。这可能是因为这些问题需要多步骤的推理和来自各种记忆的细节。此外,当仅对简介使用描述时,情节驱动的问题的准确性较低。
相反,当只依靠记忆时,性格驱动的问题很难回答。我们认为这是因为描述中的人物总结更好地捕捉了人物的整体本质,而记忆则提供了对相关事件的直接访问。
同时,对小说类型是否影响模型性能进行了实验,结果如下图所示:
科幻小说、奇幻小说和言情小说的准确性相当高。这可能是因为这些小说中的人物往往是程序化的,或者具有固定的创作模式和原型。相比之下,犯罪和推理小说表现不佳,这可能是因为它们涉及复杂的逻辑链,并且这些小说中的人物经常采取不正常的行动。
为了验证专家手工注释的动机的有效性,进行了对比试验,如问题1结果所示,证明了手工注释动机的有效性。
"如果在这个时刻面对过去几年的决定,你会做出同样的选择吗?"本文对这个问题进行了研究。具体来说,通过随机抽取40个角色,一半是角色驱动,一半是情节驱动。使用GPT-4进行实验,结果如图5所示:
在早期阶段,大多数角色决策的准确性接近随机(25%),这可能是由于信息不足。随着信息越来越多,角色的决定往往更接近正确的选择。对于角色驱动的决策,准确性往往是稳定的。对于情节驱动,准确率可能会突然变化。这可能是由于角色相对稳定的特征,而一些突发事件可能会极大地影响角色的最终选择。
3. 针对问题2结论来看,模型在回答需要多个细节或多跳推理的问题时往往表现不佳,这可能是由于检索到的内存过于分散。因此本文提出了CHARacter MAPping Profile Synthesis(CHARMAP)方法,分两步构建更具体的场景配置文件。如下图所示:
首先,在获得模型生成的描述后,将其与问题一起输入到模型中,要求模型根据问题定位与当前场景相关的描述中的情节。其次,使用这些事件作为查询来检索相关的内存,然后将它们与描述一起输入到推理模型中。
如问题1中的结果表格和问题2中的图1所示,使用CHARMAP后的准确率比直接将描述与内存连接起来高6.01%。如图3所示,使用CHARMAP后,每类问题的准确率都有所提高,尤其是需要多跳推理的谜题类。可能是由于所提利用描述中对角色故事情节的整体描述,从而更好地检索相关记忆。
在这篇论文中,作者们的工作可以归纳为以下几个关键点: