前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >LLM能否依据角色的过去预测未来?一篇有趣的研究

LLM能否依据角色的过去预测未来?一篇有趣的研究

作者头像
zenRRan
发布2024-04-25 19:28:19
990
发布2024-04-25 19:28:19
举报

引言

你是否想过,如果有一天,当你面临人生重大抉择时,有一个AI助手能够为你提供决策甚至能帮你做出决定?

复旦大学和阿里巴巴的最新研究报告显示,大型语言模型(LLMs)正逐渐展现出其在模拟人类决策过程中的潜力。但它们真的能够替代人类,在关键时刻做出重要决策吗?本文将带你深入了解最新的研究成果,探索LLMs在模拟角色驱动决策方面的能力和局限。

作者单位:复旦大学,阿里巴巴 论文:Character is Destiny: Can Large Language Models Simulate Persona-Driven Decisions in Role-Playing? 链接:https://arxiv.org/pdf/2404.12138.pdf

研究背景

If we can thoroughly understand all the causes, the future is not an unpredictable miracle but an inevitable result of the past. -Voltaire

"如果我们能够彻底理解所有原因,未来便不是不可预测的奇迹,而是过去不可避免的结果"。作者通过引用Vlotaire的出自"The Philosophy of History."的名言阐述了本研究的背景。

决策是人类活动的重要组成部分,每一个重要决策都反映了一个人的历史。而LLMs在模拟特定人物角色方面已取得显著进展,如理解人类行为评估角色扮演模型构建个人助理

先前的基于LLMs的工作的决策过程仅限于简短而直接的背景,因此尚不清楚角色分配的LLM是否可以复制深思熟虑的行动的思维过程和心态,即他们的决策。LLM的角色驱动决策仍然是一个重要但未被充分探索的问题。

研究内容

作者提出了NEXT DECISION PREDICTION,这是一项新任务,用于测试LLM在模拟目标人物角色的决策过程中的能力。NEXT DECISION PREDICTION任务示例如下图所示。

在情节细致的小说中,关键人物的决定通常是预示着他们的命运。因此正确的决策显得尤为重要。

具体来说,本文研究LLMs是否可以预测高质量小说中前面故事中人物的决定。利用文学专家撰写的人物分析,构建了一个由395本书中的1401个人物决策点组成的数据集LIFECHOICE。然后,我们用各种LLM和LLM角色扮演方法对LIFECHOICE进行了全面的实验。

研究创新

  • 提出了NEXT DECISION PREDICTION,这是第一个评估角色分配 LLM 决策能力的任务
  • 构建了LIFECHOICE,一个用于NEXT DECISION PREDICTION的数据集。它是从文学作品中人物的人生选择中建构出来的,来源于专家的文学分析。此外,还提出了CHARMAP方法,它采用了基于人物角色的记忆检索来改进LLM角色扮演。
  • 通过广泛的实验,发现最先进的角色分配LLM在角色驱动的决策中表现出了出色的能力。

相关工作

  • Character Role-Playing:角色扮演。先前的基于LLMs的角色扮演的研究通常是为某个角色制作了聊天机器人,但更多的是从对话的角度模仿角色,这是一种肤浅的模仿。而本文的目标是从行为和决策的角度进行角色扮演。这种形式更考验LLMs对角色的理解。
  • Personal LLM assistants:个人化LLM助手。作者讨论了个人智能代理如何通过分析用户数据提供个性化服务,包括从用户的历史数据中提取个性特征和偏好,以增强模型的决策制定和推理能力。然而获取真实用户记忆数据的难度以及隐私问题,提出通过模拟小说文本中的历史数据来构建角色,以此作为个人智能代理的基准测试。

数据集

作者使用Supersummary网站建立数据集,该网站提供文学专家对小说的高质量总结和分析。并使用GPT-4为关键人物设计了人生决策问题。数据集构建包括以下三个主要步骤:

  • Selecting Available Novels:为了防止训练过程中的数据泄漏,作者使用以下标准过滤站点上的所有小说:(1)叙述必须排除非小说类型。(2) 叙事视角必须在第一人称或第三人称。(3) 叙事时间的进展应该是线性的,避免了具有复杂时间线或闪回的故事。应用 GPT-4 来解析并提取重要的决策节点及其动机。
  • Constructing Multiple-Choice QA Data:作者将完整的摘要、人物的决策节点和潜在的有影响力的章节文本输入到 GPT-4 中。目标是生成多项选择题,以捕捉人物决策过程的复杂性。每个选项都被设计成看起来是合理的,而只有一个选择——原始书中所做的决策是正确的。
  • Manual Filtering:邀请十名以英语为母语的大学生过滤所有数据。同时向注释者提供每个数据样本的相应摘要和人工分析,使他们能够确定模型创建的多项选择题是否具有挑战性和合理。

完整的数据样本示例如下表所示

数据分析

作者参考Aristophanes提出的戏剧理论作为系统提示,使用GPT-4将角色决策的动机分为两个元动机和几个伴随的子动机:

  • Character-driven motivation:性格驱动动机。角色驱动的行为围绕着角色的内心世界、个性和转变。性格驱动行为的子运动包括个性和特质、情绪和心理状态、社会关系、价值观和信仰以及欲望和目标。
  • Plot-driven motivation:情节驱动动机。情节驱动的行为源于一系列外部事件和冲突的展开。人物往往在更大的叙事结构中被动地做出反应,他们的行动由外部事件主导。情节驱动行为的子动机包括外部冲突、任务和目标、困惑和秘密、追求和逃跑、探索和发现、权力和控制以及阴谋和背叛。

每个主题只分配一类动机,数据集中的不同动机比例如下图所示:

任务设置

给定输入

\chi

=(D,S,C,Q,A),包括决策节点D之前的原书的先前文本内容、当前场景S、关注的角色C、概述该角色面临的决策的多选问题Q以及一组候选答案

A=\{A_i\}^4_{i=1}

。最终目标是确定与角色在叙事中的决定一致的正确选择Y

这个任务可以公式化为

P(Y|X)

。对于评估,直接使用多项选择题QA的准确性。如下表所示:

与其他人物理解任务相比,LIFECHOICE需要通过过长的上下文来理解人物以进行选择。与个人LLM助手类似,该模型需要在与当前场景相关的大量稀疏个人数据中定位相关信息。这种行为需要对人物有更深刻的理解。

实验

由于文本输入通常超过100k,LLM很难直接处理。本文的方法分为两个步骤:首先,将输入压缩到5k个tokens以下,以构建符合大多数 LLM 标记限制的配置文件。其次,将构建的配置文件和问题输入不同的 LLM 以进行响应。

Character Profile Construction:人物简介构建。通过参考角色扮演模型,并提出了两种基线方法。第一种方法将所有的上下文概括为对相应角色的描述,由角色的基本情况和故事情节组成。这提供了角色扮演过程中角色的整体刻画。第二种方法侧重于检索当前场景的记忆,这可以提供更多细节。具体可以划分为描述构建、内存检索以及二者合并的方法。

Reasoning the Answer:答案推理。在将原始输入X压缩为Character Profile之后,将其输入LLM。对于单独的方法,分别使用GPT-4作为最终的推理模型。对于联合方法,使用以下LLMs进行实验:Mixtral-8x7B-MoEClaude2.1GPT-3.5-TurboGPT4-Turbo

结果分析

在实验中,作者希望回答三个研究问题:

  • LLM能否根据历史数据做出决策?
  • 是什么影响LLM的决策?
  • 如何改进LLM的决策?

1. 对于第一个问题,下表中展示了数据集中基线方法对未来预测任务的准确性结果。

可以得出以下几个结果:首先,组合方法的性能优于单一方法的使用,这表明整体和详细的特征数据在最终决策中都很重要。其次,当提供gold explanation,时,准确性始终超过90%,表明这些解释在数据中的合理性。最后,在推理答案时,不同LLM之间的性能差距并不显著。这表明结果的主要因素是生成的个人资料,而不是推理能力。

2. 根据划分的动机类型,研究了不同类型的动机如何影响角色的决策。本文评估了三种场景:仅使用模型生成的描述,嵌入检索到的记忆,以及两者的组合。为了进行推理,统一使用GPT-4。结果如下图所示:

对于所有方法,需要连贯推理的任务,如谜题和奥秘,都没有得到很好的答案。这可能是因为这些问题需要多步骤的推理和来自各种记忆的细节。此外,当仅对简介使用描述时,情节驱动的问题的准确性较低。

相反,当只依靠记忆时,性格驱动的问题很难回答。我们认为这是因为描述中的人物总结更好地捕捉了人物的整体本质,而记忆则提供了对相关事件的直接访问。

同时,对小说类型是否影响模型性能进行了实验,结果如下图所示:

科幻小说、奇幻小说和言情小说的准确性相当高。这可能是因为这些小说中的人物往往是程序化的,或者具有固定的创作模式和原型。相比之下,犯罪和推理小说表现不佳,这可能是因为它们涉及复杂的逻辑链,并且这些小说中的人物经常采取不正常的行动。

为了验证专家手工注释的动机的有效性,进行了对比试验,如问题1结果所示,证明了手工注释动机的有效性。

"如果在这个时刻面对过去几年的决定,你会做出同样的选择吗?"本文对这个问题进行了研究。具体来说,通过随机抽取40个角色,一半是角色驱动,一半是情节驱动。使用GPT-4进行实验,结果如图5所示:

早期阶段,大多数角色决策的准确性接近随机(25%),这可能是由于信息不足。随着信息越来越多,角色的决定往往更接近正确的选择。对于角色驱动的决策,准确性往往是稳定的。对于情节驱动,准确率可能会突然变化。这可能是由于角色相对稳定的特征,而一些突发事件可能会极大地影响角色的最终选择。

3. 针对问题2结论来看,模型在回答需要多个细节多跳推理的问题时往往表现不佳,这可能是由于检索到的内存过于分散。因此本文提出了CHARacter MAPping Profile Synthesis(CHARMAP)方法,分两步构建更具体的场景配置文件。如下图所示:

首先,在获得模型生成的描述后,将其与问题一起输入到模型中,要求模型根据问题定位与当前场景相关的描述中的情节。其次,使用这些事件作为查询来检索相关的内存,然后将它们与描述一起输入到推理模型中。

如问题1中的结果表格和问题2中的图1所示,使用CHARMAP后的准确率比直接将描述与内存连接起来高6.01%。如图3所示,使用CHARMAP后,每类问题的准确率都有所提高,尤其是需要多跳推理的谜题类。可能是由于所提利用描述中对角色故事情节的整体描述,从而更好地检索相关记忆。

结论

在这篇论文中,作者们的工作可以归纳为以下几个关键点:

  1. 新任务提出
    • 引入了NEXTDECISIONPREDICTION任务,这是首次尝试评估大型语言模型(LLMs)在模拟人物驱动决策方面的能力。
  2. 数据集构建
    • 创建了LIFECHOICE数据集,包含来自396本书籍的1401个角色的关键决策点,用于测试LLMs是否能够通过历史人物数据重现实际的故事情节。
  3. 多维度分析
    • 对LLMs在新任务中的表现进行了多角度分析,包括考虑小说类型、人物动机和模型的解决方案方法。
  4. CHARMAP方法
    • 提出了CHARMAP方法,这是一种两步构建过程,旨在创建与当前场景更加相关的人物档案,以提高LLMs在角色扮演任务中的决策准确性。
  5. 决策行为的重要性
    • 强调了决策是人类复杂行为的重要部分,并表达了探索LLMs在个人决策中潜力的愿望。
  6. 评估标准
    • 讨论了建立角色扮演模型和个人LLM助理评估标准的重要性,这可能为未来LLMs在个性化服务和角色扮演应用中的性能评估提供基准。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 研究背景
  • 研究内容
  • 研究创新
  • 相关工作
  • 数据集
  • 数据分析
  • 任务设置
  • 实验
  • 结果分析
  • 结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档