最新论文证明，AI可以理解他人心理，并提出新方法来使得ChatGPT等AI理解推理能力提升20%

文章来源：企鹅号 - AI变革指南

人工智能（AI）已经在很多领域展现出了惊人的能力，比如语言生成、图像识别、自动驾驶等。

但是，AI是否能够像人类一样，理解他人的心理状态，也就是所谓的Theory-of-Mind（ToM）呢？

这是一个关乎AI是否能成为真正的智能代理的重要问题。

近日，来自美国和中国的研究者们，在arXiv上发表了一篇论文，探讨了这个问题，并提出了一种新的评估和提升大型语言模型（LLMs）在ToM（Theory-of-Mind，ToM）方面能力的方法。

LLMs是一种基于深度学习的AI模型，它可以根据给定的输入，生成自然语言的输出。目前，LLMs已经达到了令人惊叹的水平，比如GPT-4和PaLM 2等。

论文的作者们首先提出了一个新的评估LLMs的范式：Thinking for Doing (T4D)，它要求模型根据观察到的社会场景，利用ToM的能力，选择合适的行动。

例如，在一个故事中，有两个角色：Alice和Bob。Alice想要吃饼干，但是Bob把饼干藏在了一个盒子里。Alice离开了房间，Bob把饼干从盒子里拿出来放在桌子上。然后Alice回来了。模型需要回答一个问题：Alice会去哪里找饼干？

正确的答案是桌子上，因为Alice没有看到Bob把饼干移动的过程，所以她不知道饼干在哪里。这就需要模型具有追踪故事中角色信念的能力。

论文的作者们发现了现有的LLMs，在追踪故事中角色信念方面表现出色，但是在将这种能力转化为策略性行动方面存在困难。

分析揭示了LLMs的核心挑战在于，在没有被明确询问的情况下，识别与选择正确行动相关的关于心理状态的隐含推断。

例如，在一个故事中，有两个角色：Cathy和Dave。Cathy想要借Dave的笔记本电脑，但是Dave不想借给她。Cathy看到Dave把笔记本电脑放在一个抽屉里，并锁上了抽屉。然后Dave离开了房间，并带走了钥匙。Cathy想要打开抽屉，她应该怎么做？

正确的答案是找到钥匙或者撬开抽屉，但是这就需要模型推断出Dave不想借给Cathy笔记本电脑，并且锁上抽屉是为了防止Cathy拿走笔记本电脑。

为了弥合这一差距，论文的作者们提出了一个零样本提示框架：Foresee and Reflect (FaR)，它提供了一个推理结构，鼓励LLMs预见未来的挑战并思考可能的行动。

FaR将GPT-4在T4D上的表现从50%提高到71%，超过了其他提示方法，如Chain-of-Thought和Self-Ask。

此外，FaR还能泛化到不同的故事结构和场景，这些场景也需要ToM推断来选择行动，一致地超过了其他方法，包括少样本的上下文学习。

这篇论文是对LLMs在社会推理方面能力的一种探索和提升，也为未来设计更具有ToM和行动力的智能代理提供了一些启示。

论文地址：

https://arxiv.org/pdf/2310.03051.pdf

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货