前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024

70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024

作者头像
新智元
发布2024-05-14 14:24:46
1880
发布2024-05-14 14:24:46
举报
文章被收录于专栏:新智元
新智元报道

编辑:桃子

【新智元导读】大模型回答如何更可靠?MIT研究团队设计出「共识博弈」,将数学家常用的博弈论引入LLM改进中。没想到,LLaMA-7B的表现,击败了LLaMA-65B,甚至与PaLM-540B相媲美。

遇到一个问题用不同表达方式prompt时,大模型往往会给出两种不同的答案。

比如,「秘鲁的首都是什么」,「利马是秘鲁的首都吗」。

对于这种回答不一致的问题,科学家们纷纷为大模型的「智商」担忧起来。

正如了LeCun所言:

LLM确实比狗积累了更多的事实知识和语言能力。但是它们对物理世界的理解能力,以及推理规划能力,远远不及狗。

那么,有没有一种方式,能够破解大模型幻觉,让结果更加准确、高效?

来自MIT的研究人员,将「博弈论」的思想引入大模型的改进中。

他们共同设计了一个游戏,在游戏中,让模型的两种模式(生成式和判别式)相互对抗,努力找到它们可以达成一致的答案。

这个简单的博弈过程,被称为「共识博弈」(CONSENSUS GAME)。

也就是,让模型自我对抗,以提升LLM准确性和内部一致性。

论文地址:https://openreview.net/pdf?id=n9xeGcI4Yg

具体来说,这是一种免训练,基于博弈论的语言模型解码过程。

新方法将语言模型解码,视为一种正则化的不完全信息序列信号博弈游戏——称之为CONSENSUS GAME(共识博弈)。

其中,生成器(GENERATOR)试图使用自然语言句子,向一个判别器(DISCRIMINATOR)传达抽象的正确性参数。

然后,研究人员开发了计算程序,以寻找博弈的近似均衡,从而得到一种名为「均衡排序」(EQUILIBRIUM-RANKING)的解码算法。

在多个基准测试中,「均衡排序」策略在LLaMA-7B的表现中,明显超越LLaMA-65B,并与PaLM540B相媲美。

最新论文已被ICLR 2024接收。

谷歌研究科学家Ahmad Beirami表示,「几十年来,LLM对提示的响应方式一直如出一辙。MIT研究人员提出了将博弈论引入这一过程的新颖想法,开创了一个全新的范式,这有可能带来大量新的应用」。

游戏,不再单纯是衡量AI的标准

以往,通过机器学习在游戏竞赛中的表现,去判断某个AI系统是否取得成功。

而这样的案例,比比皆是。

1997年,IBM深蓝计算机击败了国际象棋特级大师Garry Kasparov,创下了所谓的「思考机器」的里程碑。

19年后,谷歌DeepMind发明的AlphaGo,在围棋比赛中一举战胜李世石。

五局比赛中获胜四局,揭示了人类在某些领域已不再独占鳌头。

不仅如此,AI还在跳棋、双人扑克,以及其他的「零和游戏」中超越了人类。

与以往不同的是,MIT团队而是选择从另一个角度来看问题——用游戏去改进人工智能。

对于AI研究人员来说,一款称为「Diplomacy」的游戏,提出了一个更大的挑战。

由Allan B. Calhamer于1959年设计的经典桌游

与只有2个对手玩家的游戏不同,Diplomacy游戏有7个玩家参与,每个人的动机都很难看透。

要想获胜,玩家必须谈判,缔结合作关系,但不得不提防的是,任何时候任何人都可能遭到背叛。

这款游戏如此复杂,以至于2022年,Meta团队发布的Cicero在40局游戏后,达到「人类水平」时,引发一阵轰动。

论文地址:https://www.science.org/doi/10.1126/science.ade9097

尽管Cicero没能战胜世界冠军,但它在与人类参与者的比赛中进入了前10%,表现足够优秀。

现在,论文作者Athul Paul Jacob是MIT的博士生,曾在Meta实习期间参与了这次研究。

研究期间,Jacob对Cicero依赖语言模型,与其他玩家进行对话的事实感到震惊。

他感受到了,尚未开发出的AI潜力。

Athul Paul Jacob帮助设计了「共识博弈」——为LLM提供了一种提高其准确性和可靠性的方法

于是,他便提出,如果将重点转移到,利用游戏来提高LLM的性能上会怎样?

1000场比赛,让LLM自我对抗

为了追寻这一问题的答案,2023年Jacob与麻省理工学院的Yikang Shen、Gabriele Farina,以及导师Jacob Andreas一起研究,什么可以促进「共识博弈」。

这一思想的核心是,将两个人之间的对话想象成一个合作游戏。

当听者理解说话者想要传达的东西时,就成功了。

尤其是,「共识博弈」的目的是,旨在协调LLM的两个系统——生成器和辨别器。

众所周知,生成器负责处理生成性问题,而辨别器负责处理辨别性问题。

经过几个月的研究,他们终于将这一原则,构建成了一场完整的比赛。

首先,生成器收到一个问题——可以来自人类,也可以来自预存在的名单中,比如「奥巴马出生在哪里」。

然后,生成器会得到一些候选响应,比如火奴鲁鲁(Honolulu)、芝加哥(Chicago)、内罗毕(Nairobi)。

同样,这些响应的选项,可以来自人类、列表,或是由语言模型本身执行搜索。

但在回答之前,生成器会先根据一次公平的随机掷币的结果,被指示生成正确或错误的答复。

如果结果为正面,那么生成器就会尝试给出正确的答案。

然后,生成器将原始问题,及其选择的回答,一并发送给判别器。

如果判别器判定生成器,是有意地发送了正确的回答,作为一种激励,它们每人得到一分。

而如果结果为反面,生成器就会给出它认为是错误的答案,那判别器看出它故意给了错误答案,它们将在分别得到一分。

这就体现了策略的核心点,即通过激励,让它们达成一致。

在这个博弈过程开始时,生成器和判别器都有自己对答案的「先验信念」。

这些「信念」以概率分布的形式体现,比如,生成器基于从互联网获取的信息,可能会认为:

奥巴马出生在火奴鲁鲁的概率是80%,芝加哥10%,内罗毕5%,其他地方5%。

当然判别器,也会有不同概率分布的「先验信念」。

虽然两个「玩家」会因达成一致而获得奖励,但如果偏离自己「先验信念」太多时,也会被扣分。

这样一来,可以鼓励「玩家」将从互联网获取的知识,融入到回答中,从而让模型更加准确。

如果没有这种机制,它们可能会就一个完全错误的答案(如Delhi)上达成一致,却仍然获得分数。

对于每个问题,这两个系统相互之间进行了大约1000场比赛。

在无数次迭代的过程中,双方都了解了对方的「信念」,并相应地修改了自己的战略。

最终,生成器和判别器开始达成更多共识,因为它们逐渐进入了一种称为「纳什均衡」(Nash equilibrium)的状态。

这可以说是博弈论的核心概念。

「纳什均衡」代表了游戏中的一种平衡状态,在这点上,任何玩家都无法通过改变策略,来改善个人结果。

比如,在石头剪刀布游戏中,当玩家选择三个选项的概率正好都是1/3时,才能获得最佳结果,任何其他策略都会导致更糟糕的结果。

在「共识博弈」中,「纳什均衡」可以通过多种方式实现。

比如,判别器可能会观察到,每当生成器将奥巴马的出生地回答为「火奴鲁鲁」时,它就会得分。

经过多轮博弈,生成器和判别器会学习到,继续这种作答方式会得到奖励,而没有动机改变策略。

这种一致的作答方式,就代表了对于该问题的一种可能的「纳什均衡」。

70B参数Llama,媲美5400亿参数PaLM

除此之外,还可能存在其他「纳什均衡」的解。

MIT团队还依赖于一种改进的「纳什均衡」形式,结合了玩家们的「先验信念」,有助于让回答结果更加贴近现实。

为了测试「共识博弈」的效果,研究团队在一些中等参数规模的语言模型(70亿-130亿参数)上进行了一系列标准问题测试。

经过训练后的这些模型,正确答案的比例明显高于未经训练的模型,甚至高于一些拥有高达5400亿参数的大型模型PaLM。

这不仅提高了模型的答案准确性,也增强了模型的内部一致性。

另外,在TruthfulQA(生成)的结果上,具有ER-G的LLaMA-13B优于或与所有基线持平。

研究人员在GSM8K测试集上,对不同方法的平均准确率进行了评估和对比。

除了greedy外,都是对20个候选回答进行了采样。

基于「均衡排序」的方法,其性能与多数投票基线相当,或者稍微好一些。

一般来说,任何LLM都可以通过与自身进行「共识博弈」从中获益。

最重要的是,研究人员成,只需在一台笔记本上,进行的1000轮「共识博弈」仅需几毫秒的时间,计算代价很小。

Omidshafiei表示,「这种方法非常高效,不需要对基础语言模型进行训练或修改」。

下一步,大小模型一起游戏

在「共识博弈」取得初步成功后,Jacob现在正在探索将博弈论,应用到LLM研究中的其他方式。

在这个基础上,他现在又提出了一种新的方法,暂称为「集成博弈」(ensemble game)。

在「集成博弈」中,有一个主模型(primary LLM),与若干个小型模型进行博弈互动。

这些小型模型中,至少有一个扮演「盟友」角色,至少有一个扮演「对手」角色。

问题出现时,比如法国首都是什么,如果主模型与「盟友」模型给出相同答案,主模型会获得分数。

如果与「对手」模型给出不同答案,也会获得分数。

通过这种与小模型的博弈互动,并不需要对主模型进行额外训练或改变参数,就可以进一步提升主模型的性能表现。

这种将大模型与多个小模型集成互动的新范式,让大模型可以借鉴小模型的优点。

同时还能相互制约,从而提高整体的准确性和一致性。

在未来,它将为提升LLM性能开辟了一种全新的思路和方法。

参考资料:

https://www.quantamagazine.org/game-theory-can-make-ai-more-correct-and-efficient-20240509/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【新智元导读】大模型回答如何更可靠?MIT研究团队设计出「共识博弈」,将数学家常用的博弈论引入LLM改进中。没想到,LLaMA-7B的表现,击败了LLaMA-65B,甚至与PaLM-540B相媲美。
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档