首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

一项新的人工智能研究回答了大型语言模型是否对多项选择题中的选择顺序敏感?

大型语言模型(LLM)因其在各种任务上的出色表现而引起了广泛的关注。它们的开发方式使得它们在某些情况下经常优于监督模型甚至人类。尽管它们的功能令人惊叹,但先前的研究表明,许多功能限制可能会影响它们在现实世界中的实用性。这些模型对提示语言、少量演示以及这些演示的组织中的微妙之处的敏感性带来了相当大的性能问题。这种敏感性妨碍了对法学硕士能力的客观评估。

在 Megagon Labs 最近的研究中,一组研究人员研究了法学硕士在处理多项选择题方面的稳健性,这是测试其推理和事实检索能力的一项流行任务。调查的主要焦点是法学硕士如何应对多项选择测试中的选择重新排列。当答案选择发生变化时,经过彻底研究后,多个基准之间大约 13% 到 75% 的显着性能差异变得显而易见。

经过彻底分析后提出了一个假设,即当法学硕士不确定预测的前 2 个或前 3 个选项时,就会出现观察到的敏感性。由于问题措辞带来的位置偏差,某些选项的顺序可能有利于这些最佳选择中的某些预测。在前两个选项中可能会看到一些有趣的模式,这些模式要么强调要么减弱模型对某些选项放置的倾向。

为了强调偏见,团队使用了一种最佳策略,即从前两个列表中做出第一个和最后一个替代方案,以强调偏见。另一方面,有人建议将这些选择分散在周围的选项中,以消除偏见。已经进行了各种研究来验证假设的敏感性。此外,还使用了两种不同的校准技术来改进法学硕士的预测。多个模型和基准测试的性能提升高达 8 个百分点,带来了显着的改进。

研究提出了一些问题,包括敏感性程度,即MCQ中选项顺序对LLM的影响有多大,影响LLM敏感性的因素,以及如何增强LLM对选项顺序的稳健性?在五个不同的 MCQ 基准上,使用 GPT-4 和 InstructGPT 进行了实验来回答第一个问题。在零样本情况下发现灵敏度差距高达 75%。关于第二个查询,数据表明,职位偏见是导致法学硕士敏感的原因,因为当法学硕士不确定最佳选项中的最佳决定时,他们倾向于偏向特定的职位。为了回答最终的问题,研究表明,使用两种不同的校准技术极大地提高了法学硕士的成绩高达 8 个百分点。

总之,本研究强调了正视法学硕士对提示方面及其安排的敏感性的必要性。它通过检查法学硕士对多项选择题中重新排序选项的答案的微妙之处,揭示了法学硕士的决策程序。这肯定会提高法学硕士在现实环境中的可用性和可靠性。

一项新的人工智能研究回答了大型语言模型是否对多项选择题中的选择顺序敏感

论文:大型语言模型对多项选择题中选项顺序的敏感性

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OHlwHKSxca9adwW7GenYv6OQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券