JudgeLM：裁判各类大模型，仅GPT-4 1/120成本丨已开源

文章来源：企鹅号 - 智源研究院

越来越多的公司和研究机构开始构建或微调AI大模型。在AI得到不断发展的同时，如何在开放性场景评估LLMs（大型语言模型），也成为了一个具有挑战度和紧迫性的问题。

现有的基准和指标，已被证明难以在开放场景全面评估这些模型。智源团队通过构建出一种能够高效且准确地裁判各类大模型的裁判模型——JudgeLM，为这一问题提供了突破性的解决方案。

JudgeLM仅耗费相当于GPT-4的 1/120成本，就能提供与参考答案一致性达到90%的裁判结果。

▍JudgeLM 相关资源

github ：https://github.com/baaivision/JudgeLM

arxiv ：https://arxiv.org/abs/2310.17631

demo(33B) ：http://218.91.113.230:9004/

如下图所示，在JudgeLM没有出现之前，通过将答案与Groud Truth进行比较，传统的度量标准并不能准确评判模型生成的答案。而LLM评判模型作为一名大模型“裁判官”，它能够理解问题和答案，并给出准确的评分和理由。

在支持的评判场景上，JudgeLM可用于裁判大型语言模型在纯文本、多模态等多类任务下的综合表现，并可以通过多轮对话的形式阐述原因与改进意见。

图：JudgeLM可以应用的具体场景，包括二选一评判、给出评判解释、为答案打分、多选一评判、多轮问答评判和多模态评判

对于评判结果，JudgeLM被设计为可以输出“评分、判断和阐述理由”，即JudgeLM首先为答案对生成评分，然后从评分中获得评判结果“答案1获胜”、“答案2获胜”或者“平局”。如果需要，JudgeLM可以生成详细的评分理由。这种建模的优势在于，JudgeLM只需很少的时间来评分和判断，并且可以选择性地生成耗时的推理。

实验验证，通过引入了诸如交换增强、参考支持和参考去除等创新方法，JudgeLM与参考答案结果的一致性最高超过了90％（有时甚至超过人与人之间的一致性），是目前已知的裁判模型中最接近人类表现的，意味着它可以被视为一位稳健的大模型“改卷师”。

更进一步的，团队开发了3个不同参数版本的JudgeLM ，分别为70亿（7B）、130亿（13B）和330亿（33B）参数版本，以了解其在不同参数量水平上的能力和行为。

结果如下图，JudgeLM-7B在所有指标上都优于此前的裁判模型PandaLM-7B，整体指标超过了GPT-3.5。

而随着参数规模的增大，模型表现也出现大幅提升，最高33B版本在一致性上的表现达到了89.03（GPT-3.5为73.83），即拥有最强大的裁判能力。

除了构建JudgeLM模型本身之外，团队还开发了一个大规模、高质量的数据集，包含10万个用于训练的裁判样本和5千个用于验证的裁判样本，每一个都包含GPT-4生成的高质量评判，用来训练和评估JudgeLM的性能。

对于之后裁判模型研究来说，这一数据集将是深入研究大语言模型裁判的基石。

图：JudgeLM数据集的收集流程

具体到裁判效率上，JudgeLM-7B版本可以在仅使用8个A100 (40g) GPU的情况下，实现3分钟评估5,000个样本。

而且，与基于API的评判方法相比，JudgeLM被证明更具成本效益：使用GPT-4对JudgeLM的验证集进行评估（不生成评判原因），大约需要花费60美元。相反，JudgeLM-7B在成本仅为0.5美元的情况下完成了相同任务，成本仅GPT-4 的1/120。

秉承智源研究院开源回馈AI社区的传统，目前JudgeLM三个参数版本均已开源，欢迎需要进行大模型能力评估的团队进行体验、使用和反馈。

接下来，JudgeLM 团队会继续完善这一“裁判官”，以提供更准确、更高效、覆盖更多场景的大语言模型裁判，让大模型评估持续有“尺”可用。

发表于: 2023-11-102023-11-10 18:05:15
原文链接：https://page.om.qq.com/page/O8wwNDwPuk4JI_5JQlBXRokA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

JudgeLM：裁判各类大模型，仅GPT-4 1/120成本丨已开源

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐