首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >潜力发掘!INSTRUCTEVAL:一个专用于的大型语言模型(LLMs)的全面评估方法

潜力发掘!INSTRUCTEVAL:一个专用于的大型语言模型(LLMs)的全面评估方法

作者头像
ShuYini
发布2023-09-14 16:25:16
发布2023-09-14 16:25:16
5930
举报

引言

 指令调优大型语言模型(LLMs)彻底改变了自然语言处理,不仅如此它们还可以解决数学、计算机编码、生物医学和法律等领域的复杂任务。例如:GPT-4、LLaMA、chatGLM等。虽然此类模型具有很强的下游任务适应能力,但由于模型的黑盒性质对于模型整体能力的评估仍然存在挑战。为此,今天给大家分享的这篇文章:提出了一个「专门针对指令调优大型语言模型的全面评估方法INSTRUCTEVAL」,该评估方法可以从问题解决、写作和人类价值对齐等三个方面对模型进行全面评估。

Paper:https://arxiv.org/abs/2306.04757

Code:https://github.com/declare-lab/instruct-eval

背景介绍

 指令调优大型语言模型(如 ChatGPT、LLaMA、ChatGLM、GPT-4)的出现是自然语言处理 (NLP) 领域的一个重要转折点。从聊天助手到复杂的问题解决,它们的能力在许多应用程序中都具有很好的表现。就拿目前全球最强GPT-4模型来说,它不仅在语言理解方面,而且还在数学、编码、医学和法律等不同领域都表现出很强的能力。然而,虽然此类模型具有很强的语言理解能力和下游任务适应能力,但我们对此类模型潜在能力并没有一个全面的理解。「出现这种情况的主要原因是许多模型的black-box性质,以及目前对于指令调优大型语言模型缺乏深入和整体的评估研究」

 为了应对这些挑战并更深入地了解这些模型的功能,本文引入了一个名为INSTRUCTEVAL的新型评估套件。该套件专用于对指令调优大型语言模型的全面评估,相比之前对LLMs的评估方法,该评估策略不仅详细评估了模型解决问题的能力、文字写作能力,而且还严格评估了模型与人类价值的对齐能力。

开源指令LLMs

「基础模型」 今年大型语言模型(LLMs)引起广泛的关注,目前「它已经成为一个非常广泛的概念,并没有一个明确的定义」。例如:大型语言模型可以指预训练模型、指令模型(如 GPT-4),甚至是与LLMs松耦合的应用程序。因此作者在这里主要关注开源的指令大型语言模型。下表为LLM基础模型的详细信息。

「指令数据集」 指令模型的核心是应用指令数据来对基础LLM进行训练。数据质量、数据数量、数据的多样性和格式都可以决定指示模型的行为。下表为作者收集的几个开源指令数据集的详细信息。

「开源指令LLMs」 在考虑了支持指令LLMs的预训练基础模型和数据收集后,作者整理基础模型、模型大小、指令数据集和每个指令LLM使用的训练方法。具体如下图所示:

INSTRUCTEVAL介绍

 为了能够对指令LLMs进行全面的评估,作者引入了一个专用于LLMs的评估套件,称为 INSTRUCTEVAL。为了涵盖模型的通用能力,在问题解决、文字写作、价值对齐等三个方面对模型进行全面评估,在任务设置方面,INSTRUCTEVAL既有可以客观评分的任务,也有需要定性评判的任务,如下图所示:

「问题解决能力评估」 为了评估指令LLMs 的问题解决能力,作者采用了多个基准,涵盖了不同主题、复杂指令、数学算术、代码编程和因果关系的真实考试。为了能够在这些基准测试中表现良好,模型需要具备广泛的世界知识、多跳推理、创造力等。在本小节中,我们详细介绍了用于评估各种问题解决方面的基准。

「文字写作能力评估」 指令LLMs除了具备解决问题的能力外,它们在文字写作方面也展现出了令人印象深刻的能力。例如:信件撰写、道德辩论等。具体地说,作者在信息性写作、专业写作、议论文写作和创造性写作的不同使用场景中评估模型的写作能力。例如,信息性写作涉及用户查询,如自助建议或对各种概念的解释,而专业写作可能在商业环境中采用演示文稿或电子邮件的形式。另一方面,议论文写作需要模型来讨论道德和社会问题的立场,而创意写作则涉及不同的写作形式,如故事、诗歌和歌曲。具体如下图所示:

「价值对齐能力评估」 随着模型的能力越来越强,使模型与人类价值对齐以减轻意外或负面后果变得至关重要。值得注意的是,即使是表现出卓越解决问题能力的LLM也可能无法很好地符合人类的偏好。为了评估指令LLMs对人类价值观的理解能力,作者整合了HHH基准,在‘Helpfulness’、‘Honesty’、‘Harmlessness’等三个方面对指令LLMs进行评估。基准包含61个与诚实相关的,59个与帮助相关的,58个与无害相关的,以及43个来自“其他”类别的样本。下表展示了每个类别的示例:

实验结果

 下表展示了指令LLMs在「问题解决能力上的评估结果」。作者对十多个开源模型进行评估,整体来说受指令引导的LLM与其各自的基础模型相比,解决问题能力有了很大的提升。

 下表展示了指令LLMs在「文字写作能力上的评估结果」。发现模型在信息性、专业性、论证性和创造性写作类别中表现一致,展示了他们的泛化写作能力。然而,表现出更高问题解决能力的模型可能没有更好的写作能力。

 下表展示了指令LLMs在「人类价值对齐能力上的评估结果」。通过分析发现:与‘Harmless’相比,基础模型通常在‘Helpful’和‘Honesty’方面表现出更高程度的一致性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-13 21:15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 背景介绍
  • 开源指令LLMs
  • INSTRUCTEVAL介绍
  • 实验结果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档