深度学习自然语言处理 原创 作者:Winnie
大型语言模型(LLMs)在自然语言处理领域的应用越来越广泛,但如何更好地使用它们来评估文本质量一直是个挑战。最近有一篇研究,深入探讨了如何最大程度地提高自然语言生成模型的评估性能,并提供了一些重要的指导原则。让我们一起来了解一下吧!
Paper: A Closer Look into Automatic Evaluation Using Large Language Models Link: https://browse.arxiv.org/pdf/2310.05657.pdf 进NLP群—>加入NLP交流群
大型语言模型(LLM)能够遵循自然语言指令来完成任务,最近的研究使其有潜力成为自动评估工具。其中,Chiang和Lee(2023)提出的LLM评估以及Liu等人(2023)提出的G-Eval均展示了这种能力,其中LLM可以产生与人类评估接近的评分结果。但两者的方法存在细微差异,对未来研究者如何使用LLM进行自动评估带来了困惑。本文旨在分析这两种方法中的关键组件,并提供如何更好地使用LLMs进行自动评估的指南。
本研究提供了一些关键的指南,以帮助研究人员更好地使用LLMs进行文本自动评估:
在实验环节,研究人员选择了ChatGPT(gpt-3.5-turbo)在SummEval和Topical-Chat两个数据集上进行实验,探索LLM评估和G-Eval的关键组件如何影响LLM与人类评分的相关性。评估的标准是LLM评分与人类评分之间的相关系数。
LLM评估和G-Eval评估方法都要求LLM使用k点Likert量表对样本进行评分,但具体实施细节存在以下差异:
LLM评估性能的衡量方式是LLM评分与人类评分之间的相关系数。
实验结果表明,在某些情况下,使用Auto CoT确实可以提高评估的一致性、连贯性和相关性,并具有统计学显著性。然而,在其他情况下,比如在Topical-Chat的案例中,使用Auto CoT并未显示出一致且有意义的改进。
研究团队还探讨了提示ChatGPT的方式如何影响其生成的评分与人类评分的一致性。实验发现,允许ChatGPT自由回答问题(不仅仅是生成一个数值分数)会产生更高的Pearson's r和Kendall's τ,尽管模型在大多数情况下还是会输出一个数值分数。有趣的是,模型在知道它需要解释其评分时倾向于生成更容易解释且与人类评分更一致的评分。:
这篇研究探讨了如何通过使用ChatGPT更加有效地进行自动评估工具的运用,提供了一系列具体的指导原则。这些原则基于对Large Language Models (LLM) 评估和G-Eval的详细研究,并且指出,在评分时要求ChatGPT提供解释/分析是一个有效的方法。文中还进行了一系列实验来验证这些指导原则的稳健性,包括在生成过程中改变采样输出的温度和改变给ChatGPT的提示。实验结果表明,与G-Eval方法相比,rate-explain和analyze-rate在相关性方面总是表现更好。另外,在不同采样温度和使用不同提示下,rate-explain和analyze-rate方法相对稳定。最终,文章表明,使用ChatGPT的多个评估属性的相关性可以高于或与使用GPT-4的评分相媲美。尽管如此,这篇研究有其局限性,包括实验主要基于ChatGPT的应用、分析仅基于两个任务,并且无法与先前的一些研究结果进行完全公平的比较。