评测 LLM 大模型精调效果

最近更新时间:2024-06-28 18:37:51

我的收藏
本文旨在介绍在 TI-ONE 平台的如何评测 LLM 大模型精调效果,做不同评测的合适时机。

前置准备

1. 评测模型:准备需要评测的模型,可以是开源模型或者您经过精调后的模型。
2. 评测数据集:用来评测的数据集,包括客观评测数据集与主观评测数据集。对于二者的要求如下:
客观评测集:您可参考客观评测-自定义评测集准备
主观评测集:您可参考主观评测-自定义评测集准备

第一步: 轻量体验

1. 轻量体验是指您将训练任务中保存的中间模型 checkpoint 进行部署,并对模型效果进行体验。轻量体验只关心模型的定性效果,不关心模型的定量指标。
2. 建议您训练到 0.5epoch 启动轻量体验。根据关键的任务要求,重点体验模型的回复是否符合预期。例如用户在训练集中加入了按 Markdown 格式输出,或者特殊语气回复的数据,则可以通过轻量体验,检验模型是否学到了这样的能力。
3. 如果模型在关键任务中的回复与预期差异较大,认为是模型学习失败,需要及时排查模型训练超参以及训练数据是否正确。
详细的操作流程您可参考轻量体验

第二步: 客观评测

1. 客观评测是指您对模型使用开源评测集,计算模型在评测集上的打分。由于开源评测集拥有一套客观评测打分体系,因此不需要人工介入即可评测模型。
2. 建议您从 0.5epoch 的模型开始,每 0.5epoch 都开启一次客观评测。客观评测的目的在于让您监控模型训练中能力的变化趋势,并筛选出 best model(最优模型)。频率可以按照实际训练任务中保存模型的频率进行调整,过于频繁的评测意义有限,会造成评测资源的浪费,过于低频的评测容易错过 best model。
3. 在客观评测的开源评测集中,不同的评测集对应不同的评测能力项,例如 MMLU 为英语通用能力,C-EVAL 为中文通用能力,GSM8K 与 Math 为数学能力,AGIEval 为各类资格考试。您可选择所关注的能力项选择客观评测的开源评测集,用于选择自己的 best model。
详细的操作流程您可参考客观评测

第三步: 主观评测

1. 主观评测是指您使用自己设计的评测集,并人工对模型进行打分。由于主观评测集往往与实际业务一致,因此主观评测的效果最能明确反映模型的效果。但是主观评测十分耗费人力,因此建议您根据轻量体验与客观评测的综合结果,选取若干个(建议不超过3个)模型进行主观评测。最终您可选择主观评测最优的模型进行业务的上线。
2. 针对主观评测中标注经验,建议您根据实际的业务需求仔细制作主观评测集,包括问题、参考答案与打分标准。其中打分标准越细节越客观越好。例如针对摘要能力的主观评测,可以设置需要包含关键信息一、二、三等要求,如果有遗漏则扣1分。完成主观评测集后,需要对标注同学进行培训,并在标注过程中进行交叉校验,以确保多人审核标准的一致性。
详细的操作流程您可参考主观评测