TI-ONE 训练平台评测 LLM 大模型精调效果

本文旨在介绍在 TI-ONE 平台的如何评测 LLM 大模型精调效果，做不同评测的合适时机。
前置准备
1. 评测模型：准备需要评测的模型，可以是开源模型或者您经过精调后的模型。
2. 评测数据集：用来评测的数据集，包括客观评测数据集与主观评测数据集。对于二者的要求可参考 评测集格式要求。
第一步： 轻量体验
1. 轻量体验是指您将训练任务中保存的中间模型 checkpoint 进行部署，并对模型效果进行体验。轻量体验只关心模型的定性效果，不关心模型的定量指标。
2. 建议您训练到 0.5epoch 启动轻量体验。根据关键的任务要求，重点体验模型的回复是否符合预期。例如用户在训练集中加入了按 Markdown 格式输出，或者特殊语气回复的数据，则可以通过轻量体验，检验模型是否学到了这样的能力。
3. 如果模型在关键任务中的回复与预期差异较大，认为是模型学习失败，需要及时排查模型训练超参以及训练数据是否正确。
详细的操作流程您可参考 轻量体验。
第二步： 客观评测
1. 客观评测是指您对模型使用开源评测集，计算模型在评测集上的打分。由于开源评测集拥有一套客观评测打分体系，因此不需要人工介入即可评测模型。
2. 建议您从 0.5epoch 的模型开始，每 0.5epoch 都开启一次客观评测。客观评测的目的在于让您监控模型训练中能力的变化趋势，并筛选出 best model（最优模型）。频率可以按照实际训练任务中保存模型的频率进行调整，过于频繁的评测意义有限，会造成评测资源的浪费，过于低频的评测容易错过 best model。
3. 在客观评测的开源评测集中，不同的评测集对应不同的评测能力项，例如 MMLU 为英语通用能力，C-EVAL 为中文通用能力，GSM8K 与 Math 为数学能力，AGIEval 为各类资格考试。您可选择所关注的能力项选择客观评测的开源评测集，用于选择自己的 best model。
详细的操作流程您可参考 客观评测。
第三步： 主观评测
1. 主观评测是指您使用自己设计的评测集，并人工对模型进行打分。由于主观评测集往往与实际业务一致，因此主观评测的效果最能明确反映模型的效果。但是主观评测十分耗费人力，因此建议您根据轻量体验与客观评测的综合结果，选取若干个（建议不超过3个）模型进行主观评测。最终您可选择主观评测最优的模型进行业务的上线。
2. 针对主观评测中标注经验，建议您根据实际的业务需求仔细制作主观评测集，包括问题、参考答案与打分标准。其中打分标准越细节越客观越好。例如针对摘要能力的主观评测，可以设置需要包含关键信息一、二、三等要求，如果有遗漏则扣1分。完成主观评测集后，需要对标注同学进行培训，并在标注过程中进行交叉校验，以确保多人审核标准的一致性。
详细的操作流程您可参考 主观评测。

评测 LLM 大模型精调效果

本页目录：

前置准备

第一步：轻量体验

第二步：客观评测

第三步：主观评测

评测 LLM 大模型精调效果

本页目录：

前置准备

第一步： 轻量体验

第二步： 客观评测

第三步： 主观评测

第一步：轻量体验

第二步：客观评测

第三步：主观评测