使用裁判模型进行自动评测

最近更新时间:2026-01-08 19:50:22

我的收藏

总览

自动评测支持对模型的通用效果和模型的业务效果进行评测,平台为用户内置了开源评测集,用户可一键发起模型通用能力自动评测。用户也可上传自定义评测集、自定义设置评测指标,支持通过前后处理以及裁判模型输出打分结果。
自动评测支持三种评测模式,分别为“仅评测”、“推理及评测”以及“自定义模式”:
评测模式
模式说明
指标配置及结果输出
仅评测
用户上传带模型推理结果的评测集,在自动评测模块完成打分功能。
支持自定义评测指标、调试指标、整体结果查看和单条评测结果查看:
自定义指标:
在自定义评测指标时,需要对每个指标的打分方式进行配置。例如使用裁判模型打分时,需要设置裁判模型、打分 Prompt、以及支持自定义前后脚本对输入输出进行处理,以获得指标结果。
调试指标:
支持在正式发起评测任务前对评测样本进行少量评测,调试时,通过调整打分 Prompt 和前后处理脚本以获得预期的评测效果。
整体结果查看:
支持各模型在各评测集的评测结果查看。
单条评测结果查看:
支持对每条评测数据进行各打分步骤的结果进行查看。
推理及评测
用户上传只有 query(问题)的评测集,在自动评测模块完成推理结果输出和打分。
自定义评测(功能内测中)
支持用户通过自定义评测镜像进行评测。可将评测集、自定义镜像以及存储挂载等内容合并为一个“任务配置”,每一组配置包含评测集、选择镜像、选择版本、挂载路径设置、启动命令、参数设置、环境变量。用户可通过仅选择镜像和版本,或者选择镜像和版本后再设置挂载路径,以实现镜像或者镜像+挂载路径的方式进行评测。
用户可在镜像中或者另外挂载评测脚本自定义评测指标、输出评测结果。
本实践采用“推理及评测”模式,上传“mt-bench”评测集、选择qwen3-32B为示例的待评测模型进行评测,并自定义评测指标和定义指标计算流程(使用裁判模型+后处理脚本的方式),最终输出评测结果。

前置准备条件

在创建自动评测任务前,您需要做好以下准备:
按照 模型评测文件格式 准备评测集,将评测集上传至 CFS,评测集挂载以及 CFS 路径获取可参考文档 在开发机挂载文件并获取 CFS 路径
以下为 mt-bench 评测集数据示例:(该评测集中包含了必选字段“data.messages"和“data.ref_answer"。)

本模块支持待评测的模型为服务并直接对模型服务进行评测,本次实践需提前将待评测模型和裁判模型部署成服务,模型部署指南可参考 模型服务部署

使用裁判模型进行自动评测

步骤一:基础任务配置

前往 模型评测 > 自动评测 页面,单击新建,创建自动评测任务。

1. 输入任务名称、选择评测模式为“推理及评测”

在本次实践中,在平台上将对评测集先进行推理,再对模型的回答进行打分。


2. 添加评测集

单击添加,单击从 CFS 中选择评测集,选择 CFS 文件系统评测集路径,输入评测集名称

可通过单击预览查看评测集文件是否正确。

注意:
填写 CFS 路径时,目前只支持最后一层层级为文件夹路径而非文件。

3、添加待评测的模型

待评测的模型支持选择模型和模型服务,这里填入事先准备好的运行中的模型服务地址。

可点击连通性测试,快速测试在线服务地址链接是否正常。
说明:
您选择在线服务作为评测模型时,无需手动选择计算资源。平台将自动分配免费资源来执行评测脚本文件。请注意,由于使用的是公共免费资源,任务可能需要排队并等待一段时间后开始执行。


步骤二:指标配置和调试

1. 指标添加

单击 +指标 进行指标添加,输入指标名称。本实践中,需要对模型的推理结果进行十档打分,所以指标名称命名为10-score。


2. 指标配置

指标新建后,需要对指标的计算流程进行配置。平台支持自定义新增并串联指标节点,节点有前处理、后处理、裁判模型打分节点。
单击 +添加指标流程节点 进行节点添加。本实践中需要用到 裁判模型打分节点和后处理节点,所以依次添加这两个节点。

完成指标节点依次添加后,需要分别配置具体的信息。
裁判模型打分节点
本实践采用 deepseek-v3.1 作为裁判模型进行打分,需要填写裁判模型服务地址,并点击连通性测试以确认服务是否正常。平台内置了打分 Prompt 模板,用户可自定义打分 Prompt 或者直接选择已有模版。由于 mt-bench 是一个多轮的评测集,可直接选择“多轮对话打分法”,裁判模型将借鉴参考答案对待评测模型的推理结果进行打分。

说明:
本自动评测支持包含上下文的多轮评测集,并且在打分Prompt中,平台已预定义了history、question、response等字段,用户可直接进行引用。具体使用可参考文档自动评测:裁判模型打分 Prompt 和前后处理格式要求
后处理节点
平台内置了后处理常用方法,包含“分数提取”和“分数映射及提取”。这里直接选择分数提取。



3. 指标调试

完成了评测集、评测指标和指标计算流程的全部配置后,可以开始进行调试指标了。
调试指标分为两个步骤:1、生成推理结果:生成推理结果评估是否符合预期;2、生成打分结果:可根据指标计算节点分步骤生成打分结果,并且支持查看拼接prompt。
生成推理结果
平台支持选择0-20条数据进行调试,点击 生成response按钮,生成打分结果。

生成打分结果
单击 生成打分结果 按钮,生成打分结果。


鼠标放置于分数“6”,可查看分步骤打分结果。


点击 查看拼接Prompt 按钮,可查看具体拼接的prompt是否符合预期。


步骤三:发起正式评测任务、查看评测结果

单击 完成 按钮,提交评测任务。评测过程中可查看详细进度。

评测完成后,支持查看整体评测结果和单条评测结果。
整体评测结果

单条评测结果
单条评测结果查看时,支持选择对照模型,一般选择待评测模型和参考答案进行对比。可将待评测模型和参考答案作为对照组。

支持选择评测指标以及评测集的具体数据进行查看,同时支持“shift+z”作为快捷键进行数据切换。查看结果时,支持对单条数据进行分节点步骤数据查看。