腾讯云大模型训推平台TI-ONE 使用裁判模型进行自动评测

总览
自动评测支持对模型的通用效果和模型的业务效果进行评测，平台为用户内置了开源评测集，用户可一键发起模型通用能力自动评测。用户也可上传自定义评测集、自定义设置评测指标，支持通过前后处理以及裁判模型输出打分结果。
自动评测支持三种评测模式，分别为“仅评测”、“推理及评测”以及“自定义模式”：
评测模式
模式说明
指标配置及结果输出
仅评测
用户上传带模型推理结果的评测集，在自动评测模块完成打分功能。
支持自定义评测指标、调试指标、整体结果查看和单条评测结果查看：
自定义指标：
在自定义评测指标时，需要对每个指标的打分方式进行配置。例如使用裁判模型打分时，需要设置裁判模型、打分 Prompt、以及支持自定义前后脚本对输入输出进行处理，以获得指标结果。
调试指标：
支持在正式发起评测任务前对评测样本进行少量评测，调试时，通过调整打分 Prompt 和前后处理脚本以获得预期的评测效果。
整体结果查看：
支持各模型在各评测集的评测结果查看。
单条评测结果查看：
支持对每条评测数据进行各打分步骤的结果进行查看。
推理及评测
用户上传只有 query（问题）的评测集，在自动评测模块完成推理结果输出和打分。
﻿
自定义评测（功能内测中）
支持用户通过自定义评测镜像进行评测。可将评测集、自定义镜像以及存储挂载等内容合并为一个“任务配置”，每一组配置包含评测集、选择镜像、选择版本、挂载路径设置、启动命令、参数设置、环境变量。用户可通过仅选择镜像和版本，或者选择镜像和版本后再设置挂载路径，以实现镜像或者镜像+挂载路径的方式进行评测。
用户可在镜像中或者另外挂载评测脚本自定义评测指标、输出评测结果。
本实践采用“推理及评测”模式，上传“mt-bench”评测集、选择qwen3-32B为示例的待评测模型进行评测，并自定义评测指标和定义指标计算流程（使用裁判模型+后处理脚本的方式），最终输出评测结果。
前置准备条件
在创建自动评测任务前，您需要做好以下准备：
按照 模型评测文件格式 准备评测集，将评测集上传至 CFS，评测集挂载以及 CFS 路径获取可参考文档 在开发机挂载文件并获取 CFS 路径；
以下为 mt-bench 评测集数据示例：（该评测集中包含了必选字段“data.messages"和“data.ref_answer"。）
﻿
本模块支持待评测的模型为服务并直接对模型服务进行评测，本次实践需提前将待评测模型和裁判模型部署成服务，模型部署指南可参考 模型服务部署。
使用裁判模型进行自动评测
步骤一：基础任务配置
前往 模型评测 > 自动评测 页面，单击新建，创建自动评测任务。
1. 输入任务名称、选择评测模式为“推理及评测”
在本次实践中，在平台上将对评测集先进行推理，再对模型的回答进行打分。
﻿
2. 添加评测集
单击添加，单击从 CFS 中选择评测集，选择 CFS 文件系统和评测集路径，输入评测集名称。
﻿
可通过单击预览查看评测集文件是否正确。
﻿
注意：
填写 CFS 路径时，目前只支持最后一层层级为文件夹路径而非文件。
3、添加待评测的模型
待评测的模型支持选择模型和模型服务，这里填入事先准备好的运行中的模型服务地址。
﻿
可点击连通性测试，快速测试在线服务地址链接是否正常。
说明：
您选择在线服务作为评测模型时，无需手动选择计算资源。平台将自动分配免费资源来执行评测脚本文件。请注意，由于使用的是公共免费资源，任务可能需要排队并等待一段时间后开始执行。
﻿
步骤二：指标配置和调试
1. 指标添加
单击 +指标 进行指标添加，输入指标名称。本实践中，需要对模型的推理结果进行十档打分，所以指标名称命名为10-score。
﻿
2. 指标配置
指标新建后，需要对指标的计算流程进行配置。平台支持自定义新增并串联指标节点，节点有前处理、后处理、裁判模型打分节点。
单击 +添加指标流程节点 进行节点添加。本实践中需要用到 裁判模型打分节点和后处理节点，所以依次添加这两个节点。
﻿
完成指标节点依次添加后，需要分别配置具体的信息。
裁判模型打分节点
本实践采用 deepseek-v3.1 作为裁判模型进行打分，需要填写裁判模型服务地址，并点击连通性测试以确认服务是否正常。平台内置了打分 Prompt 模板，用户可自定义打分 Prompt 或者直接选择已有模板。由于 mt-bench 是一个多轮的评测集，可直接选择“多轮对话打分法”，裁判模型将借鉴参考答案对待评测模型的推理结果进行打分。
﻿
说明：
本自动评测支持包含上下文的多轮评测集，并且在打分Prompt中，平台已预定义了history、question、response等字段，用户可直接进行引用。具体使用可参考文档自动评测：裁判模型打分 Prompt 和前后处理格式要求。
后处理节点
平台内置了后处理常用方法，包含“分数提取”和“分数映射及提取”。这里直接选择分数提取。
﻿
﻿
3. 指标调试
完成了评测集、评测指标和指标计算流程的全部配置后，可以开始进行调试指标了。
调试指标分为两个步骤：1、生成推理结果：生成推理结果评估是否符合预期；2、生成打分结果：可根据指标计算节点分步骤生成打分结果，并且支持查看拼接prompt。
生成推理结果
平台支持选择0-20条数据进行调试，点击 生成response按钮，生成打分结果。
﻿
生成打分结果
单击 生成打分结果 按钮，生成打分结果。
﻿
﻿
鼠标放置于分数“6”，可查看分步骤打分结果。
﻿
﻿
点击 查看拼接Prompt 按钮，可查看具体拼接的prompt是否符合预期。
﻿
步骤三：发起正式评测任务、查看评测结果
单击 完成 按钮，提交评测任务。评测过程中可查看详细进度。
﻿
评测完成后，支持查看整体评测结果和单条评测结果。
整体评测结果
﻿
单条评测结果
单条评测结果查看时，支持选择对照模型，一般选择待评测模型和参考答案进行对比。可将待评测模型和参考答案作为对照组。
﻿
支持选择评测指标以及评测集的具体数据进行查看，同时支持“shift+z”作为快捷键进行数据切换。查看结果时，支持对单条数据进行分节点步骤数据查看。
﻿
﻿
﻿
﻿
﻿

评测模式	模式说明	指标配置及结果输出
仅评测	用户上传带模型推理结果的评测集，在自动评测模块完成打分功能。	支持自定义评测指标、调试指标、整体结果查看和单条评测结果查看：自定义指标：在自定义评测指标时，需要对每个指标的打分方式进行配置。例如使用裁判模型打分时，需要设置裁判模型、打分 Prompt、以及支持自定义前后脚本对输入输出进行处理，以获得指标结果。调试指标：支持在正式发起评测任务前对评测样本进行少量评测，调试时，通过调整打分 Prompt 和前后处理脚本以获得预期的评测效果。整体结果查看：支持各模型在各评测集的评测结果查看。单条评测结果查看：支持对每条评测数据进行各打分步骤的结果进行查看。
推理及评测	用户上传只有 query（问题）的评测集，在自动评测模块完成推理结果输出和打分。
自定义评测（功能内测中）	支持用户通过自定义评测镜像进行评测。可将评测集、自定义镜像以及存储挂载等内容合并为一个“任务配置”，每一组配置包含评测集、选择镜像、选择版本、挂载路径设置、启动命令、参数设置、环境变量。用户可通过仅选择镜像和版本，或者选择镜像和版本后再设置挂载路径，以实现镜像或者镜像+挂载路径的方式进行评测。	用户可在镜像中或者另外挂载评测脚本自定义评测指标、输出评测结果。

使用裁判模型进行自动评测

本页目录：

总览

前置准备条件

使用裁判模型进行自动评测

步骤一：基础任务配置

1. 输入任务名称、选择评测模式为“推理及评测”

2. 添加评测集

3、添加待评测的模型

步骤二：指标配置和调试

1. 指标添加

2. 指标配置

3. 指标调试

步骤三：发起正式评测任务、查看评测结果