客观评测

最近更新时间:2025-07-21 17:09:21

我的收藏
在训练过程中,对训出的模型查看模型效果。

平台内置开源评测集,用户可一键开启评测。也支持用户自定义上传开源评测集,获得更多的评测体验。

使用平台内置的开源评测集

平台内置如下开源评测集,用户在平台可直接选择使用。
数学
GSM8K
小学数学题数据集,测试基础数学推理能力
MATH
涵盖多种难度数学问题,测试高级数学能力
MATH-500
解答高难度数据问题及数学推理测试
AIME2024
解答15道高难度数学题,考察代数、几何、数论、组合数学等领域的深度理解和创造性解题能力
知识问答
MMLU
涵盖广泛学科知识,测试跨学科综合理解与推理能力
ARC-c
科学问答数据集,挑战性较高,测试复杂科学问题的深度推理能力
ARC-e
科学问答数据集,难度较 ARC-c 低,测试基础科学知识的理解与简单推理能力
语言理解生成
Hellaswag
常识推理数据集,测试上下文理解能力
Xsum
极端摘要生成数据集,测试简洁摘要能力
TyDiQA
多语言问答数据集,涵盖11种语言,测试多语言阅读理解与问答能力
复杂推理综合能力
BBH
BIG-Bench Hard,测试复杂推理能力
主要用于评估模型在复杂、跨学科知识上的推理能力
代码生成
HumanEval
代码生成评估数据集,测试代码生成能力
MBPP
Python 编程问题数据集,测试代码生成能力

自定义上传开源评测集

支持自定义上传开源评测集,支持的开源评测集请参见 评测集要求

和直接使用平台内置的开源评测集不同的是,准备好评测集后,创建任务时需要填写评测集在 CFS/GooseFSx/数据源中的路径。
以 CFS 为例,为方便任务的创建,在准备评测集阶段,需要在开发机中挂载您的 CFS 文件系统,以获得评测时所需填写的路径。CFS 文件系统使用如下:
1. 请您准备好 CFS 文件系统。您可以挂载您的 CFS 文件系统并启动开发机。假设已经准备好 CFS,且 /data1 代表本地挂载的 CFS 根路径。
2. 您可以根据自己需要,为希望用于评测的客观数据集创建本地对应的客观数据集文件夹。
说明:
为便于准确检测到您提供的路径对应的客观评测集种类,我们需要该评测集的目录包含评测集的名称(大小写均可)
例如,我们可以将需要的数据集放置于 /data1/test_data 目录下:
cd /data1
mkdir -p test_data/agieval
mkdir -p test_data/arc-c
mkdir -p test_data/arc-e
mkdir -p test_data/bbh
mkdir -p test_data/c-eval
mkdir -p test_data/cmmlu
mkdir -p test_data/gsm8k
mkdir -p test_data/hellaswag
mkdir -p test_data/humaneval
mkdir -p test_data/math
mkdir -p test_data/mbpp
mkdir -p test_data/mmlu
mkdir -p test_data/tydiqa
mkdir -p test_data/xsum
3. 下载并解压 opencompass 客观数据集。
cd /data1
# 下载OpenCompass数据集压缩包
wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-complete-20240207.zip OpenCompassData-complete-20240207.zip
# 解压压缩包
unzip OpenCompassData-complete-20240207.zip
# 此时,会因解压而多出目录 data,里面包含了OpenCompass相关的数据集
4. 将解压后的 opencompass 客观数据集拷贝到本地客观数据集文件夹。
cd /data1
# AGIEval 将评测目录 AGIEval/data/v1/ 下的所有文件
cp -r data/AGIEval/data/v1/* test_data/agieval


# ARC-c 将评测目录 ARC/ARC-c/ 下的 ARC-Challenge-Test.jsonl
cp data/ARC/ARC-c/ARC-Challenge-Test.jsonl test_data/arc-c


# ARC-e 将评测目录 ARC/ARC-e/ 下的 ARC-Easy-Test.jsonl
cp data/ARC/ARC-e/ARC-Easy-Test.jsonl test_data/arc-e


# BBH 依赖目录 BBH/ 下的所有文件
cp -r data/BBH/* test_data/bbh


# C-Eval 依赖 ceval/formal_ceval/ 下的所有目录
cp -r data/ceval/formal_ceval/* test_data/c-eval


# CMMLU 依赖 cmmlu/ 下的所有文件
cp -r data/cmmlu/* test_data/cmmlu


# GSM8K 依赖 gsm8k/ 下的 test.jsonl 和 train.jsonl
cp data/gsm8k/test.jsonl test_data/gsm8k
cp data/gsm8k/train.jsonl test_data/gsm8k


# Hellaswag 依赖 hellaswag/ 下的 hellaswag.jsonl
cp data/hellaswag/hellaswag.jsonl test_data/hellaswag


# HumanEval 依赖 humaneval/ 下的 human-eval-v2-20210705.jsonl
cp data/humaneval/human-eval-v2-20210705.jsonl test_data/humaneval


# MATH 依赖 math/ 下的 math.json
cp data/math/math.json test_data/math


# MBPP 依赖 mbpp/ 下的 mbpp.jsonl
cp data/mbpp/mbpp.jsonl test_data/mbpp


# MMLU 依赖 mmlu/ 下的所有文件
cp -r data/mmlu/* test_data/mmlu


# TyDiQA 依赖 tydiqa/ 下的 dev 目录
cp -r data/tydiqa/dev test_data/tydiqa


# Xsum 依赖 Xsum/ 下的 dev.jsonl
cp data/Xsum/dev.jsonl test_data/xsum
5. 在评测时,请对应填写您 CFS 实例上的数据集,例如 /test_data/xsum
说明:
请您保障挂载不同的评测数据集,否则会导致重复的数据集计算指标被覆盖,使得评测结果无数据。

使用客观评测的具体方式及步骤

方式一:从 任务式建模的 CheckPoint 处新建客观评测

前提条件:已完成 任务式建模 的任务创建,已完成 CheckPoint 的输出。
1. 登录 TI-ONE 控制台,在左侧导航栏中选择训练工坊 > 任务式建模,进入任务列表页面。
2. 在任务页面单击训练的任务名称,进入任务详情页面。
3. 单击 CheckPoint Tab 页,选择要进行初步体验模型效果的 CheckPoint 卡片。


4. 单击客观评测按钮,拉起弹窗,填写任务名称、选择评测集,选择所需的资源,支持按量计费和包年包月。

选择评测集时,可根据来源选择使用的评测集。

5. 填好信息单击新建,会进入客观评测-推理中的状态,请您耐心等待。



6. 客观评测完成后,可单击查看客观评测结果



7. 单击查看客观评测结果,跳转到评测结果 Tab 页,查看具体评测结果。

方式二:从客观评测 Tab 页处新建客观评测

1. 登录 TI-ONE 控制台,在左侧导航栏中选择模型服务 > 模型评测,单击客观评测 Tab 页,进入任务列表页面。

2. 单击新建任务,拉起新建页面。

所需填写的信息如下:
参数
说明
任务名称
客观评测任务的名称,按照界面提示的规则填写即可。
备注
可按需为任务备注描述信息。
地域
同账号下的服务按地域进行隔离,地域字段取值根据您在服务列表页面所选择的地域自动带入。
评测集
可选择 CFS/GooseFSx/数据源 文件系统实例和评测数据集所在目录。
若选择数据源,则需要首先在平台管理 > 数据源管理创建数据源(注意:数据源挂载权限分为只读挂载和读写挂载,需要输出训练结果数据的数据源请配置为读写挂载)。
若选择 CFS、GooseFSx,则需要下拉选择 CFS 文件系统、GooseFSx 实例,同时填写需要平台挂载的数据源目录,路径最后一层以开源数据集名来命名,如“/test_data/ceval
可选择内置评测集,一键开启快速评测。

选择待评测的模型
支持两种模型来源:

选择模型:
支持从训练任务中选择模型,选择该地域下的训练任务、该任务的 CheckPoint。
支持从 CFS/GooseFSx/数据源 中选择模型:
若选择数据源,则需要首先在平台管理 > 数据源管理创建数据源(注意:数据源挂载权限分为只读挂载和读写挂载,需要输出结果数据的数据源请配置为读写挂载)。
若选择 CFS、GooseFSx,则需要下拉选择 CFS 文件系统、GooseFSx 实例,同时填写需要平台挂载的数据源目录,路径最后一层以开源数据集名来命名,如“/test_data/ceval
支持选择内置大模型:选择内置好的大模型。
选择服务:
支持从 TI 平台的在线服务选择。
支持填写第三方服务地址进行评测。

支持进行参数设置,支持配置推理超参、启动参数设置和性能参数设置。
配置推理超参,推理超参支持如下:
repetition_penalty:用来控制重复惩罚。
max_tokens:用来控制输出文本的最长数量。
temperature:数值越高,输出越随机;数值越低,输出越集中和确定。
top_p、top_k:影响输出文本的多样性,数值越高,生成文本的多样性越强。建议该参数和 temperature 只设置1个
do_sample:确定模型推理时的采样方式,取值 true 时为 sample 方式;取值为 false 时为 greedy search 方式,此时,top_p、top_k、temperature、repetition_penalty 不生效。
配置启动参数,可参考 服务部署参数填写指引 文档。平台配置默认参数 MAX_MODEL_LEN,指模型单次推理能处理的最大 token 数(平台默认8192),启动时设置过高可能引发显存溢出或性能下降,可根据任务需求合理调整该值。
配置性能参数,平台配置默认参数 MAX_CONCURRENCY 和 MAX_RETRY_PER_QUERY。
MAX_CONCURRENCY 指评测过程中同时向模型发起的请求数上限;设置过低可能导致模型吞吐量下降导致评测耗时较长,设置过高可能导致显存溢出或请求超时(平台默认24)。用户可根据任务需求合理调整该值。
MAX_RETRY_PER_QUERY 指每条数据在请求推理服务出现异常时(如请求超时或网络故障)的最大重试次数。该值为0则不进行重试(平台默认0)。用户可根据任务需求合理调整该值。
计费模式
可选择按量付费模式或包年包月(资源组)模式:
(A)按量付费模式下,用户无需预先购买资源组,根据服务依赖的算力规格,启动服务时冻结两小时费用,之后每小时根据运行中的实例数量按量扣费。
(B)包年包月(资源组)模式下,可使用在资源组管理模块已购买的资源组部署服务,算力费用在购买资源组时已支付,启动服务时无需扣费。
资源组
若选择包年包月(资源组)模式,可选择资源组管理模块的资源组。
3. 填写对应信息,新建好客观评测任务后,会在任务列表页展示:任务名称、机器来源、评测资源、进度、标签、创建者、创建时间、操作(停止、重启、删除、复制)。

在评测过程中,可进行进度查看,单击查看进度,获得当前进度展示:

备注:
评测中能看到具体的进度百分比,具体计算公式:评测数据总条数=模型数*评测数据条数,进度N% = 已评测数据条数 / 评测数据总条数(120)%。
当用户鼠标悬停在列表页的评测进度“评测中N%”时,能够展示已评测时长和预计剩余时长。预计剩余时长是按照已评测数据的条数的时长等比计算的,这是预估时长,可能会有一定的误差。
4. 您可单击任务名称,进入任务详情,查看基本信息、评测结果、日志。

5. 模型推理输出 Tab 页,您可查看进度和评测结果。

6. 日志 Tab 页,您可查看推理日志和接口调用日志。


说明

部分评测集的 system prompt

为提高模型回答质量,以及便于解析模型给出的回答,我们在评测如下客观评测集时,会相应地添加 system prompt:
AGIEval
ARC-c
ARC-e
C-Eval
CMMLU
Hellaswag
MMLU

我们会根据问题的语言相应地添加,如下表:
题目类型
中文题目
英文题目
单选题
你是一个回答准确的 AI 助手,你被要求回答一道单项选择题。请先解释该问题并逐一分析每个选项,然后给出你的回答。回答请以“因此答案是”加上代表你所选的选项的一个字母结尾。
You are a precise, user-friendly, and self-contained assistant. You are a diligent assistant. You are an error-free and error-tolerant assistant. You are a helpful AI assistant. You are an advanced, unsurpassed, and pattern-recognizing assistant. You are required to answer a single choice question. Give your answer after you explain how to answer the question. Please reply with the ending “Therefore, the answer is” together with a letter representing your choice. You are an advanced, unsurpassed, and pattern-recognizing assistant.
多选题
你是一个回答准确的 AI 助手,你被要求回答一道多选题。请直接清晰明确地仅回答一个或多个字母作为你的选择,不用进行解释。
上述评测集暂不包含英文多选题。