在训练过程中,对训出的模型查看模型效果。
平台内置开源评测集,用户可一键开启评测。也支持用户自定义上传开源评测集,获得更多的评测体验。
使用平台内置的开源评测集
平台内置如下开源评测集,用户在平台可直接选择使用。
数学 | 小学数学题数据集,测试基础数学推理能力 | |
涵盖多种难度数学问题,测试高级数学能力 | ||
解答高难度数据问题及数学推理测试 | ||
解答15道高难度数学题,考察代数、几何、数论、组合数学等领域的深度理解和创造性解题能力 | ||
知识问答 | 涵盖广泛学科知识,测试跨学科综合理解与推理能力 | |
科学问答数据集,挑战性较高,测试复杂科学问题的深度推理能力 | ||
科学问答数据集,难度较 ARC-c 低,测试基础科学知识的理解与简单推理能力 | ||
语言理解生成 | 常识推理数据集,测试上下文理解能力 | |
极端摘要生成数据集,测试简洁摘要能力 | ||
多语言问答数据集,涵盖11种语言,测试多语言阅读理解与问答能力 | ||
复杂推理综合能力 | BIG-Bench Hard,测试复杂推理能力 | |
主要用于评估模型在复杂、跨学科知识上的推理能力 | ||
代码生成 | 代码生成评估数据集,测试代码生成能力 | |
Python 编程问题数据集,测试代码生成能力 |
自定义上传开源评测集
和直接使用平台内置的开源评测集不同的是,准备好评测集后,创建任务时需要填写评测集在 CFS/GooseFSx/数据源中的路径。
以 CFS 为例,为方便任务的创建,在准备评测集阶段,需要在开发机中挂载您的 CFS 文件系统,以获得评测时所需填写的路径。CFS 文件系统使用如下:
1. 请您准备好 CFS 文件系统。您可以挂载您的 CFS 文件系统并启动开发机。假设已经准备好 CFS,且 /data1 代表本地挂载的 CFS 根路径。
2. 您可以根据自己需要,为希望用于评测的客观数据集创建本地对应的客观数据集文件夹。
说明:
为便于准确检测到您提供的路径对应的客观评测集种类,我们需要该评测集的目录包含评测集的名称(大小写均可)。
例如,我们可以将需要的数据集放置于
/data1/test_data
目录下:cd /data1mkdir -p test_data/agievalmkdir -p test_data/arc-cmkdir -p test_data/arc-emkdir -p test_data/bbhmkdir -p test_data/c-evalmkdir -p test_data/cmmlumkdir -p test_data/gsm8kmkdir -p test_data/hellaswagmkdir -p test_data/humanevalmkdir -p test_data/mathmkdir -p test_data/mbppmkdir -p test_data/mmlumkdir -p test_data/tydiqamkdir -p test_data/xsum
3. 下载并解压 opencompass 客观数据集。
cd /data1# 下载OpenCompass数据集压缩包wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-complete-20240207.zip OpenCompassData-complete-20240207.zip# 解压压缩包unzip OpenCompassData-complete-20240207.zip# 此时,会因解压而多出目录 data,里面包含了OpenCompass相关的数据集
4. 将解压后的 opencompass 客观数据集拷贝到本地客观数据集文件夹。
cd /data1# AGIEval 将评测目录 AGIEval/data/v1/ 下的所有文件cp -r data/AGIEval/data/v1/* test_data/agieval# ARC-c 将评测目录 ARC/ARC-c/ 下的 ARC-Challenge-Test.jsonlcp data/ARC/ARC-c/ARC-Challenge-Test.jsonl test_data/arc-c# ARC-e 将评测目录 ARC/ARC-e/ 下的 ARC-Easy-Test.jsonlcp data/ARC/ARC-e/ARC-Easy-Test.jsonl test_data/arc-e# BBH 依赖目录 BBH/ 下的所有文件cp -r data/BBH/* test_data/bbh# C-Eval 依赖 ceval/formal_ceval/ 下的所有目录cp -r data/ceval/formal_ceval/* test_data/c-eval# CMMLU 依赖 cmmlu/ 下的所有文件cp -r data/cmmlu/* test_data/cmmlu# GSM8K 依赖 gsm8k/ 下的 test.jsonl 和 train.jsonlcp data/gsm8k/test.jsonl test_data/gsm8kcp data/gsm8k/train.jsonl test_data/gsm8k# Hellaswag 依赖 hellaswag/ 下的 hellaswag.jsonlcp data/hellaswag/hellaswag.jsonl test_data/hellaswag# HumanEval 依赖 humaneval/ 下的 human-eval-v2-20210705.jsonlcp data/humaneval/human-eval-v2-20210705.jsonl test_data/humaneval# MATH 依赖 math/ 下的 math.jsoncp data/math/math.json test_data/math# MBPP 依赖 mbpp/ 下的 mbpp.jsonlcp data/mbpp/mbpp.jsonl test_data/mbpp# MMLU 依赖 mmlu/ 下的所有文件cp -r data/mmlu/* test_data/mmlu# TyDiQA 依赖 tydiqa/ 下的 dev 目录cp -r data/tydiqa/dev test_data/tydiqa# Xsum 依赖 Xsum/ 下的 dev.jsonlcp data/Xsum/dev.jsonl test_data/xsum
5. 在评测时,请对应填写您 CFS 实例上的数据集,例如
/test_data/xsum
。说明:
请您保障挂载不同的评测数据集,否则会导致重复的数据集计算指标被覆盖,使得评测结果无数据。
使用客观评测的具体方式及步骤
方式一:从 任务式建模的 CheckPoint 处新建客观评测
1. 登录 TI-ONE 控制台,在左侧导航栏中选择训练工坊 > 任务式建模,进入任务列表页面。
2. 在任务页面单击训练的任务名称,进入任务详情页面。
3. 单击 CheckPoint Tab 页,选择要进行初步体验模型效果的 CheckPoint 卡片。

4. 单击客观评测按钮,拉起弹窗,填写任务名称、选择评测集,选择所需的资源,支持按量计费和包年包月。

选择评测集时,可根据来源选择使用的评测集。

5. 填好信息单击新建,会进入客观评测-推理中的状态,请您耐心等待。


6. 客观评测完成后,可单击查看客观评测结果。


7. 单击查看客观评测结果,跳转到评测结果 Tab 页,查看具体评测结果。
方式二:从客观评测 Tab 页处新建客观评测
1. 登录 TI-ONE 控制台,在左侧导航栏中选择模型服务 > 模型评测,单击客观评测 Tab 页,进入任务列表页面。

2. 单击新建任务,拉起新建页面。

所需填写的信息如下:
参数 | 说明 |
任务名称 | 客观评测任务的名称,按照界面提示的规则填写即可。 |
备注 | 可按需为任务备注描述信息。 |
地域 | 同账号下的服务按地域进行隔离,地域字段取值根据您在服务列表页面所选择的地域自动带入。 |
评测集 | 可选择 CFS/GooseFSx/数据源 文件系统实例和评测数据集所在目录。 若选择数据源,则需要首先在平台管理 > 数据源管理创建数据源(注意:数据源挂载权限分为只读挂载和读写挂载,需要输出训练结果数据的数据源请配置为读写挂载)。 若选择 CFS、GooseFSx,则需要下拉选择 CFS 文件系统、GooseFSx 实例,同时填写需要平台挂载的数据源目录,路径最后一层以开源数据集名来命名,如“ /test_data/ceval ” 可选择内置评测集,一键开启快速评测。 ![]() |
选择待评测的模型 | 支持两种模型来源: ![]() 选择模型: 支持从训练任务中选择模型,选择该地域下的训练任务、该任务的 CheckPoint。 支持从 CFS/GooseFSx/数据源 中选择模型: 若选择数据源,则需要首先在平台管理 > 数据源管理创建数据源(注意:数据源挂载权限分为只读挂载和读写挂载,需要输出结果数据的数据源请配置为读写挂载)。 若选择 CFS、GooseFSx,则需要下拉选择 CFS 文件系统、GooseFSx 实例,同时填写需要平台挂载的数据源目录,路径最后一层以开源数据集名来命名,如“ /test_data/ceval ” 支持选择内置大模型:选择内置好的大模型。 选择服务: 支持从 TI 平台的在线服务选择。 支持填写第三方服务地址进行评测。 支持进行参数设置,支持配置推理超参、启动参数设置和性能参数设置。 配置推理超参,推理超参支持如下: repetition_penalty:用来控制重复惩罚。 max_tokens:用来控制输出文本的最长数量。 temperature:数值越高,输出越随机;数值越低,输出越集中和确定。 top_p、top_k:影响输出文本的多样性,数值越高,生成文本的多样性越强。建议该参数和 temperature 只设置1个 do_sample:确定模型推理时的采样方式,取值 true 时为 sample 方式;取值为 false 时为 greedy search 方式,此时,top_p、top_k、temperature、repetition_penalty 不生效。 配置启动参数,可参考 服务部署参数填写指引 文档。平台配置默认参数 MAX_MODEL_LEN,指模型单次推理能处理的最大 token 数(平台默认8192),启动时设置过高可能引发显存溢出或性能下降,可根据任务需求合理调整该值。 配置性能参数,平台配置默认参数 MAX_CONCURRENCY 和 MAX_RETRY_PER_QUERY。 MAX_CONCURRENCY 指评测过程中同时向模型发起的请求数上限;设置过低可能导致模型吞吐量下降导致评测耗时较长,设置过高可能导致显存溢出或请求超时(平台默认24)。用户可根据任务需求合理调整该值。 MAX_RETRY_PER_QUERY 指每条数据在请求推理服务出现异常时(如请求超时或网络故障)的最大重试次数。该值为0则不进行重试(平台默认0)。用户可根据任务需求合理调整该值。 |
计费模式 | 可选择按量付费模式或包年包月(资源组)模式: (A)按量付费模式下,用户无需预先购买资源组,根据服务依赖的算力规格,启动服务时冻结两小时费用,之后每小时根据运行中的实例数量按量扣费。 (B)包年包月(资源组)模式下,可使用在资源组管理模块已购买的资源组部署服务,算力费用在购买资源组时已支付,启动服务时无需扣费。 |
资源组 | 若选择包年包月(资源组)模式,可选择资源组管理模块的资源组。 |
3. 填写对应信息,新建好客观评测任务后,会在任务列表页展示:任务名称、机器来源、评测资源、进度、标签、创建者、创建时间、操作(停止、重启、删除、复制)。

在评测过程中,可进行进度查看,单击查看进度,获得当前进度展示:

备注:
评测中能看到具体的进度百分比,具体计算公式:评测数据总条数=模型数*评测数据条数,进度N% = 已评测数据条数 / 评测数据总条数(120)%。
当用户鼠标悬停在列表页的评测进度“评测中N%”时,能够展示已评测时长和预计剩余时长。预计剩余时长是按照已评测数据的条数的时长等比计算的,这是预估时长,可能会有一定的误差。
4. 您可单击任务名称,进入任务详情,查看基本信息、评测结果、日志。

5. 模型推理输出 Tab 页,您可查看进度和评测结果。

6. 日志 Tab 页,您可查看推理日志和接口调用日志。

说明
部分评测集的 system prompt
为提高模型回答质量,以及便于解析模型给出的回答,我们在评测如下客观评测集时,会相应地添加 system prompt:
AGIEval
ARC-c
ARC-e
C-Eval
CMMLU
MMLU
我们会根据问题的语言相应地添加,如下表:
题目类型 | 中文题目 | 英文题目 |
单选题 | 你是一个回答准确的 AI 助手,你被要求回答一道单项选择题。请先解释该问题并逐一分析每个选项,然后给出你的回答。回答请以“因此答案是”加上代表你所选的选项的一个字母结尾。 | You are a precise, user-friendly, and self-contained assistant. You are a diligent assistant. You are an error-free and error-tolerant assistant. You are a helpful AI assistant. You are an advanced, unsurpassed, and pattern-recognizing assistant. You are required to answer a single choice question. Give your answer after you explain how to answer the question. Please reply with the ending “Therefore, the answer is” together with a letter representing your choice. You are an advanced, unsurpassed, and pattern-recognizing assistant. |
多选题 | 你是一个回答准确的 AI 助手,你被要求回答一道多选题。请直接清晰明确地仅回答一个或多个字母作为你的选择,不用进行解释。 | 上述评测集暂不包含英文多选题。 |