评测集格式要求

最近更新时间:2025-03-25 20:34:43

我的收藏
支持在主观评测和客观评测中自定义评测集,格式要求如下:

主观评测

1. 仅支持以下格式: jsonl、csv。
2. 评测集格式如下:
2.1 对于 jsonl 格式评测集:每条(行)数据格式如下:
{"system": "You are helpful.", "conversation": [{"prompt": "712+165+223+711=","response": "1811"}]}
其中 “system” 、 “prompt” 和 “response” 字段分别对应 system 输入、提示词和预期响应。
如某条(行)数据无 system 输入,可使用如下格式:
{"conversation": [{"prompt": "712+165+223+711=","response": "1811"}]}
2.2 对于 csv 格式评测集:评测集共3列,列名分别为 “system” 、 “prompt” 和 “response” 。 system 字段非必填,如某条(行)数据无 system 输入,对应位置留空即可。
3. 您可下载评测集示例参考:jsonl 格式评测集示例csv 格式评测集示例

客观评测

客观评测里支持的自定义评测集为如下开源评测集,当前您可上传如下展示的评测集。关于以下开源评测集在客观评测的具体使用可查看客观评测
AGIEval
ARC-c
ARC-e
BBH
C-Eval
CMMLU
GSM8K
Hellaswag
HumanEval
MATH
MBPP
MMLU
TyDiQA
Xsum