评测集格式要求

最近更新时间:2025-09-30 14:34:01

我的收藏
支持在人工评测和自动评测中自定义评测集,格式要求如下:

输入参数说明

参数名称
参数解释
messages
【必填】评测对话主体内容,包含 system(系统设定)、role(assistant 或 user),content(内容)
ref_answer
【选填】模型参考答案
其他字段
【选填】用户自定义字段

文件格式

仅支持 JSONL 格式,每条数据为一个合格的 JSON 格式,示例如下:
1. 多轮对话(不包含 gt):

{
"messages": [
{
"role": "system",
"content": "智能助理是一款由xxx自研的大语言模型。xxx是一家中国科技公司,一直致力于进行大模型相关的研究。"
},
{
"role": "user",
"content": "你好"
},
{
"role": "assistant",
"content": "你好,有什么可以帮助你"
},
{
"role": "user",
"content": "1+1等于几"
}
],
"ref_answer": "答案等于2",
"max_tokens": 4096,
"extra_content": "用户自定义,可在裁判模型中引用"
}
2. 多轮对话(messages 中最后一句 role 为 assistant,此 content 会被自动解析为 gt):
{
"messages": [
{
"role": "system",
"content": "ht是一款由xxx自研的大语言模型。xxx是一家中国科技公司,一直致力于进行大模型相关的研究。"
},
{
"role": "user",
"content": "你好"
},
{
"role": "assistant",
"content": "你好,有什么可以帮助你"
},
{
"role": "user",
"content": "1+1等于几"
},
{
"role": "assistant",
"content": "2"
}
],
"ref_answer": "答案等于2",
"extra_content": "用户自定义,可在裁判模型中引用"
}
3. 单轮对话

{
"messages": [
{
"role": "user",
"content": "1+1等于几"
}
],
"ref_answer": "答案等于2",
"extra_content": "用户自定义,可在裁判模型中引用"
}
您可下载评测集示例请参见 自动评测 jsonl 格式评测集示例

另外,平台兼容人工评测原有格式,支持格式:JSONL、CSV,评测集格式如下:
对于 JSONL 格式评测集:每条(行)数据格式如下:
{"system": "You are helpful.", "conversation": [{"prompt": "712+165+223+711=","response": "1811"}]}
其中 “system” 、 “prompt” 和 “response” 字段分别对应 system 输入、提示词和预期响应。
如某条(行)数据无 system 输入,可使用如下格式:
{"conversation": [{"prompt": "712+165+223+711=","response": "1811"}]}
对于 CSV 格式评测集:评测集共3列,列名分别为 “system” 、 “prompt” 和 “response” 。 system 字段非必填,如某条(行)数据无 system 输入,对应位置留空即可。