支持在人工评测和自动评测中自定义评测集,格式要求如下:
输入参数说明
参数名称 | 参数解释 |
messages | 【必填】评测对话主体内容,包含 system(系统设定)、role(assistant 或 user),content(内容) |
ref_answer | 【选填】模型参考答案 |
其他字段 | 【选填】用户自定义字段 |
文件格式
仅支持 JSONL 格式,每条数据为一个合格的 JSON 格式,示例如下:
1. 多轮对话(不包含 gt):
{"messages": [{"role": "system","content": "智能助理是一款由xxx自研的大语言模型。xxx是一家中国科技公司,一直致力于进行大模型相关的研究。"},{"role": "user","content": "你好"},{"role": "assistant","content": "你好,有什么可以帮助你"},{"role": "user","content": "1+1等于几"}],"ref_answer": "答案等于2","max_tokens": 4096,"extra_content": "用户自定义,可在裁判模型中引用"}
2. 多轮对话(messages 中最后一句 role 为 assistant,此 content 会被自动解析为 gt):
{"messages": [{"role": "system","content": "ht是一款由xxx自研的大语言模型。xxx是一家中国科技公司,一直致力于进行大模型相关的研究。"},{"role": "user","content": "你好"},{"role": "assistant","content": "你好,有什么可以帮助你"},{"role": "user","content": "1+1等于几"},{"role": "assistant","content": "2"}],"ref_answer": "答案等于2","extra_content": "用户自定义,可在裁判模型中引用"}
3. 单轮对话
{"messages": [{"role": "user","content": "1+1等于几"}],"ref_answer": "答案等于2","extra_content": "用户自定义,可在裁判模型中引用"}
另外,平台兼容人工评测原有格式,支持格式:JSONL、CSV,评测集格式如下:
对于 JSONL 格式评测集:每条(行)数据格式如下:
{"system": "You are helpful.", "conversation": [{"prompt": "712+165+223+711=","response": "1811"}]}
其中 “system” 、 “prompt” 和 “response” 字段分别对应 system 输入、提示词和预期响应。
如某条(行)数据无 system 输入,可使用如下格式:
{"conversation": [{"prompt": "712+165+223+711=","response": "1811"}]}
对于 CSV 格式评测集:评测集共3列,列名分别为 “system” 、 “prompt” 和 “response” 。 system 字段非必填,如某条(行)数据无 system 输入,对应位置留空即可。
您可下载评测集示例请参见 人工评测 JSONL 格式评测集示例、人工评测 CSV 格式评测集示例。