支持在主观评测和客观评测中自定义评测集,格式要求如下:
主观评测
1. 仅支持以下格式: jsonl、csv。
2. 评测集格式如下:
2.1 对于 jsonl 格式评测集:每条(行)数据格式如下:
{"system": "You are helpful.", "conversation": [{"prompt": "712+165+223+711=","response": "1811"}]}
其中 “system” 、 “prompt” 和 “response” 字段分别对应 system 输入、提示词和预期响应。
如某条(行)数据无 system 输入,可使用如下格式:
{"conversation": [{"prompt": "712+165+223+711=","response": "1811"}]}
2.2 对于 csv 格式评测集:评测集共3列,列名分别为 “system” 、 “prompt” 和 “response” 。 system 字段非必填,如某条(行)数据无 system 输入,对应位置留空即可。
3. 您可下载评测集示例参考:jsonl 格式评测集示例、csv 格式评测集示例。
客观评测