主观评测对大模型的输出效果进行评估,提供人工标注的打分模式,客观评估模型效果。
前提条件
自定义评测集准备
主观评测里支持的自定义评测集要求如下:
1. 仅支持以下格式: jsonl、csv。
2. 内容为2列,分别为“prompt” 和“answer”。
3. 您可下载示例参考:test.csv、test.jsonl。
注意:
为了避免推理结果被覆盖,您需要确保主观评测数据集的文件名是唯一的。当您准备主观评测数据集时,无论您选择的是 CSV 格式还是 JSONL 格式,都请确保去掉文件扩展名后的文件名是唯一的。例如,如果您有一个 CSV 文件名为 'test.csv',则不应该有另一个 JSONL 文件名为 'test.jsonl'。
操作步骤
1. 登录TI-ONE 控制台,在左侧导航栏中选择模型服务 > 模型评测,单击主观评测 Tab 页,进入任务列表页面。
2. 单击新建任务,拉起新建页面。
所需填写的信息如下:
参数 | 说明 |
任务名称 | 主观评测任务的名称,按照界面提示的规则填写即可 |
备注 | 可按需为任务备注描述信息 |
地域 | 同账号下的服务按地域进行隔离,地域字段取值根据您在服务列表页面所选择的地域自动带入 |
自定义评测集 | 可选择 CFS 文件系统实例和评测数据集所在目录。仅支持以下格式:jsonl、csv;内容为2列,分别为“prompt”和“answer” |
评测结果保存 | 可选择 CFS 文件系统实例和评测结果保存的路径 |
选择待评测的模型 | 支持三种模型来源: 从训练任务中选择模型:选择该地域下的训练任务、该任务的 Checkpoint 从 CFS 中选择模型:选择该地域下的 CFS 实例、填写模型所在的路径 内置大模型:选择内置好的大模型 可打开高级设置,配置推理超参,推理超参支持如下: repetition_penalty:用来控制重复惩罚 max_tokens: 用来控制输出文本的最长数量 temperature: 数值越高,输出越随机;数值越低,输出越集中和确定 top_p、top_k: 影响输出文本的多样性,数值越高,生成文本的多样性越强。建议该参数和temperature只设置1个 do_sample:确定模型推理时的采样方式,取值 true 时为 sample 方式;取值为 false 时为 greedy search 方式,此时,top_p、top_k、temperature、repetition_penalty 不生效 |
计费模式 | 可选择按量付费模式或包年包月(资源组)模式: (A)按量付费模式下,用户无需预先购买资源组,根据服务依赖的算力规格,启动服务时冻结两小时费用,之后每小时根据运行中的实例数量按量扣费 (B)包年包月(资源组)模式下,可使用在资源组管理模块已购买的资源组部署服务,算力费用在购买资源组时已支付,启动服务时无需扣费 |
资源组 | 若选择包年包月(资源组)模式,可选择资源组管理模块的资源组 |
3. 填写对应信息,新建好主观评测任务后,会在任务列表页展示:任务名称、计费模式、状态、进度、备注、创建时间、操作(停止、重启、删除、推理进度)。
4. 单击推理进度,您可下载查看当前进度下的评测结果集。
5. 主观评测任务已完成后,您可单击任务名称,进入任务详情,查看基本信息、人工标注、模型推理输出、日志。
6. 人工标注 Tab 页,您可选择要评分的评测集,进行人工打分,打分完提交标注结果。
7. 模型推理输出 Tab 页,您可查看进度和评测结果集。
8. 日志 Tab 页,您可查看推理日志和接口调用日志。