主观评测

最近更新时间:2024-09-12 15:55:52

我的收藏
主观评测对大模型的输出效果进行评估,提供人工标注的打分模式,客观评估模型效果。

前提条件

自定义评测集准备

主观评测里支持的自定义评测集要求如下:
1. 仅支持以下格式: jsonl、csv。
2. 内容为2列,分别为“prompt” 和“answer”。
3. 您可下载示例参考:test.csvtest.jsonl
注意:
为了避免推理结果被覆盖,您需要确保主观评测数据集的文件名是唯一的。当您准备主观评测数据集时,无论您选择的是 CSV 格式还是 JSONL 格式,都请确保去掉文件扩展名后的文件名是唯一的。例如,如果您有一个 CSV 文件名为 'test.csv',则不应该有另一个 JSONL 文件名为 'test.jsonl'。

操作步骤

1. 登录TI-ONE 控制台,在左侧导航栏中选择模型服务 > 模型评测,单击主观评测 Tab 页,进入任务列表页面。


2. 单击新建任务,拉起新建页面。



所需填写的信息如下:
参数
说明
任务名称
主观评测任务的名称,按照界面提示的规则填写即可
备注
可按需为任务备注描述信息
地域
同账号下的服务按地域进行隔离,地域字段取值根据您在服务列表页面所选择的地域自动带入
自定义评测集
可选择 CFS 文件系统实例和评测数据集所在目录。仅支持以下格式:jsonl、csv;内容为2列,分别为“prompt”和“answer”
评测结果保存
可选择 CFS 文件系统实例和评测结果保存的路径
选择待评测的模型
支持三种模型来源:
从训练任务中选择模型:选择该地域下的训练任务、该任务的 Checkpoint
从 CFS 中选择模型:选择该地域下的 CFS 实例、填写模型所在的路径
内置大模型:选择内置好的大模型
可打开高级设置,配置推理超参,推理超参支持如下:
repetition_penalty:用来控制重复惩罚
max_tokens: 用来控制输出文本的最长数量
temperature: 数值越高,输出越随机;数值越低,输出越集中和确定
top_p、top_k: 影响输出文本的多样性,数值越高,生成文本的多样性越强。建议该参数和temperature只设置1个
do_sample:确定模型推理时的采样方式,取值 true 时为 sample 方式;取值为 false 时为 greedy search 方式,此时,top_p、top_k、temperature、repetition_penalty 不生效
计费模式
可选择按量付费模式或包年包月(资源组)模式:
(A)按量付费模式下,用户无需预先购买资源组,根据服务依赖的算力规格,启动服务时冻结两小时费用,之后每小时根据运行中的实例数量按量扣费
(B)包年包月(资源组)模式下,可使用在资源组管理模块已购买的资源组部署服务,算力费用在购买资源组时已支付,启动服务时无需扣费
资源组
若选择包年包月(资源组)模式,可选择资源组管理模块的资源组
3. 填写对应信息,新建好主观评测任务后,会在任务列表页展示:任务名称、计费模式、状态、进度、备注、创建时间、操作(停止、重启、删除、推理进度)。


4. 单击推理进度,您可下载查看当前进度下的评测结果集。



5. 主观评测任务已完成后,您可单击任务名称,进入任务详情,查看基本信息、人工标注、模型推理输出、日志。


6. 人工标注 Tab 页,您可选择要评分的评测集,进行人工打分,打分完提交标注结果。



7. 模型推理输出 Tab 页,您可查看进度和评测结果集。



8. 日志 Tab 页,您可查看推理日志和接口调用日志。