用户在自动评测页面配置指标时,可通过上传文件进行指标的快捷配置。文件中需包含评测集、评测集对应的指标名称、每个指标名称对应的详细配置信息(如裁判模型信息、打分 Prompt、前后处理脚本等)。用户单击快捷配置按钮,上传自定义 YAML 配置文件以及需引用的文件,上传完毕后单击应用按钮,平台将自动根据用户填写的评测集名称对应在 YAML 配置文件中的指标、以及指标的配置信息在页面进行自动填充。

YAML 配置文件结构要求
YAML 文件需明确定义评测集的评测规则,核心字段示例如下:
- data_name: your_dataset_name # 数据集名称,依本字段和在评测集配置页面所填写的名称进行关联metrics: # 接下来配置的是该数据集所包含的一个或多个指标# name 指标名- name: 裁判模型打分# pipeline 字段用于定义打分过程,本数组每个成员依次对应一个处理节点pipeline:# type 为 PREPROCESS 代表本节点是前处理节点- type: PREPROCESS# filename 用于指定前处理/后处理依赖的 Python 脚本名# 本字段填写相应文件相对于压缩包内根目录的相对路径filename: scripts/preprocessor.py# file_content 前处理/后处理步骤也可以直接将脚本内容填入本字段file_content: |-def preprocess(data, resp, **kwargs) -> bool | int | str | float | None:pass# type 为 JUDGE_MODEL 代表本节点是裁判模型打分节点- type: JUDGE_MODEL# 通过配置 judge_model 字段来配置裁判模型的信息judge_model:name: DeepSeek-R1 # 裁判模型名称# 裁判模型调用方式:# 填写 MS 代表使用 TI 平台在线服务# 填写 URL 代表使用第三方URLsource: MS# ti_model_service_api 如果使用 TI 平台在线服务则需要填写本字段ti_model_service_api:# service_group_id 在线服务ID,例如 ms-45mrs4rvservice_group_id: ms-xxxx# service_group_name 在线服务名称service_group_name: "DeepSeek-R1裁判模型"# service_id 在线服务ID,对应在线服务详情-服务管理中的某个版本的ID,例如 ms-45mrs4rv-1# 如果不填,则默认填写为 service_group_id 加后缀 -1service_id: ms-xxxx-1# url_prefix 在线服务详情-“服务调用”页面所展示的“常规服务调用”地址url_prefix: http://ms-xxxx-uuuu-sw.gw.ap-region.ti.tencentcs.com/ms-xxxx# path_suffix 在线服务暴露的调用对话接口的 pathpath_suffix: /v1/chat/completions# auth_token 鉴权 Token,可通过在线服务详情-“服务鉴权”页面查看auth_token: "aaaaaaaa"# third_party_api 如果填写URL进行调用,请填写本字段third_party_api:# url 调用 URLurl: http://ms-xxxx-uuuu-sw.gw.ap-region.ti.tencentcs.com/ms-xxxx/v1/chat/completions# authorization_header 鉴权HTTP Headerauthorization_header:# key HTTP Header Keykey: authorization# value HTTP Header 内容value: your_token# generation_params 调用裁判模型的参数# 请特别注意:因为腾讯云API规范的限制,本字段是一个字符串# 即,请在本字段后添加 `|-` 以限制字段类型为字符串# 我们会在后续解析时,将本字段转换为裁判模型请求体中的参数generation_params: |-temperature: 0.8top_p: 0.85# judge_template_filename 裁判模型打分模板文件judge_template_filename: template.jinja# judge_template_content 如果不指定文件,也可以通过本字段指定裁判模型打分模板内容judge_template_content: |-你是一个裁判员,请对回答进行打分。最高分为 5 分,最低分为 1 分。[问题]{{ data.question }}[待评测模型的回答]{{ response.content }}[参考答案]{{ data.ref_answer }}现在请给出你的打分。# type 为 POSTPROCESS 代表本节点是后处理节点- type: POSTPROCESSfilename: scripts/postprocessor.py- data_name: another_dataset_name # 用户可以在一个YAML配置文件中对多个数据集进行配置metrics:- name: 裁判模型打分pipeline:- type: PREPROCESSfilename: preprocessor-at-root.py- type: JUDGE_MODELfilename: judge.yaml # 裁判模型也可以单独通过 YAML 文件配置- type: POSTPROCESSfilename: postprocessor-at-root.py
文件上传规范
YAML 配置文件中引用的其他文件,可通过前端上传;文件仅支持打包成 ZIP 或单选文件上传。
示例文件下载如下: