TI-ONE 训练平台自动评测：指标快捷配置文件规范

用户在自动评测页面配置指标时，可通过上传文件进行指标的快捷配置。文件中需包含评测集、评测集对应的指标名称、每个指标名称对应的详细配置信息（如裁判模型信息、打分 Prompt、前后处理脚本等）。用户单击快捷配置按钮，上传自定义 YAML 配置文件以及需引用的文件，上传完毕后单击应用按钮，平台将自动根据用户填写的评测集名称对应在 YAML 配置文件中的指标、以及指标的配置信息在页面进行自动填充。
﻿
YAML 配置文件结构要求
YAML 文件需明确定义评测集的评测规则，核心字段示例如下：
- data_name: your_dataset_name  # 数据集名称，依本字段和在评测集配置页面所填写的名称进行关联
  metrics:  # 接下来配置的是该数据集所包含的一个或多个指标
      # name 指标名
    - name: 裁判模型打分  
      # pipeline 字段用于定义打分过程，本数组每个成员依次对应一个处理节点
      pipeline:
        # type 为 PREPROCESS 代表本节点是前处理节点
        - type: PREPROCESS
          # filename 用于指定前处理/后处理依赖的 Python 脚本名
          # 本字段填写相应文件相对于压缩包内根目录的相对路径
          filename: scripts/preprocessor.py
          # file_content 前处理/后处理步骤也可以直接将脚本内容填入本字段
          file_content: |-
            def preprocess(data, resp, **kwargs) -> bool | int | str | float | None:
                pass
        
        # type 为 JUDGE_MODEL 代表本节点是裁判模型打分节点                                     
        - type: JUDGE_MODEL
          # 通过配置 judge_model 字段来配置裁判模型的信息
          judge_model:
            name: DeepSeek-R1  # 裁判模型名称
            # 裁判模型调用方式：
            #   填写 MS 代表使用 TI 平台在线服务
            #   填写 URL 代表使用第三方URL
            source: MS
            # ti_model_service_api 如果使用 TI 平台在线服务则需要填写本字段
            ti_model_service_api:  
              # service_group_id 在线服务ID，例如 ms-45mrs4rv
              service_group_id: ms-xxxx
              # service_group_name 在线服务名称
              service_group_name: "DeepSeek-R1裁判模型"  
              # service_id 在线服务ID，对应在线服务详情-服务管理中的某个版本的ID，例如 ms-45mrs4rv-1
              # 如果不填，则默认填写为 service_group_id 加后缀 -1
              service_id: ms-xxxx-1
              # url_prefix 在线服务详情-“服务调用”页面所展示的“常规服务调用”地址
              url_prefix: http://ms-xxxx-uuuu-sw.gw.ap-region.ti.tencentcs.com/ms-xxxx
              # path_suffix 在线服务暴露的调用对话接口的 path
              path_suffix: /v1/chat/completions
              # auth_token 鉴权 Token，可通过在线服务详情-“服务鉴权”页面查看
              auth_token: "aaaaaaaa"
            # third_party_api 如果填写URL进行调用，请填写本字段
            third_party_api:
              # url 调用 URL
              url: http://ms-xxxx-uuuu-sw.gw.ap-region.ti.tencentcs.com/ms-xxxx/v1/chat/completions
              # authorization_header 鉴权HTTP Header
              authorization_header: 
                # key HTTP Header Key
                key: authorization
                # value HTTP Header 内容
                value: your_token
            # generation_params 调用裁判模型的参数
            # 请特别注意：因为腾讯云API规范的限制，本字段是一个字符串
            # 即，请在本字段后添加 `|-` 以限制字段类型为字符串
            # 我们会在后续解析时，将本字段转换为裁判模型请求体中的参数
            generation_params: |-
              temperature: 0.8
              top_p: 0.85
 
            # judge_template_filename 裁判模型打分模板文件
            judge_template_filename: template.jinja
            # judge_template_content 如果不指定文件，也可以通过本字段指定裁判模型打分模板内容
            judge_template_content: |-
              你是一个裁判员，请对回答进行打分。最高分为 5 分，最低分为 1 分。
 
              [问题]
              {{ data.question }}
 
              [待评测模型的回答]
              {{ response.content }}
 
              [参考答案]
              {{ data.ref_answer }}
 
              现在请给出你的打分。
 
        # type 为 POSTPROCESS 代表本节点是后处理节点
        - type: POSTPROCESS
          filename: scripts/postprocessor.py
- data_name: another_dataset_name    # 用户可以在一个YAML配置文件中对多个数据集进行配置
  metrics:
    - name: 裁判模型打分
      pipeline:
        - type: PREPROCESS
          filename: preprocessor-at-root.py
        - type: JUDGE_MODEL
          filename: judge.yaml  # 裁判模型也可以单独通过 YAML 文件配置
        - type: POSTPROCESS
          filename: postprocessor-at-root.py
文件上传规范
YAML 配置文件中引用的其他文件，可通过前端上传；文件仅支持打包成 ZIP 或单选文件上传。
示例文件下载如下：
﻿裁判模型批量配置文件示例﻿
﻿裁判模型批量依赖文件示例﻿
﻿
自动评测：指标快捷配置文件规范

本页目录：

YAML 配置文件结构要求

文件上传规范