TI-ONE 训练平台创建大模型的数据标注任务

概述
腾讯云 TI 平台支持针对 LLM&MLLM 大模型数据集进行标注，支持用户自定义数据集的 schema 信息来灵活搭建定制的标注操作台。
新建标注任务
在数据中心 > 数据集管理模块，选择已新建好的大模型数据集，单击“操作-标注”按钮，后台会自动依据该数据集的 schema 配置信息创建对应的标注操作台。
重要的注意事项：
数据中心仅仅是将该数据集关联到用户的 cfs 路径上，数据中心并不会将用户的原始数据文件进行复制、转存。
用户在 TI 平台对该数据集进行标注时，标注结果会直接且实时的写到您数据集的原始文件中。所以，若您不希望原始文件被修改，请提前完成原始文件备份。
﻿
﻿
﻿
大模型标注操作台
TI 平台灵活的 schema 能支持的标注场景包括但不限于：高质量文本问答对筛选、文本数据清洗、图片问答对审核/修改、图片问答竞品评测、图片多轮问答、多模态阅读理解图片文本描述等。
以下给出 3 个不同 schema 配置对应的标注操作台示例：
1. 针对多图的多轮问答
desc: 多图多轮问答
record_fields:
  - name: img  # 标注工作台展示的标注组件名称
    key: img  # 导出标注结果的json字段名称
    type: ImageListInput  # 组件类型
    help: "请添加字段描述"  # 组件帮助说明
    value: 
      {{- range .Values.img }}  # 使用循环引用图片列表
      - {{ . }}
      {{- end }}
  - name: target  # 标注工作台展示的标注组件名称
    key: target  # 导出标注结果的json字段名称
    type: List  # 组件类型
    help: "请添加字段描述"  # 组件帮助说明
    value: 
      {{- range .Values.target }}  # 使用循环展开List列表内容
    -
      - name: 问题  # 标注工作台展示的标注组件名称
        key: question  # 导出标注结果的json字段名称
        type: TextInput  # 组件类型
        help: "请添加字段描述"  # 组件帮助说明
        value: "{{ .question }}"
        size: MultiLine
      - name: 答案  # 标注工作台展示的标注组件名称
        key: answer  # 导出标注结果的json字段名称
        type: TextInput  # 组件类型
        help: "请添加字段描述"  # 组件帮助说明
        value: "{{ .answer }}"
        size: LongArticle
      {{- end }}
﻿
﻿
﻿
在该场景下，可以配置 schema 实现多张图片的展示、问题和答案问答对配对展示，同时支持对问答对进行删除和添加，也支持调整问答对的先后顺序；同时用户还可以依据“问题、答案”两个字段不同的文本长度设置不同的输入框大小。
标注操作台功能细节：
可单击左侧图片区域上方的“缩放视图”调整图片展示大小。
可单击标题栏处右侧的“设置”按钮，设置字号大小以及文本中的 markdown 内容是否要展示。
﻿
﻿
﻿
可单击切换标注状态“未标/已标”；若当前样本有标注内容的修改，则后台会自动将状态流转为“已标”，若当前样本无任何修改，用户也可以手动单击“未标”按钮来切换成“已标”状态。
﻿
2. 针对单图的多模型评测
desc: 自动生成的YAML
record_fields:
  - name: 图片  # 标注工作台展示的标注组件名称
    key: Images  # 导出标注结果的json字段名称(支持英文字母下划线，不能以数字开头)
    type: ImageViewer  # 组件类型
    help: "请添加字段描述"  # 组件帮助说明
    value: "{{ .Values.Images }}"
  - name: 问题  # 标注工作台展示的标注组件名称
    key: Query  # 导出标注结果的json字段名称(支持英文字母下划线，不能以数字开头)
    type: TextInput  # 组件类型
    help: "请添加字段描述"  # 组件帮助说明
    value: "{{ .Values.Query }}"
    size: MultiLine
  - name: 参考答案  # 标注工作台展示的标注组件名称
    key: sn_vl_0_6_0_10b_8k_beta_0624  # 导出标注结果的json字段名称(支持英文字母下划线，不能以数字开头)
    type: TextInput  # 组件类型
    help: "请添加字段描述"  # 组件帮助说明
    value: "{{ .Values.gtmodel }}"
    size: LongArticle
  - name: 选择最好的模型                # 标注工作台展示的标注组件名称
    key: correct_model             # 导出json标注结果时候该组件对应的json字段key
    type: StringSelector            # 表明该组件类型是字符串选择组件
    option: SingleSelector           # 表明该组件是多选。字段取值范围：SingleSelector/MultiSelector
    help: 模型评测             # 组件帮助说明
    choices:                        # 指定选项的内容
      - 模型1
      - 模型2
      - 模型3
      - 都舍弃
  - name: 模型1的答案  # 标注工作台展示的标注组件名称
    key: kzx2npurd5  # 导出标注结果的json字段名称(支持英文字母下划线，不能以数字开头)
    type: TextInput  # 组件类型
    help: "请添加字段描述"  # 组件帮助说明
    value: '{{ index .Values.model1 }}'
    size: MultiLine
  - name: 模型2的答案  # 标注工作台展示的标注组件名称
    key: FT_qw15_sft_0626_v100_800  # 导出标注结果的json字段名称(支持英文字母下划线，不能以数字开头)
    type: TextInput  # 组件类型
    help: "请添加字段描述"  # 组件帮助说明
    value: "{{ .Values.model2 }}"
    size: MultiLine
  - name: 模型3的答案  # 标注工作台展示的标注组件名称
    key: V4_FT_qw15_sft_0726_temp_old_500  # 导出标注结果的json字段名称(支持英文字母下划线，不能以数字开头)
    type: TextInput  # 组件类型
    help: "请添加字段描述"  # 组件帮助说明
    value: "{{ .Values.model3 }}"
    size: MultiLine
﻿
﻿
﻿
在该场景下，可以配置 schema 实现展示单张测试图片，以及配置展示不同模型的推理结果、设置待评测选择的模型名称。
﻿
3. 筛选高质量的文本问答对
desc: 自动生成的YAML
record_fields:
  - name: 问题  # 标注工作台展示的标注组件名称
    key: question  # 导出标注结果的json字段名称(支持英文字母下划线，不能以数字开头)
    type: TextViewer  # 组件类型
    help: "请添加字段描述"  # 组件帮助说明
    value: "{{ .Values.question }}"
    size: MultiLine
  - name: 答案  # 标注工作台展示的标注组件名称
    key: answer  # 导出标注结果的json字段名称(支持英文字母下划线，不能以数字开头)
    type: TextInput  # 组件类型
    help: "请添加字段描述"  # 组件帮助说明
    value: "{{ .Values.answer }}"
    size: MultiLine
  - name: tag  # 标注工作台展示的标注组件名称
    key: tag  # 导出标注结果的json字段名称(支持英文字母下划线，不能以数字开头)
    type: TextInput  # 组件类型
    help: "请添加字段描述"  # 组件帮助说明
    value: "{{ .Values.tag }}"
    size: SingleLine
  - name: 是否正确                   # 标注工作台展示的标注组件名称
    key: correct                    # 导出json标注结果时候该组件对应的json字段key
    type: StringSelector            # 表明该组件类型是字符串选择组件
    help: 请判断答案是否正确           # 组件帮助说明
    option: SingleSelector          # 表明该组件是单选。字段取值范围：SingleSelector/MultiSelector
    choices:                        # 指定选项的内容
      - 正确
      - 舍弃
      - 存疑
﻿
﻿
﻿
在该场景下，可以配置 schema 实现展示不可编辑修改的“问题”字段，防止标注人员在标注过程中的误操作，可设置“答案”字段为可编辑字段，同时支持用户配置自定义的筛选枚举值“正确、舍弃、存疑”。
﻿
创建大模型的数据标注任务

本页目录：

概述

新建标注任务

大模型标注操作台