概述
腾讯云 TI 平台支持针对 LLM&MLLM 大模型数据集进行标注,支持用户自定义数据集的 schema 信息来灵活搭建定制的标注操作台。
新建标注任务
在数据中心 > 数据集管理模块,选择已新建好的大模型数据集,单击“操作-标注”按钮,后台会自动依据该数据集的 schema 配置信息创建对应的标注操作台。
重要的注意事项:
数据中心仅仅是将该数据集关联到用户的 cfs 路径上,数据中心并不会将用户的原始数据文件进行复制、转存。
用户在 TI 平台对该数据集进行标注时,标注结果会直接且实时的写到您数据集的原始文件中。所以,若您不希望原始文件被修改,请提前完成原始文件备份。


大模型标注操作台
TI 平台灵活的 schema 能支持的标注场景包括但不限于:高质量文本问答对筛选、文本数据清洗、图片问答对审核/修改、图片问答竞品评测、图片多轮问答、多模态阅读理解图片文本描述等。
以下给出 3 个不同 schema 配置对应的标注操作台示例:
1. 针对多图的多轮问答
desc: 多图多轮问答 record_fields: - name: img # 标注工作台展示的标注组件名称 key: img # 导出标注结果的json字段名称 type: ImageListInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: {{- range .Values.img }} # 使用循环引用图片列表 - {{ . }} {{- end }} - name: target # 标注工作台展示的标注组件名称 key: target # 导出标注结果的json字段名称 type: List # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: {{- range .Values.target }} # 使用循环展开List列表内容 - - name: 问题 # 标注工作台展示的标注组件名称 key: question # 导出标注结果的json字段名称 type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .question }}" size: MultiLine - name: 答案 # 标注工作台展示的标注组件名称 key: answer # 导出标注结果的json字段名称 type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .answer }}" size: LongArticle {{- end }}


在该场景下,可以配置 schema 实现多张图片的展示、问题和答案问答对配对展示,同时支持对问答对进行删除和添加,也支持调整问答对的先后顺序;同时用户还可以依据“问题、答案”两个字段不同的文本长度设置不同的输入框大小。
标注操作台功能细节:
可单击左侧图片区域上方的“缩放视图”调整图片展示大小。
可单击标题栏处右侧的“设置”按钮,设置字号大小以及文本中的 markdown 内容是否要展示。


可单击切换标注状态“未标/已标”;若当前样本有标注内容的修改,则后台会自动将状态流转为“已标”,若当前样本无任何修改,用户也可以手动单击“未标”按钮来切换成“已标”状态。
2. 针对单图的多模型评测
desc: 自动生成的YAML record_fields: - name: 图片 # 标注工作台展示的标注组件名称 key: Images # 导出标注结果的json字段名称(支持英文字母下划线,不能以数字开头) type: ImageViewer # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .Values.Images }}" - name: 问题 # 标注工作台展示的标注组件名称 key: Query # 导出标注结果的json字段名称(支持英文字母下划线,不能以数字开头) type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .Values.Query }}" size: MultiLine - name: 参考答案 # 标注工作台展示的标注组件名称 key: sn_vl_0_6_0_10b_8k_beta_0624 # 导出标注结果的json字段名称(支持英文字母下划线,不能以数字开头) type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .Values.gtmodel }}" size: LongArticle - name: 选择最好的模型 # 标注工作台展示的标注组件名称 key: correct_model # 导出json标注结果时候该组件对应的json字段key type: StringSelector # 表明该组件类型是字符串选择组件 option: SingleSelector # 表明该组件是多选。字段取值范围:SingleSelector/MultiSelector help: 模型评测 # 组件帮助说明 choices: # 指定选项的内容 - 模型1 - 模型2 - 模型3 - 都舍弃 - name: 模型1的答案 # 标注工作台展示的标注组件名称 key: kzx2npurd5 # 导出标注结果的json字段名称(支持英文字母下划线,不能以数字开头) type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: '{{ index .Values.model1 }}' size: MultiLine - name: 模型2的答案 # 标注工作台展示的标注组件名称 key: FT_qw15_sft_0626_v100_800 # 导出标注结果的json字段名称(支持英文字母下划线,不能以数字开头) type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .Values.model2 }}" size: MultiLine - name: 模型3的答案 # 标注工作台展示的标注组件名称 key: V4_FT_qw15_sft_0726_temp_old_500 # 导出标注结果的json字段名称(支持英文字母下划线,不能以数字开头) type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .Values.model3 }}" size: MultiLine


在该场景下,可以配置 schema 实现展示单张测试图片,以及配置展示不同模型的推理结果、设置待评测选择的模型名称。
3. 筛选高质量的文本问答对
desc: 自动生成的YAML record_fields: - name: 问题 # 标注工作台展示的标注组件名称 key: question # 导出标注结果的json字段名称(支持英文字母下划线,不能以数字开头) type: TextViewer # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .Values.question }}" size: MultiLine - name: 答案 # 标注工作台展示的标注组件名称 key: answer # 导出标注结果的json字段名称(支持英文字母下划线,不能以数字开头) type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .Values.answer }}" size: MultiLine - name: tag # 标注工作台展示的标注组件名称 key: tag # 导出标注结果的json字段名称(支持英文字母下划线,不能以数字开头) type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .Values.tag }}" size: SingleLine - name: 是否正确 # 标注工作台展示的标注组件名称 key: correct # 导出json标注结果时候该组件对应的json字段key type: StringSelector # 表明该组件类型是字符串选择组件 help: 请判断答案是否正确 # 组件帮助说明 option: SingleSelector # 表明该组件是单选。字段取值范围:SingleSelector/MultiSelector choices: # 指定选项的内容 - 正确 - 舍弃 - 存疑


在该场景下,可以配置 schema 实现展示不可编辑修改的“问题”字段,防止标注人员在标注过程中的误操作,可设置“答案”字段为可编辑字段,同时支持用户配置自定义的筛选枚举值“正确、舍弃、存疑”。