数据构建

最近更新时间:2024-08-22 11:05:01

我的收藏

概述

数据中心-数据构建模块帮助客户在遇到同类型任务场景时,直接复用平台的数据处理 pipeline:有监督-单轮 QA-pipeline、有监督-多轮 QA-pipeline、无监督-pipeline,实现数据清洗、prompt 优化、数据过滤、数据增强等功能。

创建标注任务

1. 数据中心-数据构建模块,单击新建标注任务,完成参数配置:
任务名称:用户自定义输入,名称在数据构建模块全局唯一;
数据构建pipeline:支持用户选择“数据构建 pipeline”参数,可以多选,类别包含:
有监督-单轮 QA-pipeline
有监督-多轮 QA-pipeline
无监督-pipeline
通用算法任务:支持用户选择“通用算法任务”参数,将需求场景映射到通用算法任务的三级类别树上的某一个或多个具体节点上;
备注:用户输入自定备注内容。
2. 单击配置页面的提交后,新建任务完成后,返回数据构建任务列表页面:


创建时间:该数据构建任务启动创建的时间点;
操作:
跳转到对应 Notebook:进入 Notebook 模块;
删除:若对应的 notebook 已删除,则可直接确认删除任务;若对应的 notebook 还未删除,用户需要先删除 notebook 后再删除数据构建任务。
搜索框:支持用户通过任务名称模糊匹配搜索,是全局搜索。

新建 Notebook 实例

选择数据构建 > 操作 > 跳转到对应 Notebook 进入 Notebook 模块。
1. 首次创建
当某一个任务首次被单击跳转到对应 Notebook 按钮时,用户需要先创建一个 Notebook 实例,首次单击后自动跳转到训练工坊 > Notebook > 新建Notebook参数配置页:


名称:用户自定义输入,名称在 Notebook 模块全局唯一;
镜像:针对数据构建跳转过来的镜像,默认选中“数据构建专用的内置镜像”且不可修改(只有跳转过来才看得到该镜像,如果是 Notebook 的通用正常入口就看不到本次新增的内置镜像);
算力规格:数据构建只需要 CPU 即可,不需要 GPU;
存储配置:目前建议存储是“CFS 文件系统/CFS Trubo 文件系统”;
其余参数配置和 Notebook 已有功能要保持一致。
单击配置页面的确定后,新建任务完成后,返回 Notebook 实例列表页面,等待创建成功:



2. 非首次创建
用户再次单击数据构建 > 跳转到对应Notebook 按钮,则直接跳转到 Notebook 实例列表页面对应 Notebook 实例的“ID”展示检索后的结果。




3. 进入 Notebook 编辑预置 pipeline 脚本
在 Notebook 中默认展示平台为客户提前预置好的数据构建 pipeline,由于新建任务时的参数配置页的“数据构建 pipeline”参数支持多选,所以 Notebook 中可能内置存在一套或多套 pipeline:


其中文件夹的层级组织形式参考:
multi_round_qa_pipeline
single_round_qa_pipeline
unsupervised_pipeline









每套 pipeline 文件夹下的 quick_start.ipynb 文件中有该 pipeline 的简介与最佳实践的步骤说明,用户可根据该文件快速上手使用对应的数据构建 pipeline。