数据中心作为机器学习平台的基础数据服务模块,提供以下主要功能:
数据集管理
统一管理当前主账号下的所有数据集,数据集列表按照地域进行隔离;
数据集支持的建模任务类型有:
大模型建模数据集:支持大语言模型 LLM 数据集(jsonl)和多模态大模型 MLLM 数据集(jsonl);
传统 CV 建模数据集:图片 (jpg、png、jpeg、bmp);
大数据集建模数据集:表格 (xls、xlsx、csv) ;
其他:任意格式文件;
支持对数据内容进行详情预览,且支持对文本数据进行样本词频分析和样本长度分析等。
数据标注
提供 LLM&MLLM 大模型建模的数据标注操作台:利用 schema 灵活定义标注操作台组件;
提供内置的“图片分类”标注场景:识别数据集中每张图片所属的标注类别,如猫、狗图片分类标注;
提供内置的“目标检测”标注场景:识别数据集中每张图片里指定物体的所在位置及其类别,如画框检测图片中的猫、狗标注任务;
提供内置的“目标跟踪”标注场景:对数据集中连续的多张图片里的某个物体进行跟踪标记;
提供内置的“图片分割”标注场景:识别数据集中每张图片里指定标注类别的物体的所在区域;
提供内置的 “OCR” 标注场景:支持对图片的文字内容进行识别/检测,或者智能结构化的标注。
数据构建
提供最佳实践文档指导用户进行前置数据预处理;
提供多种内置算法任务,每个任务都有高质量的 prompt 和内置自研数据;
提供四种内置的数据构建 pipeline:有监督-单轮 QA-pipeline、有监督-多轮 QA-pipeline、无监督-pipeline;
提供多种数据处理功能:数据清洗、prompt 优化、数据过滤、数据增强等。