数据中心简介

最近更新时间:2024-03-29 17:16:21

我的收藏
数据中心作为机器学习平台的基础数据服务模块,提供以下主要功能:

数据集管理

统一管理当前主账号下的所有数据集,数据集列表按照地域进行隔离;
支持的数据类型有:文本 (txt、csv、json)、图片 (jpg、png、jpeg、bmp)、表格 (xls、xlsx、csv) 和其他(任意格式文件);
支持对文本、图片和表格类型的数据内容进行详情预览,且支持对文本数据进行样本词频分析和样本长度分析等;
支持导入已标注的图片和文本类型的数据,图片标注格式支持 TI 平台格式和业内通用的 Pascal Voc、COCO 格式;且支持对图片/文本的标注信息进行统计分布可视化展示。

数据标注

提供内置的“图片分类”标注场景:识别数据集中每张图片所属的标注类别,如猫、狗图片分类标注;
提供内置的“目标检测”标注场景:识别数据集中每张图片里指定物体的所在位置及其类别,如画框检测图片中的猫、狗标注任务;
提供内置的“目标跟踪”标注场景:对数据集中连续的多张图片里的某个物体进行跟踪标记;
提供内置的“图片分割”标注场景:识别数据集中每张图片里指定标注类别的物体的所在区域;
提供内置的 “OCR” 标注场景:支持对图片的文字内容进行识别/检测,或者智能结构化的标注。

数据构建

提供最佳实践文档指导用户进行前置数据预处理;
提供多种内置算法任务,每个任务都有高质量的 prompt 和内置自研数据;
提供四种内置的数据构建 pipeline:有监督-单轮 QA-pipeline、有监督-多轮 QA-pipeline、无监督-pipeline;
提供多种数据处理功能:数据清洗、prompt 优化、数据过滤、数据增强等。