概述
数据集列表页面统一管理了该用户账号下所有数据集的集合,展示了数据集的关键信息,支持“标注、删除、配置schema”操作,且支持用户单击数据集名称进入查看数据集详情。
列表字段
数据集列表页面展示字段及其含义解释如下:


名称:展示数据集的自定义名称,且支持单击名称进入查看该数据集的详情页面;
标注进度/数据集总量:
大模型建模数据集:按照 schema 的解析规则,一条完整的样本计数为1,单位:条;在标注操作台有过标注动作的样本会被计为“已标注”;
传统CV建模数据集(图片):统计路径下所有图片张数,单位:张;有标注结果的图片计为“已标注”;
大数据建模数据集(表格):统计行数,单位:行;
其他:统计路径下的所有文件个数,单位:个;
建模任务类型:用户新建数据集时的自定义参数;
数据集标签:
大模型建模数据集:用户在新建数据集配置页面自定义输入的标签内容;
传统CV建模数据集:按照该数据集所属的图像场景默认打标,枚举值有:“图像分类、图像检测、图像分割、图像目标跟踪、OCR”;
标签:展示在数据集导入时,用户选择的腾讯云 CAM “标签”;
状态:
大模型建模数据集
新建成功后,即进入“可用”状态,但需要完成“操作-配置schema”后才可进一步查看数据集详情和进行标注操作。
传统CV建模数据集
导入 XX%:用百分比的形式实时展示数据集从用户单击导入页面的确定按钮到数据集成功导入的进度;
可用:一旦数据集导入成功或者同步数据源成功,则转为“可用”状态;“标注”操作失败、“下载”操作失败、“发布”新版本操作失败时,该数据集依然保留为“可用”状态;若“同步数据源”操作失败,则数据集转为“失败”状态;
失败:支持悬浮展示导入失败/同步数据源失败的详细原因;
不可用:当数据集处于删除中操作时数据集都为“不可用”状态;
创建时间:记录数据集创建的时间,支持用户点选顺序、倒叙的排序展示;
操作:以下详细介绍操作功能。
操作-标注
支持用户利用该数据集一键点击创建数据标注任务:


若是大模型建模数据集,则单击 确定 后,平台会直接为用户创建对应的标注任务,标注任务创建好后会直接跳转到标注操作台。
若是传统CV建模数据集,则单击 确定 后,在当前页面内跳转到“数据中心-数据标注-新建标注任务”的配置页面,同时会默认选中该数据集,且不支持用户修改。
注意
一个数据集的仅支持同时创建一个标注任务;
只有对该数据集对应的 COS/CFS 路径有写权限的用户才能利用该数据集创建数据标注任务。
操作-删除
若是大模型数据集:则删除该数据集不会影响原始存储在 CFS 上的数据文件,仅仅是将该条数据集记录从 TI 平台删除。

若是非大模型数据集:
后台从 TI 平台解除对应 COS 路径和该数据集的绑定操作,删除该条数据集记录;
(用户可勾选)在删除数据集的同时,后台自动清理该数据集定义的输出路径下的 COS 存储桶里面的文件,仅自动清理输出路径下的文件,不清理用户原本输入路径下的文件。

操作-配置 schema
该操作仅针对大模型建模数据集,支持用户通过自定义配置数据集的 schema 信息来定义各种复杂的 LLM&MLLM 数据内容。schema 配置规则请参考 schema 配置详细语法。配置页面左侧是平台展示的用户原始数据部分内容,便于用户参考左侧改写右侧的 schema 配置。且支持用户单击 下一步:预览标注工作台 按钮实时查看 schema 的配置效果以确保配置符合预期。若用户发现标注操作台不符合预期可以再单击返回 上一步:基础信息 进行配置修改。


数据集的 schema 配置成功后,页面会自动跳回数据集列表,此时平台会依据您配置的 schema 信息解析数据文件中的全量样本,您可单击列表页面的状态 > 查看进度 按钮实时查看全量解析进度。


数据集详情页面
大模型数据集
单击大模型数据集名称,可进入查看数据集详情内容,且展示的详情内容是按照用户配置的 schema 进行解析后的展示。如针对多模态数据集,会直接将图片和对应的文本内容配对在同一行进行展示,提高数据样本的可读性。

传统CV数据集
注意
单击图片数据集名称,可进入查看数据集详情内容。详情页包含三大部分内容:
基本信息:该部分展示数据集的关键信息。
标注信息可视化:若当前数据集绑定了“图片分类/目标检测/图片分割”的标注信息,则展示该模块(其余场景下,该模块自动隐藏)。注意:后台能统计的标签值的数量上限为 20 个(按照占比排序的 Top 20 展示),超出 20 个的其他类别,都统一收归到“其他”类别中。
详情展示:该部分支持用户预览数据集中前 2000 张的图片内容列表。且支持按标注状态筛选和按指定标注类别筛选进行展示。


大数据表格数据集
单击表格数据集名称,可进入查看数据集详情内容。详情页包含两大部分内容:
基本信息:该部分展示数据集的关键信息。
详情展示:该部分支持用户预览数据集中前 2000 行的表格内容,且针对可枚举的列支持单击查看列数据分布信息(统计分析维度是整个数据集,不仅是前端预览的 2000 行内容)。


其他类型数据集
单击其他类型的数据集名称,进入的数据集详情页仅展示数据集的基本信息,由于该类型的数据集导入格式不做任何限制所以详情页不支持内容预览。