有奖捉虫:办公协同&微信生态&物联网文档专题 HOT

概述

数据集列表页面统一管理了该用户账号下所有数据集的集合,展示了数据集的基本关键信息,支持“标注、删除、发布、下载、同步数据源”等操作,且支持用户单击数据集名称进入查看数据集详情。

列表字段

数据集列表页面展示字段及其含义解释如下:

名称:展示数据集的自定义名称,且支持单击名称进入查看该数据集的详情信息;
版本:数据中心提供对数据集实现版本管理的功能;展示数据集对应的版本号,版本号为后台自动生成,每次单击发布操作后,版本号都自动加1。支持单击数据集名称前面的展开按钮,展开该数据集的所有版本列表。数据集不同版本之间数据集ID也不同;
数据集类型:用户可筛选展示不同的数据集类型(文本、图片、表格、其他);
数量:后台统计当前数据集的内容数量;
文本:(不同的样本粒度对应不同的统计维度)按行:统计行数,单位:行;按文件:统计数据路径下的文件个数,单位:个;
图片:统计路径下所有张数,单位:张;
表格:统计行数,单位:行;
其他:统计路径下的所有文件个数,单位:个;
标签:展示在数据集导入时,用户选择的腾讯云 CAM “标签”,支持筛选展示;
状态:
导入 XX%:用百分比的形式实时展示数据集从用户单击导入页面的确定按钮到数据集成功导入的进度;
可用:一旦数据集导入成功或者同步数据源成功,则转为“可用”状态;“标注”操作失败、“下载”操作失败、“发布”新版本操作失败时,该数据集依然保留为“可用”状态;若“同步数据源”操作失败,则数据集转为“失败”状态;
失败:支持悬浮展示导入失败/同步数据源失败的详细原因;
不可用:当数据集处于删除中、发布中操作时数据集都为“不可用”状态;
同步 XX%:用户选择操作 > 同步数据源后,进入同步进度实时展示,将对应 COS 路径下的最新数据拉取到数据集中;
标注任务名称:展示该数据集在对应的“数据标注”模块对应的标注任务的名称,单击任务名称可直接跳转到该标注任务对应的标注操作台中。一个数据集的一个版本仅能对应一个标注任务。若没有标注任务,该列则显示“-”;
创建时间:记录数据集创建的时间,支持用户点选顺序、倒叙的排序展示;
操作:以下详细介绍操作功能。

操作-标注

支持用户利用该数据集一键创建数据标注任务。单击确定后,在当前页面内跳转到“数据中心-数据标注-新建标注任务”的配置页面,同时会默认选中该数据集,且不支持用户修改。

注意
一个数据集的一个版本仅支持同时创建一个标注任务;
只有对该数据集对应的 COS 路径有写权限的用户才能利用该数据集创建数据标注任务。

操作-删除

支持用户“删除”数据中心的数据集记录,对应的操作为:
后台从 TI 平台解除对应 COS 路径和该数据集的绑定操作,删除该条数据集记录;
(用户可勾选)在删除数据集的同时,后台自动清理该数据集定义的输出路径下的 COS 存储桶里面的文件,仅自动清理输出路径下的文件,不清理用户原本输入路径下的文件。


操作-发布

支持对该数据集有写权限的用户为该数据集发布新的版本,“发布”操作为基于当前数据集内容关联得到一个新版本,不做深拷贝存储。


操作-下载

下载数据集操作,可唤起 COSBrowser 客户端,默认定位到该数据集所在的存储路径,用户可通过 COS 下载对应数据集内容。


操作-同步数据源

支持对该数据集对应 COS 路径有写权限的用户同步 COS 数据源头路径下的最新内容到该数据集中。


数据集详情页面

注意
针对数据集详情页面的“详情预览”和“数据透视”的功能,腾讯公有云 COS 为每个账号每个月免费提供 10T 大小的详情预览流量,超出部分的流量将产生计费,详情参考 COS 处理计费规则

图片类型

单击图片数据集名称,可进入查看数据集详情内容。详情页包含三大部分内容:
基本信息:该部分展示数据集的关键信息。
标注信息可视化:若当前数据集绑定了“图片分类/目标检测/图片分割”的标注信息,则展示该模块(其余场景下,该模块自动隐藏)。注意:后台能统计的标签值的数量上限为 20 个(按照占比排序的 Top 20 展示),超出 20 个的其他类别,都统一收归到“其他”类别中。
详情展示:该部分支持用户预览数据集中前 2000 张的图片内容列表。且支持1)按标注状态筛选和2)按指定标注类别筛选进行展示。


文本类型

单击文本数据集名称,可进入查看数据集详情内容。详情页包含四大部分内容:
基本信息:该部分展示数据集的关键信息。
标注信息可视化:若当前数据集绑定了“文本分类”的标注信息,则显示该统计模块(其余场景下,该模块自动隐藏),可视化展示了不同标注类别下的样本数量和占比信息。
详情展示:该部分支持用户预览数据集中前 2000 行的文本内容。且支持1)按标注状态筛选和2)按指定标注类别筛选进行展示。
数据透视:该部分支持对文本类型的数据集进行样本词频和长度分布等信息的统计展示,目前平台内置的样本分词器有“英文/中文”两种语言。


表格类型

单击表格数据集名称,可进入查看数据集详情内容。详情页包含两大部分内容:
基本信息:该部分展示数据集的关键信息。
详情展示:该部分支持用户预览数据集中前 2000 行的表格内容,且针对可枚举的列支持单击查看列数据分布信息(统计分析维度是整个数据集,不仅是前端预览的 2000 行内容)。


其他类型

单击其他类型的数据集名称,进入的数据集详情页仅展示数据集的基本信息,由于该类型的数据集导入格式不做任何限制所以详情页不支持内容预览。