概述
数据中心支持新建/管理的用户数据集来源有:腾讯云文件存储 CFS 上的大模型类数据文件,以及 腾讯云对象存储 COS 上的图片/表格/其他类数据文件。所以整个数据中心模块对大模型建模数据集和传统建模数据集是分为了两套不同的产品逻辑分别进行支持。
注意
1. COS 为对象存储产品,独立计费,详细可见 对象存储-计费概述。
2. CFS 为文件存储场景,独立计费,详细可见 文件存储-价格总览。
3. 同一个公有云账号在同一个地域下最多可在数据中心同时维护 200 个数据集,若您的业务有扩容需求,可使用工单联系我们哦。
大模型建模数据集
大模型建模类型(LLM&MLLM)的数据集在新建时选择“建模任务类型-大模型建模”,只需要用户填写一条数据文件所在的 CFS 路径信息即可一键创建。数据中心仅仅是将该数据集关联到用户的 cfs 路径上,数据中心并不会将用户的原始数据文件进行复制、转存。且用户在 TI 平台对该大模型数据集进行标注时,标注结果会直接且实时的写到用户数据集的原始文件中。所以,若不希望原始文件被修改,请用户提前完成原始文件备份。

数据集名称:输入自定义数据集名称;
建模任务类型:如选择“大模型建模-LLM”,该参数仅作为任务类型的一个区分标记,不会对后续的产品流程产生严格的操作逻辑上的区别;
数据集 CFS 路径:请定位到您的数据文件所在的 CFS 路径,该路径不需要精准到 jsonl 文件,只需要精准到 jsonl 文件所在的目录层级即可;
数据集标签:为了便于用户更好的分类管理大量的数据集,支持用户在此灵活自由的给该数据集打上标签信息,后续数据中心支持通过标签对数据集进行检索。
传统CV建模数据集
新建未标注的图片数据集
若您的图片数据没有相关的标注信息,则新建数据集时,配置如下:

数据集名称:输入自定义数据集名称;
地域:数据集所在地域前端默认为您当前控制台所在地域;
标签:该参数是复用了 腾讯云【标签】产品,用户可给数据集打上不同的标签值;
建模任务类型:选择“传统CV建模”,然后依据您不同的图像场景对应选择“图像分类、图像检测、图像分割、图像目标跟踪、OCR”;
标注状态:选择“未标注”;
数据文件 COS 路径:指定选择图片数据所在的 腾讯云对象存储 COS 路径 即可。若您的图片文件还在本地未上传到 COS 路径下,则单击选择文件按钮后,选中某个存储桶,然后在弹框左下角选择上传文件等功能即可完成本地数据的上传:

COS 存储路径:该数据集后续在 TI 平台上可能产生的标注信息(利用该数据集创建了数据标注任务)、以及该数据集每个版本的数据信息/快照记录等文件将存储到该 COS 存储地址下。注意:该地址不能和“数据文件COS路径”参数配置相同;
数据集导入成功后,TI 平台支持在前端页面查看数据集详情,即可预览图片内容。
新建已标注的图片数据集
若您的图片数据中含有相关的标注信息,则导入数据集时,配置如下:


数据集名称:输入自定义数据集名称;
地域:数据集所在地域前端默认为您当前控制台所在地域;
标签:该参数是复用了 腾讯云【标签】产品,用户可给数据集打上不同的标签值;
建模任务类型:选择“传统CV建模”,然后依据您不同的图像场景对应选择“图像分类、图像检测、图像分割、图像目标跟踪、OCR”;
标注状态:选择“已标注”;
标注格式:不同的图像场景有不同的标注格式:
依据不同的标注格式,请按照对应的“文件存放示意图”的说明准备您的文件目录;
单击下载标注文件示例 下载查看标注文件的具体格式内容;
数据文件COS路径:指定选择图片数据所在的 腾讯云对象存储 COS 路径 即可;
COS 存储存储:该数据集后续在 TI 平台上可能产生的标注信息(利用该数据集创建了数据标注任务)等文件将存储到该 COS 存储地址下。注意:该地址不能和“数据文件COS路径”参数配置相同;
数据集导入成功后,TI 平台支持在前端页面查看数据集详情,即可预览图片内容,且可同时展示数据集标注信息的可视化分布图。
大数据建模数据集
若您要导入“大数据建模-表格”类型的数据集时,则配置如下:

数据集名称:输入自定义数据集名称;
地域:数据集所在地域前端默认为您当前控制台所在地域;
标签:该参数是复用了 腾讯云【标签】产品,用户可给数据集打上不同的标签值;
建模任务类型:选择“大数据建模-表格”;
标注状态:选择“未标注”,表格类型的数据集不支持上传已标注的数据文件;
数据文件 COS 路径:指定选择表格数据所在的 腾讯云对象存储 COS 路径 即可;
若数据文件包含表头,则请打开“是否包含表头”的按钮,并严格按照表格列名配置 Schema 信息,否则校验不通过会造成导入数据集失败;若数据文件不包含表头,则关闭“是否包含表”按钮,则平台会根据您自定义输入的 Schema 信息依次为您解析表格数据;
COS 存储路径:该数据集在 TI 平台产生的一些元信息记录文件将存储到该 COS 存储地址下。注意:该地址不能和“数据文件 COS 路径”参数配置相同;
数据集导入成功后,TI 平台支持在前端页面查看数据集详情,即可预览表格数据内容。且 TI 平台支持对可枚举列进行分布统计展示。
其他数据集
若您的文件后缀不满足平台内置数据格式的要求,或者您无须 TI 平台为您展示数据详情内容,仅需要管理一条数据路径,则在新建数据集时,“建模任务类型”选择“其他”,配置如下:

数据集名称:输入自定义数据集名称;
地域:数据集所在地域前端默认为您当前控制台所在地域;
标签:该参数是复用了 腾讯云【标签】产品,用户可给数据集打上不同的标签值;
建模任务类型:选择“其他”;
标注状态:仅支持选择“未标注”;
数据文件 COS 路径:指定选择您的数据文件所在的 腾讯云对象存储 COS 路径 即可;
COS 输出路径:该数据集在 TI 平台产生的一些元信息记录文件将存储到该 COS 存储地址下。注意:该地址不能和“数据文件 COS 路径”参数配置相同;
数据集导入成功后,TI 平台不支持在前端页面查看数据集的详情内容。