导入数据集

最近更新时间:2024-03-07 17:37:21

我的收藏

概述

数据中心支持导入的数据来源为 腾讯云对象存储 COS 存储桶中的指定文件内容;支持的数据类型有:文本 (txt、csv、json)、图片 (jpg、png、jpeg、bmp) 、表格 (xls、xlsx、csv) 和其他(可上传任意格式的文件,但TI平台不做文件内容解析),以下详细介绍每种类型的数据集的导入步骤。
注意
1. COS 为对象存储产品,独立计费,详细可见 对象存储-计费概述
2. 同一个公有云账号在同一个地域下最多可在数据中心同时维护 200 个数据集,若您的业务有扩容需求,可使用工单联系我们哦。

导入“文本”类型的数据集

1)导入未标注的文本数据集

若您要导入纯“文本”不带文本标注信息的数据集时,则配置如下:


基本信息:配置数据集相关的基本信息,如自定义输入数据集名称,选择“数据集类型”为“文本”,数据集所在地域前端默认为您当前控制台所在地域,且支持您为数据集添加相关的“标签”信息(“标签”功能可参考 腾讯云【标签】产品)。
数据来源:
样本粒度:分为按行(一行是一个文件对象,且请注意一行中超出6KB大小的部分将被截断后导入)和按文件(一整个文件内容是一个文件对象)两种;
前端默认选择“标注状态”为“未标注”,然后指定选择文本数据所在的 腾讯云对象存储 COS 路径 即可。
输出存储:该数据集每个版本的数据信息、快照记录等文件将存储到该 COS 存储地址下。注意:该地址不能和“数据文件 COS 路径”参数配置相同。
数据集导入成功后,TI 平台支持在前端页面查看数据集详情,即可预览文本数据内容,且 TI 平台内置提供了针对样本数据的词频统计、长度分布的“数据透视”功能。

2)导入已标注的文本数据集

若您的文本数据中同时含有相关的标注信息且希望 TI 平台能解析并统计分析该标注信息,则导入数据集时,配置如下:


基本信息:配置数据集相关的基本信息,如自定义输入数据集名称,选择“数据集类型”为“文本”,数据集所在地域前端默认为您当前控制台所在地域,且支持您为数据集添加相关的“标签”信息(“标签”功能可参考 腾讯云【标签】产品)。
数据来源
样本粒度:分为按行(一行是一个文件对象,且请注意一行中超出6KB大小的部分将被截断后导入)和按文件(一整个文件内容是一个文件对象)两种,且不同的粒度对应不同的标注文件格式要求;
标注状态:选择“已标注”,并指定当前数据集的“标注格式”:
依据不同的标注格式,请按照对应的“文件存放方式示意图”的说明准备您的文件目录;
单击下载标注文件示例可下载查看标注文件的具体格式内容;
然后指定选择文本数据所在的 腾讯云对象存储 COS 路径 即可。
输出存储:该数据集后续在 TI 平台上可能产生的标注信息(利用该数据集创建了数据标注任务)、以及该数据集每个版本的数据信息/快照记录等文件将存储到该 COS 存储地址下。注意:该地址不能和“数据文件COS路径”参数配置相同(目前版本暂不支持文本类型数据的标注功能)。
数据集导入成功后,TI 平台支持在前端页面查看数据集详情,除可预览文本内容外,还可同时展示数据集标注信息的可视化分布图。

导入“图片”类型的数据集

1)导入未标注的图片数据集

若您的图片数据没有相关的标注信息,则导入数据集时,配置如下:


基本信息:配置数据集相关的基本信息,如自定义输入数据集名称,选择“数据集类型”为“图片”,数据集所在地域前端默认为您当前控制台所在地域,且支持您为数据集添加相关的“标签”信息(“标签”功能可参考 腾讯云【标签】产品)。
数据来源:选择“标注状态”为“未标注”,然后指定选择图片数据所在的 腾讯云对象存储 COS 路径 即可。 若您的图片文件还在本地未上传到 COS 路径下,则单击选择文件按钮后,选中某个存储桶,然后在弹框左下角选择上传文件等功能即可完成本地数据的上传:


输出存储:该数据集后续在 TI 平台上可能产生的标注信息(利用该数据集创建了数据标注任务)、以及该数据集每个版本的数据信息/快照记录等文件将存储到该 COS 存储地址下。注意:该地址不能和“数据文件COS路径”参数配置相同。
数据集导入成功后,TI 平台支持在前端页面查看数据集详情,即可预览图片内容。

2)导入已标注的图片数据集

若您的图片数据中含有相关的标注信息,则导入数据集时,配置如下:


基本信息:配置数据集相关的基本信息,如自定义输入数据集名称,选择“数据集类型”为“图片”,数据集所在地域前端默认为您当前控制台所在地域,且支持您为数据集添加相关的“标签”信息(“标签”功能可参考 腾讯云【标签】产品)。
数据来源:选择“标注状态”为“已标注”,并指定当前数据集的“标注格式”:
依据不同的标注格式,请按照对应的“文件存放示意图”的说明准备您的文件目录;
单击下载标注文件示例可下载查看标注文件的具体格式内容;
然后指定选择图片数据所在的 腾讯云对象存储 COS 路径 即可。
输出存储:该数据集后续在 TI 平台上可能产生的标注信息(利用该数据集创建了数据标注任务)、以及该数据集每个版本的数据信息/快照记录等文件将存储到该 COS 存储地址下。注意:该地址不能和“数据文件COS路径”参数配置相同。
数据集导入成功后,TI 平台支持在前端页面查看数据集详情,即可预览图片内容,且可同时展示数据集标注信息的可视化分布图。

导入“表格”类型的数据集

若您要导入“表格”类型的数据集时,则配置如下:


基本信息:配置数据集相关的基本信息,如自定义输入数据集名称,选择“数据集类型”为“表格”,数据集所在地域前端默认为您当前控制台所在地域,且支持您为数据集添加相关的“标签”信息(“标签”功能可参考 腾讯云【标签】产品)。
数据来源
默认选择“标注状态”为“未标注”(且目前暂不支持切换为“已标注”),然后指定选择数据所在的 腾讯云对象存储 COS 路径
若数据文件包含表头,则请打开“是否包含表头”的按钮,并严格按照表格列名配置 Schema 信息,否则校验不通过会造成导入数据集失败;若数据文件不包含表头,则关闭“是否包含表”按钮,则平台会根据您自定义输入的 Schema 信息依次为您解析表格数据。
输出存储:该数据集每个版本的数据信息、快照记录等文件将存储到该 COS 存储地址下。注意:该地址不能和“数据文件 COS 路径”参数配置相同。
数据集导入成功后,TI 平台支持在前端页面查看数据集详情,即可预览表格数据内容。且 TI 平台支持对可枚举列进行分布统计展示。

导入“其他”类型的数据集

若您的文件后缀不满足“文本 (txt、csv)、图片 (jpg、png、jpeg、bmp) 、表格 (xls、xlsx、csv)”数据类型的要求,或者您无须 TI 平台为您展示数据详情内容,则在导入数据集时,“数据集类型”可选择“其他”,配置如下:


基本信息:配置数据集相关的基本信息,如自定义输入数据集名称,选择“数据集类型”为“其他”,数据集所在地域前端默认为您当前控制台所在地域,且支持您为数据集添加相关的“标签”信息(“标签”功能可参考 腾讯云【标签】产品)。
数据来源:默认选择“标注状态”为“未标注”(且不支持切换为“已标注”),然后指定选择数据所在的 腾讯云对象存储 COS 路径 即可。
输出存储:该数据集每个版本的数据信息、快照记录等文件将存储到该 COS 存储地址下。注意:该地址不能和“数据文件 COS 路径”参数配置相同。
数据集导入成功后,TI 平台不支持在前端页面查看数据集的详情内容。