创建数据集

最近更新时间:2025-08-28 17:24:52

我的收藏

功能描述

本接口用于创建一个数据集(Dataset),数据集是由文件元数据构成的集合,用于存储和管理元数据索引。

授权说明

通过子账号使用时,需要在 授权策略 的 action 中添加 ci:CreateDataset 权限。数据万象支持的所有操作接口请参见 CI action

使用限制

每个数据集最多可为1亿个文件建立元数据索引。
仅支持北京、上海地域,即请求 Host 中的<Region>仅支持填写为 ap-beijingap-shanghai
COS 加密桶的文件无法被读取并创建元数据索引。

请求

请求示例

POST /dataset HTTP/1.1
Host: <AppId>.ci.<Region>.myqcloud.com
Authorization: Auth String
Content-Length: xxx
Content-Type: application/json
Accept: application/json
说明:
Authorization:携带鉴权信息,用于验证请求的合法性的请求头,详情请参见 请求签名 文档。

请求头

此接口仅使用公共请求头部,详情请参见 公共请求头部 文档。

请求体

该请求操作的实现需要有以下请求体。
{
"DatasetName": "test",
"Description": "test",
"TemplateId": "Official:COSBasicMeta"
}
具体的数据内容如下:
参数名称
描述
类型
是否必选
DatasetName
数据集名称,同一个账户下唯一。命名规则如下:
长度为1 - 32字符
只能包含小写英文字母,数字,短划线(-)
必须以英文字母和数字开头
String
Description
数据集描述信息。长度为1 - 256个英文或中文字符,默认值为空
String
TemplateId
与数据集关联的检索模板,在建立元数据索引时,后端将根据检索模板来决定采集文件的哪些元数据。每个检索模板都包含若干个算子,不同的算子表示不同的处理能力,更多信息请参见 检索模板与算子
默认值为空,即不关联检索模板,不进行任何元数据的采集
String
DatasetType
表示数据集的类型,默认为0,表示普通数据集,值为1时表示该数据集为控制台文件列表专用的数据集
Integer
Version
数据集版本。basic、standard,默认为 basic
String
Volume
当前数据集预估数据量级,MetaInsight 将根据该参数调整数据分布策略以保证查询性能,Version 为 basic 时为50w。Version 为 standard 时,默认为500w,可设置1-10000,单位w。传0采用默认值
Integer
TrainingMode
训练数据的来源模式。默认为0,表示训练数据来源于指定数据集,值为1时表示训练数据来源于cos某个bucket目录下文件。仅在 Version 为 standard 时生效
Integer
TrainingDataset
训练数据的数据集名称。仅在 TrainingMode 为0时生效
String
TrainingURI
训练数据的资源路径。仅在 TrainingMode 为1时生效
String
SceneType
当 TemplateId=Official:ImageSearch 时生效,表示场景类型。可选值如下:
general(默认值):通用场景
E-commercial:电商场景
iDrive:出行场景
String



响应

响应头

此接口仅返回公共响应头部,详情请参见 公共请求头部 文档。

响应体

{
"Dataset": {
"BindCount": 0,
"CreateTime": "2023-12-25 15:16:20.692674978 +0800 CST",
"DatasetName": "test",
"Description": "test",
"FileCount": 0,
"TemplateId": "Official:COSBasicMeta",
"TotalFileSize": 0,
"UpdateTime": "2023-12-25 15:16:20.692675128 +0800 CST"
},
"RequestId": "NWFjMzQ0MDZfOTBmYTUwXzZkZV8z****"
}
响应包体具体数据内容如下:
参数名称
描述
类型
Dataset
数据集信息。
Container
RequestId
请求 ID。
String

Dataset
节点内容:
参数名称
描述
类型
BindCount
数据集当前绑定的 COS Bucket 数量
Long
CreateTime
数据集创建时间的时间戳,格式为 RFC3339Nano
String
DatasetName
数据集名称
String
DatasetType
表示数据集的类型,默认为0,表示普通数据集,值为1时表示该数据集为控制台文件列表专用的数据集。
Integer
Description
数据集描述信息
String
FileCount
数据集中当前已建立了元数据索引的文件数量
Long
Region
数据集所在地区
String
SceneType
场景类型。支持 general、E-commercial、iDrive,默认为 general
String
State
训练状态
Unstart:未开始
Running:训练中
Success:训练成功
Failed:训练失败
String
TaskProgress
训练进度的百分比值。范围为 [0, 100]
Int
TemplateId
检索模板
String
TotalFileSize
数据集中当前已建立了元数据索引的文件的总大小,单位为字节
Long
UpdateTime
数据集修改时间的时间戳,格式为 RFC3339Nano
创建数据集后,如果未更新过数据集,则数据集修改时间的时间戳和数据集创建时间的时间戳相同
String
Version
数据集版本。
String