功能描述
本接口用于创建一个数据集(Dataset),数据集是由文件元数据构成的集合,用于存储和管理元数据索引。
授权说明
使用限制
每个数据集最多可为1亿个文件建立元数据索引。
仅支持北京、上海地域,即请求 Host 中的
<Region>
仅支持填写为 ap-beijing
,ap-shanghai
。COS 加密桶的文件无法被读取并创建元数据索引。
请求
请求示例
POST /dataset HTTP/1.1Host: <AppId>.ci.<Region>.myqcloud.comAuthorization: Auth StringContent-Length: xxxContent-Type: application/jsonAccept: application/json
说明:
请求头
请求体
该请求操作的实现需要有以下请求体。
{"DatasetName": "test","Description": "test","TemplateId": "Official:COSBasicMeta"}
具体的数据内容如下:
参数名称 | 描述 | 类型 | 是否必选 |
DatasetName | 数据集名称,同一个账户下唯一。命名规则如下: 长度为1 - 32字符 只能包含小写英文字母,数字,短划线(-) 必须以英文字母和数字开头 | String | 是 |
Description | 数据集描述信息。长度为1 - 256个英文或中文字符,默认值为空 | String | 否 |
TemplateId | 与数据集关联的检索模板,在建立元数据索引时,后端将根据检索模板来决定采集文件的哪些元数据。每个检索模板都包含若干个算子,不同的算子表示不同的处理能力,更多信息请参见 检索模板与算子 默认值为空,即不关联检索模板,不进行任何元数据的采集 | String | 否 |
DatasetType | 表示数据集的类型,默认为0,表示普通数据集,值为1时表示该数据集为控制台文件列表专用的数据集 | Integer | 否 |
Version | 数据集版本。basic、standard,默认为 basic | String | 否 |
Volume | 当前数据集预估数据量级,MetaInsight 将根据该参数调整数据分布策略以保证查询性能,Version 为 basic 时为50w。Version 为 standard 时,默认为500w,可设置1-10000,单位w。传0采用默认值 | Integer | 否 |
TrainingMode | 训练数据的来源模式。默认为0,表示训练数据来源于指定数据集,值为1时表示训练数据来源于cos某个bucket目录下文件。仅在 Version 为 standard 时生效 | Integer | 否 |
TrainingDataset | 训练数据的数据集名称。仅在 TrainingMode 为0时生效 | String | 否 |
TrainingURI | 训练数据的资源路径。仅在 TrainingMode 为1时生效 | String | 否 |
SceneType | 当 TemplateId=Official:ImageSearch 时生效,表示场景类型。可选值如下: general(默认值):通用场景 E-commercial:电商场景 iDrive:出行场景 | String | 否 |
响应
响应头
响应体
{"Dataset": {"BindCount": 0,"CreateTime": "2023-12-25 15:16:20.692674978 +0800 CST","DatasetName": "test","Description": "test","FileCount": 0,"TemplateId": "Official:COSBasicMeta","TotalFileSize": 0,"UpdateTime": "2023-12-25 15:16:20.692675128 +0800 CST"},"RequestId": "NWFjMzQ0MDZfOTBmYTUwXzZkZV8z****"}
响应包体具体数据内容如下:
参数名称 | 描述 | 类型 |
Dataset | 数据集信息。 | Container |
RequestId | 请求 ID。 | String |
Dataset
节点内容:参数名称 | 描述 | 类型 |
BindCount | 数据集当前绑定的 COS Bucket 数量 | Long |
CreateTime | 数据集创建时间的时间戳,格式为 RFC3339Nano | String |
DatasetName | 数据集名称 | String |
DatasetType | 表示数据集的类型,默认为0,表示普通数据集,值为1时表示该数据集为控制台文件列表专用的数据集。 | Integer |
Description | 数据集描述信息 | String |
FileCount | 数据集中当前已建立了元数据索引的文件数量 | Long |
Region | 数据集所在地区 | String |
SceneType | 场景类型。支持 general、E-commercial、iDrive,默认为 general | String |
State | 训练状态 Unstart:未开始 Running:训练中 Success:训练成功 Failed:训练失败 | String |
TaskProgress | 训练进度的百分比值。范围为 [0, 100] | Int |
TemplateId | 检索模板 | String |
TotalFileSize | 数据集中当前已建立了元数据索引的文件的总大小,单位为字节 | Long |
UpdateTime | 数据集修改时间的时间戳,格式为 RFC3339Nano 创建数据集后,如果未更新过数据集,则数据集修改时间的时间戳和数据集创建时间的时间戳相同 | String |
Version | 数据集版本。 | String |