创建数据集

最近更新时间:2025-06-17 20:13:52

我的收藏

简介

本文档提供关于创建数据集的相关 API 概览以及 SDK 示例代码。
API
操作描述
创建数据集

功能说明

本接口用于创建一个数据集(Dataset),数据集是由文件元数据构成的集合,用于存储和管理元数据。

示例代码

from qcloud_cos import CosConfig
from qcloud_cos import MetaInsightClient
import os
import sys

# 替换为用户的 SecretId,请登录访问管理控制台进行查看和管理,https://console.cloud.tencent.com/cam/capi
secret_id = os.environ["SECRETID"]
# 替换为用户的 SecretKey,请登录访问管理控制台进行查看和管理,https://console.cloud.tencent.com/cam/capi
secret_key = os.environ["SECRETKEY"]
# 替换为用户的 region,已创建桶归属的 region 可以在控制台查看,https://console.cloud.tencent.com/cos5/bucket
region = ('ap-beijing')
# COS 支持的所有 region 列表参见 https://www.qcloud.com/document/product/436/6224
token = None # 如果使用永久密钥不需要填入 token,如果使用临时密钥需要填入,临时密钥生成和使用指引参见 https://cloud.tencent.com/document/product/436/14048
# 用户 appid 请登录访问管理控制台进行查看和管理,https://console.cloud.tencent.com/cam/capi
appid = '1250000000'

config = CosConfig(Appid=appid, Region=region, SecretId=secret_id,
SecretKey=secret_key,
Token=token) # 获取配置对象
client = MetaInsightClient(config)

def ci_create_dataset():
# 创建数据集
body = {
# 数据集名称,同一个账户下唯一。命名规则如下: 长度为1~32字符。 只能包含小写英文字母,数字,短划线(-)。 必须以英文字母和数字开头。
# 是否必传:是
'DatasetName': "test",
# 数据集描述信息。长度为1~256个英文或中文字符,默认值为空。
# 是否必传:否
'Description': "test",
# 与数据集关联的检索模板,在建立元数据索引时,后端将根据检索模板来决定采集文件的哪些元数据。每个检索模板都包含若干个算子,不同的算子表示不同的处理能力,更多信息请参见 [检索模板与算子](https://cloud.tencent.com/document/product/460/106018)。 默认值为空,即不关联检索模板,不进行任何元数据的采集。
# 是否必传:否
'TemplateId': "Official:COSBasicMeta",
}
response, data = client.ci_create_dataset(
Body=body,
ContentType="application/json"
)
print(response)
print(data)
return response, data

参数说明

调用 ci_create_dataset 函数,具体请求参数如下:
参数名称
参数描述
类型
是否必填
Body
创建数据集请求参数。
Container
Body 节点内容:
参数名称
参数描述
类型
是否必填
DatasetName
数据集名称,同一个账户下唯一。命名规则如下:
长度为1~32字符。
只能包含小写英文字母,数字,短划线(-)。
必须以英文字母和数字开头。
String
Description
数据集描述信息。长度为1~256个英文或中文字符,默认值为空。
String
TemplateId
与数据集关联的检索模板,在建立元数据索引时,后端将根据检索模板来决定采集文件的哪些元数据。每个检索模板都包含若干个算子,不同的算子表示不同的处理能力,更多信息请参见 检索模板与算子
默认值为空,即不关联检索模板,不进行任何元数据的采集。
String
Version
数据集版本。basic、standard,默认为 basic。
String
Volume
Version 为 basic 时为50w。Version 为 standard 时,默认为500w,可设置1-10000,单位w。传0采用默认值。
Integer
TrainingMode
训练数据的来源模式。默认为0,表示训练数据来源于指定数据集,值为1时表示训练数据来源于 cos 某个 bucket 目录下文件。仅在 Version 为 standard 时生效
Integer
TrainingDataset
训练数据的数据集名称。仅在 TrainingMode 为0时生效。
String
TrainingURI
训练数据的资源路径。仅在 TrainingMode 为1时生效。
String

返回结果说明

response 为响应头,data 为响应结果,数据类型都为 dict。

response 内容

返回公共响应头部,详情请参见 公共响应头部 文档。

响应体 data

响应体具体数据内容如下:
参数名称
参数描述
类型
RequestId
请求 ID。
String
Dataset
数据集信息。
Container
Dataset 节点内容:
参数名称
参数描述
类型
Region
园区信息。
String
BindCount
数据集当前绑定的 COS Bucket 数量。
Integer
CreateTime
数据集创建时间的时间戳,格式为 RFC3339Nano。
String
DatasetName
数据集名称。
String
Description
数据集描述信息。
String
FileCount
数据集中当前已建立了元数据索引的文件数量。
Integer
TemplateId
检索模板。
String
TotalFileSize
数据集中当前已建立了元数据索引的文件的总大小,单位为字节。
Integer
UpdateTime
数据集修改时间的时间戳,格式为 RFC3339Nano。
创建数据集后,如果未更新过数据集,则数据集修改时间的时间戳和数据集创建时间的时间戳相同。
String
BindCount
数据集当前绑定的数据源数量。
Integer
FileCount
数据集中当前已建立了元数据索引的文件数量。
Integer
TotalFileSize
数据集中当前已建立了元数据索引的文件的总大小,单位为字节。
Integer
DatasetType
表示数据集的类型,默认为0,表示普通数据集,值为1时表示该数据集为控制台文件列表专用的数据集。
Integer
Version
数据集版本。
String
State
训练状态:Unstart、Running、Success、Failed。
String