简介
本文档提供关于创建数据集的相关 API 概览以及 SDK 示例代码。
API | 操作描述 |
创建数据集 |
功能说明
本接口用于创建一个数据集(Dataset),数据集是由文件元数据构成的集合,用于存储和管理元数据。
示例代码
from qcloud_cos import CosConfigfrom qcloud_cos import MetaInsightClientimport osimport sys# 替换为用户的 SecretId,请登录访问管理控制台进行查看和管理,https://console.cloud.tencent.com/cam/capisecret_id = os.environ["SECRETID"]# 替换为用户的 SecretKey,请登录访问管理控制台进行查看和管理,https://console.cloud.tencent.com/cam/capisecret_key = os.environ["SECRETKEY"]# 替换为用户的 region,已创建桶归属的 region 可以在控制台查看,https://console.cloud.tencent.com/cos5/bucketregion = ('ap-beijing')# COS 支持的所有 region 列表参见 https://www.qcloud.com/document/product/436/6224token = None # 如果使用永久密钥不需要填入 token,如果使用临时密钥需要填入,临时密钥生成和使用指引参见 https://cloud.tencent.com/document/product/436/14048# 用户 appid 请登录访问管理控制台进行查看和管理,https://console.cloud.tencent.com/cam/capiappid = '1250000000'config = CosConfig(Appid=appid, Region=region, SecretId=secret_id,SecretKey=secret_key,Token=token) # 获取配置对象client = MetaInsightClient(config)def ci_create_dataset():# 创建数据集body = {# 数据集名称,同一个账户下唯一。命名规则如下: 长度为1~32字符。 只能包含小写英文字母,数字,短划线(-)。 必须以英文字母和数字开头。# 是否必传:是'DatasetName': "test",# 数据集描述信息。长度为1~256个英文或中文字符,默认值为空。# 是否必传:否'Description': "test",# 与数据集关联的检索模板,在建立元数据索引时,后端将根据检索模板来决定采集文件的哪些元数据。每个检索模板都包含若干个算子,不同的算子表示不同的处理能力,更多信息请参见 [检索模板与算子](https://cloud.tencent.com/document/product/460/106018)。 默认值为空,即不关联检索模板,不进行任何元数据的采集。# 是否必传:否'TemplateId': "Official:COSBasicMeta",}response, data = client.ci_create_dataset(Body=body,ContentType="application/json")print(response)print(data)return response, data
参数说明
调用 ci_create_dataset 函数,具体请求参数如下:
参数名称 | 参数描述 | 类型 | 是否必填 |
Body | 创建数据集请求参数。 | Container | 是 |
Body 节点内容:
参数名称 | 参数描述 | 类型 | 是否必填 |
DatasetName | 数据集名称,同一个账户下唯一。命名规则如下: 长度为1~32字符。 只能包含小写英文字母,数字,短划线(-)。 必须以英文字母和数字开头。 | String | 是 |
Description | 数据集描述信息。长度为1~256个英文或中文字符,默认值为空。 | String | 否 |
TemplateId | 与数据集关联的检索模板,在建立元数据索引时,后端将根据检索模板来决定采集文件的哪些元数据。每个检索模板都包含若干个算子,不同的算子表示不同的处理能力,更多信息请参见 检索模板与算子。 默认值为空,即不关联检索模板,不进行任何元数据的采集。 | String | 否 |
Version | 数据集版本。basic、standard,默认为 basic。 | String | 否 |
Volume | Version 为 basic 时为50w。Version 为 standard 时,默认为500w,可设置1-10000,单位w。传0采用默认值。 | Integer | 否 |
TrainingMode | 训练数据的来源模式。默认为0,表示训练数据来源于指定数据集,值为1时表示训练数据来源于 cos 某个 bucket 目录下文件。仅在 Version 为 standard 时生效 | Integer | 否 |
TrainingDataset | 训练数据的数据集名称。仅在 TrainingMode 为0时生效。 | String | 否 |
TrainingURI | 训练数据的资源路径。仅在 TrainingMode 为1时生效。 | String | 否 |
返回结果说明
response 为响应头,data 为响应结果,数据类型都为 dict。
response 内容
响应体 data
响应体具体数据内容如下:
参数名称 | 参数描述 | 类型 |
RequestId | 请求 ID。 | String |
Dataset | 数据集信息。 | Container |
Dataset 节点内容:
参数名称 | 参数描述 | 类型 |
Region | 园区信息。 | String |
BindCount | 数据集当前绑定的 COS Bucket 数量。 | Integer |
CreateTime | 数据集创建时间的时间戳,格式为 RFC3339Nano。 | String |
DatasetName | 数据集名称。 | String |
Description | 数据集描述信息。 | String |
FileCount | 数据集中当前已建立了元数据索引的文件数量。 | Integer |
TemplateId | 检索模板。 | String |
TotalFileSize | 数据集中当前已建立了元数据索引的文件的总大小,单位为字节。 | Integer |
UpdateTime | 数据集修改时间的时间戳,格式为 RFC3339Nano。 创建数据集后,如果未更新过数据集,则数据集修改时间的时间戳和数据集创建时间的时间戳相同。 | String |
BindCount | 数据集当前绑定的数据源数量。 | Integer |
FileCount | 数据集中当前已建立了元数据索引的文件数量。 | Integer |
TotalFileSize | 数据集中当前已建立了元数据索引的文件的总大小,单位为字节。 | Integer |
DatasetType | 表示数据集的类型,默认为0,表示普通数据集,值为1时表示该数据集为控制台文件列表专用的数据集。 | Integer |
Version | 数据集版本。 | String |
State | 训练状态:Unstart、Running、Success、Failed。 | String |