DocumentSet-向量数据库-文档中心-腾讯云

DocumentSet 是 AI 类数据库中 CollectionView 中的一个概念，用于存储文件的单元。在 CollectionView 中，一个文件会被拆分成多个 Document，这些 Document 组成了一个完整的文件数据，也就是一个DocumentSet。DocumentSet 可看作是一组相关的 Document 的集合，它们对应着同一个文件的数据。
管理 DocumentSet
腾讯云向量数据库（Tencent Cloud VectorDB）提供了一组 API 接口，用于插入、检索、更新、删除集合中的文档，方便管理集合视图中的文档。如下表所示。
API
功能
Python SDK
详细说明
﻿/ai/documentSet/uploadUrl﻿
获取文件上传路径与授权签名
﻿load_and_split_text() 
使用 API 接口获取授权签名后，您需使用 COS（对象存储）SDK 或 Restful API将文档上传至 COS 服务器。文件上传完成的状态通知之后，向量数据库便会开始拉取文件并解析文件内容，进行拆分、向量化，创建索引并进行存储。如果操作不便，可使用 Python SDK 的 load_and_split_text() 直接上传文件。
文件上传之后，当前不支持再次上传文件更新数据。
文件上传之后，当前不支持修改内容，仅可通过 Update 修改文件的元数据字段。
每次仅能上传一个文件，上传之后，将自动进行拆分、向量化等。
﻿/ai/documentSet/get ﻿
获取文件信息
﻿get_document_set()﻿
可获取文件内容、系统分配的文件 ID、关键字、文件大小、预处理进度与状态等信息。
文件上传之后，可根据文件名查找文件内容，可获取系统分配的文件 ID。
获取文件 ID 之后，可根据文件 ID 查找文件信息。
﻿/ai/documentSet/query﻿
精确查询
﻿query()﻿
可获取文件内容、系统分配的文件 ID、关键字、文件大小、预处理进度与状态等信息，可根据需要控制需输出的字段。
支持根据 DocumentSet ID 或文件名查询具体文件的信息。
支持根据  DocumentSet ID 或文件名并分别结合标量字段的 Filter 表达式查询一个或多个文件。
支持指定查询起始位置与返回数量模糊查询多个文件。
支持指定文件元数据标量字段的 Filter 表达式，过滤所需查询的文件。
﻿/document/search﻿
相似度检索
﻿search()﻿
在指定的文件范围内，查找与给定文本信息相似的 Top K 条文本信息。
支持指定文件名称或 ID 信息检索最相似的文本信息。
支持搭配文件元数据的标量字段的 Filter 表达式检索最相似的文本信息。
支持批量检索，即输入多个 ID或多个文件名，检索最相似的文本信息。
﻿/ai/document/delete﻿
删除文档
﻿delete()﻿
支持指定一个或多个 DocumentSet ID 批量删除文件。
支持指定一个或多个文件名批量删除文件。
支持使用文件元数据标量字段的 Filter 表达式过滤需删除的文件。
﻿/ai/documentSet/update﻿
更新文档
﻿update()﻿
支持更新文件元数据标量字段的值，支持新增文件元数据的标量字段。
支持根据文件名或文件 ID 查找与更新的文件。
支持使用文件元数据标量字段的 Filter 表达式过滤需更新的文件。
支持批量更新过个文件的元数据字段。
数据结构
AI 类数据库文件元数据标量字段支持 string、uint64、double、array 数据类型。
数据结构
说明
string
字符串，主键 ID 与文件 Meta 信息标量字段支持的数据类型之一。
uint64
整型数值，用于存储整数数值，包含正整数、负整数和零。
double
双精度浮点型数值，用于存储浮点值。
array
数组类型，用于存储一组相同类型的数据元素。当前，数组元素仅支持 string 类型。
说明：
文件主键 ID 字段仅支持 string。
标量字段（包含可创建 Filter 索引的标量字段）支持 string、uint64、array。
﻿

API	功能	Python SDK	详细说明
/ai/documentSet/uploadUrl	获取文件上传路径与授权签名	load_and_split_text()	使用 API 接口获取授权签名后，您需使用 COS（对象存储）SDK 或 Restful API将文档上传至 COS 服务器。文件上传完成的状态通知之后，向量数据库便会开始拉取文件并解析文件内容，进行拆分、向量化，创建索引并进行存储。如果操作不便，可使用 Python SDK 的 load_and_split_text() 直接上传文件。文件上传之后，当前不支持再次上传文件更新数据。文件上传之后，当前不支持修改内容，仅可通过 Update 修改文件的元数据字段。每次仅能上传一个文件，上传之后，将自动进行拆分、向量化等。
/ai/documentSet/get	获取文件信息	get_document_set()	可获取文件内容、系统分配的文件 ID、关键字、文件大小、预处理进度与状态等信息。文件上传之后，可根据文件名查找文件内容，可获取系统分配的文件 ID。获取文件 ID 之后，可根据文件 ID 查找文件信息。
/ai/documentSet/query	精确查询	query()	可获取文件内容、系统分配的文件 ID、关键字、文件大小、预处理进度与状态等信息，可根据需要控制需输出的字段。支持根据 DocumentSet ID 或文件名查询具体文件的信息。支持根据 DocumentSet ID 或文件名并分别结合标量字段的 Filter 表达式查询一个或多个文件。支持指定查询起始位置与返回数量模糊查询多个文件。支持指定文件元数据标量字段的 Filter 表达式，过滤所需查询的文件。
/document/search	相似度检索	search()	在指定的文件范围内，查找与给定文本信息相似的 Top K 条文本信息。支持指定文件名称或 ID 信息检索最相似的文本信息。支持搭配文件元数据的标量字段的 Filter 表达式检索最相似的文本信息。支持批量检索，即输入多个 ID或多个文件名，检索最相似的文本信息。
/ai/document/delete	删除文档	delete()	支持指定一个或多个 DocumentSet ID 批量删除文件。支持指定一个或多个文件名批量删除文件。支持使用文件元数据标量字段的 Filter 表达式过滤需删除的文件。
/ai/documentSet/update	更新文档	update()	支持更新文件元数据标量字段的值，支持新增文件元数据的标量字段。支持根据文件名或文件 ID 查找与更新的文件。支持使用文件元数据标量字段的 Filter 表达式过滤需更新的文件。支持批量更新过个文件的元数据字段。

数据结构	说明
string	字符串，主键 ID 与文件 Meta 信息标量字段支持的数据类型之一。
uint64	整型数值，用于存储整数数值，包含正整数、负整数和零。
double	双精度浮点型数值，用于存储浮点值。
array	数组类型，用于存储一组相同类型的数据元素。当前，数组元素仅支持 string 类型。

DocumentSet

本页目录：

管理 DocumentSet

数据结构