文档中心>向量数据库

DocumentSet

最近更新时间:2023-12-08 17:20:02

我的收藏
DocumentSet 是 AI 类数据库中 CollectionView 中的一个概念,用于存储文件的单元。在 CollectionView 中,一个文件会被拆分成多个 Document,这些 Document 组成了一个完整的文件数据,也就是一个DocumentSet。DocumentSet 可看作是一组相关的 Document 的集合,它们对应着同一个文件的数据。

管理 DocumentSet

腾讯云向量数据库(Tencent Cloud VectorDB)提供了一组 API 接口,用于插入、检索、更新、删除集合中的文档,方便管理集合视图中的文档。如下表所示。
API
功能
Python SDK
详细说明
获取文件上传路径与授权签名
使用 API 接口获取授权签名后,您需使用 COS(对象存储)SDK 或 Restful API将文档上传至 COS 服务器。文件上传完成的状态通知之后,向量数据库便会开始拉取文件并解析文件内容,进行拆分、向量化,创建索引并进行存储。如果操作不便,可使用 Python SDK 的 load_and_split_text() 直接上传文件。
文件上传之后,当前不支持再次上传文件更新数据。
文件上传之后,当前不支持修改内容,仅可通过 Update 修改文件的元数据字段。
每次仅能上传一个文件,上传之后,将自动进行拆分、向量化等。
获取文件信息
可获取文件内容、系统分配的文件 ID、关键字、文件大小、预处理进度与状态等信息。
文件上传之后,可根据文件名查找文件内容,可获取系统分配的文件 ID。
获取文件 ID 之后,可根据文件 ID 查找文件信息。
精确查询
query()
可获取文件内容、系统分配的文件 ID、关键字、文件大小、预处理进度与状态等信息,可根据需要控制需输出的字段。
支持根据 DocumentSet ID 或文件名查询具体文件的信息。
支持根据 DocumentSet ID 或文件名并分别结合标量字段的 Filter 表达式查询一个或多个文件。
支持指定查询起始位置与返回数量模糊查询多个文件。
支持指定文件元数据标量字段的 Filter 表达式,过滤所需查询的文件。
相似度检索
search()
在指定的文件范围内,查找与给定文本信息相似的 Top K 条文本信息。
支持指定文件名称或 ID 信息检索最相似的文本信息。
支持搭配文件元数据的标量字段的 Filter 表达式检索最相似的文本信息。
支持批量检索,即输入多个 ID或多个文件名,检索最相似的文本信息。
删除文档
delete()
支持指定一个或多个 DocumentSet ID 批量删除文件。
支持指定一个或多个文件名批量删除文件。
支持使用文件元数据标量字段的 Filter 表达式过滤需删除的文件。
更新文档
update()
支持更新文件元数据标量字段的值,支持新增文件元数据的标量字段。
支持根据文件名或文件 ID 查找与更新的文件。
支持使用文件元数据标量字段的 Filter 表达式过滤需更新的文件。
支持批量更新过个文件的元数据字段。

数据结构

AI 类数据库文件元数据标量字段支持 string、uint64、double、array 数据类型。
数据结构
说明
string
字符串,主键 ID 与文件 Meta 信息标量字段支持的数据类型之一。
uint64
整型数值,用于存储整数数值,包含正整数、负整数和零。
double
双精度浮点型数值,用于存储浮点值。
array
数组类型,用于存储一组相同类型的数据元素。当前,数组元素仅支持 string 类型。
说明:
文件主键 ID 字段仅支持 string。
标量字段(包含可创建 Filter 索引的标量字段)支持 string、uint64、array。