文档中心>向量数据库

CollectionView

最近更新时间:2023-12-08 17:20:01

我的收藏
CollectionView 相对于 Collection,也是一组具有相似属性的文档集合,相当于关系型数据库中的表。只是 CollectionView 是针对 AI 类数据库文档组的集合视图,由多个 DocumentSet 组成。每个 DocumentSet 存储一组数据,对应一个文件。多个 DocumentSet 构成一个CollectionView。

管理集合视图

腾讯云向量数据库(Tencent Cloud VectorDB)提供了一组 API 接口,用于创建、删除和查看数据库中的集合,方便管理数据库的集合。如下表所示。
API
功能
Python SDK
详细说明
创建集合视图
创建集合视图时,需要配置如下文件预处理的关键信息。
Embedding:配置文件 Embedding 的参数,包括文件语言类型、是否开启词(Words)向量精排等。
Split:配置文件拆分时是否将 Title 或 Keywords 追加在切分后的段落一并向量化。
Index:仅可对文件的 Metadata 信息设置标量字段,并指定为 Filter 索引,以方便在检索时,可以使用 Filter 表达式查找文件。
说明:
Metadata 信息指上传文件时所携带的文件元数据信息,可以包括文件的名称、作者、创建日期、文件类型等信息。所有元数据被自动解析为标量字段,以 Key-Value 格式存储。

删除集合视图
删除操作将清除集合视图下所有 DocumentSet,支持使用指定的 Filter 表达式过滤需删除的文件。
展示指定AI Database 下的所有集合视图列表
展示数据库下所有的集合视图,每一个集合视图信息包括:Embedding 配置、索引、标量字段、别名、状态等。
返回指定集合的详细信息
展示指定集合视图的详细信息。
清空集合视图数据
清空 CollectionView 中所有的数据与索引,仅保留 CollectionView 配置信息,例如索引类型及参数等设置,减少用户的操作成本。

副本和分片

创建 CollectionView 无需指定实例副本与分片,系统根据文件内容的大小自动调整分配资源。

动态 Schema

腾讯云向量数据库(Tencent Cloud VectorDB)支持在创建 CollectionView 时灵活扩展文件 Meta 信息的标量字段,同时支持更新或增标量字段。这意味着用户无需预先定义所有的字段,可以根据需要在插入数据时自动识别并调整模式。这种设计使得 VectorDB 更加灵活和易于使用,同时也避免了预定义所有字段带来的限制。具体规则如下:
使用 /ai/collectionView/create 接口创建 CollectionView 时,仅需指定需设置为 Filter 索引的标量字段(文件 Meta 信息)。
使用 /ai/documentSet/update 接口更新数据时,支持更新已存在的标量字段(文件 Meta 信息)的数据,支持新增标量字段,无法修改文件内容。

Index

腾讯云向量数据库具备 Schemaless 特性。即不需要预先定义模式,便可以将任意数量和类型的字段添加到 DocumentSet 中。使用时,仅需关注需要构建索引的字段。索引的具体信息,请参见 Index