AI 套件

最近更新时间:2024-03-21 11:16:51

我的收藏

什么是 AI 套件?

AI 套件是腾讯云向量数据库(Tencent Cloud VectorDB)提供的一站式文档检索解决方案,包含自动化文档解析、信息补充、向量化、内容检索等能力,并拥有丰富的可配置项,助力显著提升文档检索召回效果。用户仅需上传原始文档,数分钟内即可快速构建专属知识库,大幅提高知识接入效率。

快速接入

如需快速体验 AI 套件能力,请参见 使用 AI 套件快速上传文件并检索

设计思想

AI 套件检索方案提供完整的文档预处理和灵活的内容检索能力。用户只需上传 Markdown 格式的文档文件。腾讯云向量数据库将自动进行文本切分(Split)、信息补充、向量化(Embedding)和索引构建等一系列操作,完成知识库的建立。在进行检索时,会先基于切分后的内容进行相似度计算,并结合词(Words)向量进一步对检索结果进行精排,最终返回排名靠前的 Top K 条数据和其上下文内容。这种综合利用词级别做精排的检索方式,提供了更专业、更精确的内容检索体验。


基本概念

请先了解数据库设计的 逻辑结构,以便更好地理解 AI 套件相关的基本概念。

AI 类 Database

AI 类 Database 是专门用于 AI 套件上传和存储文件的向量数据库系统,可用于构建知识库。用户可以直接将文件上传至 AI 类 Database 下的 CollectionView 中,自动构建个性化的知识库。
说明:
AI 类 Database 不支持直接对向量数据进行操作,已上传的文件不支持更新文件内容。
为便于区别,腾讯云向量数据库将可直接操作向量数据的数据库称为 Base 类 Database。用户可以将向量数据上传至 Base 类 Database 中进行存储和管理,并可以直接对向量数据进行操作和处理。更多信息,请参见 Database

CollectionView

AI 类数据库文档组的集合视图,由多个 DocumentSet 组成,每个 DocumentSet 存储一组数据,对应一个文件数据。多个 DocumentSet 构成一个 CollectionView。

DocumentSet

相对 Document,DocumentSet 是 AI 类数据库中存储在 CollectionView 中的非结构化数据,是文件被拆分成多个 Document 的集合。每个DocumentSet 存储一组数据,对应一个文件,是 CollectionView 下存储文件的最小单元。

Metadata

文件元数据,指上传文件时所携带的文件元数据信息,可以包括文件的名称、作者、创建日期、文件类型等信息。所有元数据被自动解析为标量字段,以Key-Value格式存储。用户可根据元数据构建标量字段的 Filter 索引,以检索并管理文件。

Word

词语,是智能文档检索中最小的分割粒度,通常由一个或多个字符组成。在结果召回时,将对召回段落中所有 Words 进行相似性计算,以便于根据词向量进一步对检索结果做精排。

约束与限制

1. 当前支持导入数据库的文件类型包含: Markdown、PDF、Word、PPT,后续将逐步支持更多文件类型,请关注 产品动态
说明:
2024-02-22 之前创建的实例,请 提交工单 申请升级实例版本,才能支持上传 PDF、Word、PPT。
2. 每次只能上传一个文件,Markdown 类型文件最大限制为 1MB,其余类型最大限制为 10MB。
3. 当前支持地域包含:北京、上海、广州、新加坡。

开发者工具

您可以通过 Python SDK 或 HTTP 的方式访问 AI 类 Database。具体信息,请参见下表。
类别
功能
Demo & API
Python SDK
将 AI 类 HTTP API 封装为 Python 函数或类
HTTP
支持创建 AI 类数据库、集合、上传并检索文件
HTTP API