向量数据库获取 Chunks-SDK 参考-Help & Documentation-Tencent Cloud

接口定义
getChunks() 接口用于获取文件切分后的语块。
说明：
Chunk 指语块，较长文本在处理时会切分为多个语块，以便于向量化和更高效地检索，多个 Chunk 组成一个 DocumentSet。
  public GetChunksRes getChunks(
    String documentSetId,
    String documentSetName,
    Integer limit,
    Integer offset
  )
使用示例
说明：
支持指定具体的文件名获取文件切分后的语块。
支持指定具体的 DocumentSet ID 获取文件切分后的语块。
// link database， client 为 VectorDBClient() 创建的客户端对象
AIDatabase db = client.aiDatabase("db-test-ai");
// link collectionView
CollectionView collection = db.describeCollectionView("coll-ai-files");
System.out.println(JsonUtils.toJsonString(collection.getChunks("腾讯云向量数据库.pdf")));
入参描述
参数名
是否必选
参数含义

DocumentSetId

否
文件上传在数据库之后，系统分配的文件 ID。
说明：
DocumentSetId 与 documentSetName 二者必须配置其中之一。
DocumentSetName
否
文件名。
limit
否
每页返回的 Chunks 数量。
数据类型：uint 64。
默认值：10。
取值范围：[1,1000]。
offset
否
设置分页偏移量，用于控制分页查询返回结果的起始位置，方便用户对数据进行分页展示和浏览。
取值：为 limit 整数倍。
计算公式：offset = limit * (page-1)。
例如：当 limit = 10，page = 2 时，分页偏移量 offset = 10 * (2 - 1) = 10，表示从查询结果的第11条记录开始返回数据。
出参描述
{
    "code":0,
    "msg":"Operation success",
    "count":10,
    "requestId":"ade87e83c8d0a61790139728d0db4007",
    "documentSetId":"1192057501114437632",
    "documentSetName":"腾讯云向量数据库.pdf",
    "chunks":[
        {
            "text":"本页面旨在通过回答几个问题来让您大致了解腾讯云向量数据库（Tencent Cloud VectorDB）。读完本页后，您将了解腾讯云向量数据库是什么、它是如何工作的、关键概念、为什么使用腾讯云向量数据库、支持的索引和指标、架构和相关连接方式。\\n",
            "endPos":122,
            "startPos":0
        },
        {
            "text":"## 腾讯云向量数据库是什么？\\n腾讯云向量数据库是一款全托管的自研企业级分布式数据库服务，专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法，单索引支持10亿级向量规模，可支持百万级 QPS 及毫秒级查询延迟。腾讯云向量数据库不仅能为大模型提供外部知识库，提高大模型回答的准确性，还可广泛应用于推荐系统、NLP 服务、计算机视觉、智能客服等 AI 领域。\\n",
            "endPos":313,
            "startPos":122
        },
        {
            "text":"## 关键概念\\n如果您不熟悉向量数据库和相似性搜索领域，请优先阅读以下基本概念，便于您对向量数据库有一个初步的了解。\\n",
            "endPos":441,
            "startPos":313
        },
        {
            "text":"### 什么是向量？\\n向量是指在数学和物理中用来表示大小和方向的量。它由一组有序的数值组成，这些数值代表了向量在每个坐标轴上的分量。\\n",
            "endPos":508,
            "startPos":441
        },
        {
            "text":"### 什么是非结构化数据？\\n非结构化数据，是指图像、文本、音频等数据。与结构化数据相比，非结构化数据不遵循预定义模型或组织方式，通常更难以处理和分析。\\n",
            "endPos":585,
            "startPos":508
        },
        {
            "text":"### 什么是 AI 中的向量表示？\\n当我们处理非结构化数据时，需要将其转换为计算机可以理解和处理的形式。向量表示是一种将非结构化数据转换为嵌入向量的技术，通过多维度向量数值表述某个对象或事物的属性或者特征。腾讯云向量数据库提供的模型能力，目前在开发调试中。\\n",
            "endPos":784,
            "startPos":585
        },
        {
            "text":"### 什么是向量检索？\\n向量检索是一种基于向量空间模型的信息检索方法。将非结构化的数据表示为向量存入向量数据库，向量检索通过计算查询向量与数据库中存储的向量的相似度来找到目标向量。\\n",
            "endPos":876,
            "startPos":784
        },
        {
            "text":"## 为什么是腾讯云向量数据库？\\n腾讯云向量数据库作为一种专门存储和检索向量数据的服务提供给用户， 在高性能、高可用、大规模、低成本、简单易用、稳定可靠、智能运维等方面体现出显著优势。\\n",
            "endPos":1037,
            "startPos":876
        },
        {
            "text":"## 腾讯云向量数据库应用示例有哪些？\\n腾讯云向量数据库可进行高性能向量存储和检索，主要适用于以下应用场景。\\n- [大规模知识库]：企业的私域数据存储在向量数据库中可构建外部知识库，帮助企业更好地管理和利用自己的数据资源。\\n- [推荐系统]：向量数据库会基于用户特征进行向量存储与检索，最终筛选用户可能感兴趣的物品推荐给用户。",
            "endPos":1302,
            "startPos":1037
        },
        {
            "text":"\\n- [问答系统]：向量数据库会基于问题信息进行向量存储与检索，并返回最相关的问题与对应的答案。\\n- [文本/图像检索]：向量数据库对输入的图像和文本信息进行向量存储与检索，会找到最匹配输入信息的文本或图像结果。\\n",
            "endPos":1511,
            "startPos":1302
        }
    ]
}
参数名
参数含义
text
获取的 Chunks 内容。
startPos
每个 Chunks 在文件中偏移的起始位置。
endPos
每个 Chunks 在文件中偏移的结束位置。

参数名	是否必选	参数含义
DocumentSetId	否	文件上传在数据库之后，系统分配的文件 ID。说明： DocumentSetId 与 documentSetName 二者必须配置其中之一。
DocumentSetName	否	文件名。
limit	否	每页返回的 Chunks 数量。数据类型：uint 64。默认值：10。取值范围：[1,1000]。
offset	否	设置分页偏移量，用于控制分页查询返回结果的起始位置，方便用户对数据进行分页展示和浏览。取值：为 limit 整数倍。计算公式：offset = limit * (page-1)。例如：当 limit = 10，page = 2 时，分页偏移量 offset = 10 * (2 - 1) = 10，表示从查询结果的第11条记录开始返回数据。

参数名	参数含义
text	获取的 Chunks 内容。
startPos	每个 Chunks 在文件中偏移的起始位置。
endPos	每个 Chunks 在文件中偏移的结束位置。

获取 Chunks

On this page:

接口定义

使用示例

入参描述

出参描述