向量数据库获取 Chunks

接口定义
get_chunks() 接口用于获取文件切分后的语块。
说明：
Chunk 指语块，较长文本在处理时会切分为多个语块，以便于向量化和更高效地检索，多个 Chunk 组成一个 DocumentSet。
def get_chunks(
    limit: int | None = None,
    offset: int | None = None,
    timeout: float | None = None
) -> List[Chunk]
使用示例
说明：
支持指定具体的文件名获取文件切分后的语块。
支持指定具体的 DocumentSet ID 获取文件切分后的语块。
import tcvectordb
from tcvectordb.model.document import Filter
from tcvectordb.model.enum import ReadConsistency
﻿
#create a database client object
client = tcvectordb.RPCVectorDBClient(url='http://10.0.X.X:80', username='root', key='eC4bLRy2va******************************', read_consistency=ReadConsistency.EVENTUAL_CONSISTENCY, timeout=30)
﻿
# 指定文件上传所属的文件
db = client.database('db-test-ai')
coll_view = db.collection_view('coll-ai-files')
﻿
chunk_list = coll_view.get_chunks(document_set_name='腾讯云向量数据库.pdf', limit=3)
for chunks in chunk_list:
    print(vars(chunks))
入参描述
参数名
是否必选
参数含义
document_set_id
否
文件上传在数据库之后，系统分配的文件 ID。
document_set_name
否
文件名。
limit
否
每页返回的 Chunks 数量。
数据类型：uint 64。
默认值：10。
取值范围：[1,1000]。
offset
否
设置分页偏移量，用于控制分页查询返回结果的起始位置，方便用户对数据进行分页展示和浏览。
取值：为 limit 整数倍。
计算公式：offset = limit * (page-1)。
例如：当 limit = 10，page = 2 时，分页偏移量 offset = 10 * (2 - 1) = 10，表示从查询结果的第11条记录开始返回数据。
出参描述
{'startPos': 0, 'endPos': 122, 'text': '本页面旨在通过回答几个问题来让您大致了解腾讯云向量数据库（Tencent Cloud VectorDB）。读完本页后，您将了解腾讯云向量数据库是什么、它是如何工作的、关键概念、为什么使用腾讯云向量数据库、支持的索引和指标、架构和相关连接方式。\\n'}
{'startPos': 122, 'endPos': 313, 'text': '## 腾讯云向量数据库是什么？\\n腾讯云向量数据库是一款全托管的自研企业级分布式数据库服务，专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法，单索引支持10亿级向量规模，可支持百万级 QPS 及毫秒级查询延迟。腾讯云向量数据库不仅能为大模型提供外部知识库，提高大模型回答的准确性，还可广泛应用于推荐系统、NLP 服务、计算机视觉、智能客服等 AI 领域。\\n'}
{'startPos': 313, 'endPos': 441, 'text': '## 关键概念\\n如果您不熟悉向量数据库和相似性搜索领域，请优先阅读以下基本概念，便于您对向量数据库有一个初步的了解。\\n'}
参数名
参数含义
text
获取的 Chunks 内容。
startPos
每个 Chunks 在文件中偏移的起始位置。
endPos
每个 Chunks 在文件中偏移的结束位置。

参数名	是否必选	参数含义
document_set_id	否	文件上传在数据库之后，系统分配的文件 ID。
document_set_name	否	文件名。
limit	否	每页返回的 Chunks 数量。数据类型：uint 64。默认值：10。取值范围：[1,1000]。
offset	否	设置分页偏移量，用于控制分页查询返回结果的起始位置，方便用户对数据进行分页展示和浏览。取值：为 limit 整数倍。计算公式：offset = limit * (page-1)。例如：当 limit = 10，page = 2 时，分页偏移量 offset = 10 * (2 - 1) = 10，表示从查询结果的第11条记录开始返回数据。

参数名	参数含义
text	获取的 Chunks 内容。
startPos	每个 Chunks 在文件中偏移的起始位置。
endPos	每个 Chunks 在文件中偏移的结束位置。

获取 Chunks

本页目录：

接口定义

使用示例

入参描述

出参描述