获取 Chunks

最近更新时间:2024-07-04 18:15:21

我的收藏
get_chunks() 接口用于获取文件切分后的语块。
说明:
Chunk 指语块,较长文本在处理时会切分为多个语块,以便于向量化和更高效地检索,多个 Chunk 组成一个 DocumentSet。
支持指定具体的文件名获取文件切分后的语块。
支持指定具体的 DocumentSet ID 获取文件切分后的语块。

请求示例

import tcvectordb
from tcvectordb.model.document import Filter
from tcvectordb.model.enum import ReadConsistency

#create a database client object
client = tcvectordb.RPCVectorDBClient(url='http://10.0.X.X:80', username='root', key='eC4bLRy2va******************************', read_consistency=ReadConsistency.EVENTUAL_CONSISTENCY, timeout=30)

# 指定文件上传所属的文件
db = client.database('db-test-ai')
coll_view = db.collection_view('coll-ai-files')

chunk_list = coll_view.get_chunks(document_set_name='腾讯云向量数据库.md', limit=3)
for chunks in chunk_list:
print(vars(chunks))

请求参数

参数名
是否必选
参数含义
document_set_id
文件上传在数据库之后,系统分配的文件 ID。
document_set_name
文件名。
limit
每页返回的 Chunks 数量。
数据类型:uint 64。
默认值:10。
取值范围:[1,16384]。
offset
设置分页偏移量,用于控制分页查询返回结果的起始位置,方便用户对数据进行分页展示和浏览。
取值:为 limit 整数倍。
计算公式:offset = limit * (page-1)。
例如:当 limit = 10,page = 2 时,分页偏移量 offset = 10 * (2 - 1) = 10,表示从查询结果的第11条记录开始返回数据。

返回信息

{'startPos': 0, 'endPos': 122, 'text': '本页面旨在通过回答几个问题来让您大致了解腾讯云向量数据库(Tencent Cloud VectorDB)。读完本页后,您将了解腾讯云向量数据库是什么、它是如何工作的、关键概念、为什么使用腾讯云向量数据库、支持的索引和指标、架构和相关连接方式。\\n'}
{'startPos': 122, 'endPos': 313, 'text': '## 腾讯云向量数据库是什么?\\n腾讯云向量数据库是一款全托管的自研企业级分布式数据库服务,专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法,单索引支持10亿级向量规模,可支持百万级 QPS 及毫秒级查询延迟。腾讯云向量数据库不仅能为大模型提供外部知识库,提高大模型回答的准确性,还可广泛应用于推荐系统、NLP 服务、计算机视觉、智能客服等 AI 领域。\\n'}
{'startPos': 313, 'endPos': 441, 'text': '## 关键概念\\n如果您不熟悉向量数据库和相似性搜索领域,请优先阅读以下基本概念,便于您对向量数据库有一个初步的了解。\\n'}
参数名
参数含义
text
获取的 Chunks 内容。
startPos
每个 Chunks 在文件中偏移的起始位置。
endPos
每个 Chunks 在文件中偏移的结束位置。