接口定义
get_chunks() 接口用于获取文件切分后的语块。
说明:
Chunk 指语块,较长文本在处理时会切分为多个语块,以便于向量化和更高效地检索,多个 Chunk 组成一个 DocumentSet。
def get_chunks( limit: int | None = None, offset: int | None = None, timeout: float | None = None ) -> List[Chunk]
使用实例
说明:
支持指定具体的文件名获取文件切分后的语块。
支持指定具体的 DocumentSet ID 获取文件切分后的语块。
import tcvectordbfrom tcvectordb.model.document import Filterfrom tcvectordb.model.enum import ReadConsistency#create a database client objectclient = tcvectordb.RPCVectorDBClient(url='http://10.0.X.X:80', username='root', key='eC4bLRy2va******************************', read_consistency=ReadConsistency.EVENTUAL_CONSISTENCY, timeout=30)# 指定文件上传所属的文件db = client.database('db-test-ai')coll_view = db.collection_view('coll-ai-files')chunk_list = coll_view.get_chunks(document_set_name='腾讯云向量数据库.pdf', limit=3)for chunks in chunk_list:print(vars(chunks))
入参描述
参数名 | 是否必选 | 参数含义 |
document_set_id | 否 | 文件上传在数据库之后,系统分配的文件 ID。 |
document_set_name | 否 | 文件名。 |
limit | 否 | 每页返回的 Chunks 数量。 数据类型:uint 64。 默认值:10。 取值范围:[1,16384]。 |
offset | 否 | 设置分页偏移量,用于控制分页查询返回结果的起始位置,方便用户对数据进行分页展示和浏览。 取值:为 limit 整数倍。 计算公式:offset = limit * (page-1)。 例如:当 limit = 10,page = 2 时,分页偏移量 offset = 10 * (2 - 1) = 10,表示从查询结果的第11条记录开始返回数据。 |
出参描述
{'startPos': 0, 'endPos': 122, 'text': '本页面旨在通过回答几个问题来让您大致了解腾讯云向量数据库(Tencent Cloud VectorDB)。读完本页后,您将了解腾讯云向量数据库是什么、它是如何工作的、关键概念、为什么使用腾讯云向量数据库、支持的索引和指标、架构和相关连接方式。\\n'}{'startPos': 122, 'endPos': 313, 'text': '## 腾讯云向量数据库是什么?\\n腾讯云向量数据库是一款全托管的自研企业级分布式数据库服务,专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法,单索引支持10亿级向量规模,可支持百万级 QPS 及毫秒级查询延迟。腾讯云向量数据库不仅能为大模型提供外部知识库,提高大模型回答的准确性,还可广泛应用于推荐系统、NLP 服务、计算机视觉、智能客服等 AI 领域。\\n'}{'startPos': 313, 'endPos': 441, 'text': '## 关键概念\\n如果您不熟悉向量数据库和相似性搜索领域,请优先阅读以下基本概念,便于您对向量数据库有一个初步的了解。\\n'}
参数名 | 参数含义 |
text | 获取的 Chunks 内容。 |
startPos | 每个 Chunks 在文件中偏移的起始位置。 |
endPos | 每个 Chunks 在文件中偏移的结束位置。 |