相似性检索文件内容

最近更新时间:2025-07-01 10:19:43

我的收藏

功能介绍

Search() 接口用于在指定的文件内,查找与给定文本信息相似的 Top K 条文本信息。
Search(ctx context.Context, param tcvectordb.SearchAIDocumentSetsParams) (*tcvectordb.SearchAIDocumentSetResult, error)

请求示例

说明:
支持指定文件名称检索最相似的文本信息。
支持文件名搭配文件元数据的标量字段的 Filter 表达式检索最相似的文本信息。
支持仅使用文件元数据的标量字段的 Filter 表达式检索最相似的文本信息。
根据文件名搭配 Filter 检索相似数据
根据 Filter 表达式检索相似数据
如下示例,在文件 腾讯云向量数据库.pdf 中,相似性检索与什么是向量数据库相似的文本信息,并使用标量字段 author_name 的 Filter 表达式的文本信息。
var (
ctx = context.Background()
aiDatabase = "go-sdk-test-ai-db"
collectionViewName = "go-sdk-test-ai-coll"
)

col := client.AIDatabase(aiDatabase).CollectionView(collectionViewName)
searchRes, _ := col.Search(ctx, tcvectordb.SearchAIDocumentSetsParams{
Content: "什么是向量数据",
DocumentSetName: []string{"腾讯云向量数据库.pdf"},
//Filter: tcvectordb.NewFilter(`author="sam"`),
Limit: 3, // 指定 Top K 的 K 值
ExpandChunk: []int{1,1},
})
for _, doc := range searchRes.Documents {
log.Printf("document: %+v", doc)
}
如下示例,通过文件 meta 信息的标量字段 author 的 Filter 表达式,检索与什么是向量数据库相似的文本信息。
var (
ctx = context.Background()
aiDatabase = "go-sdk-test-ai-db"
collectionViewName = "go-sdk-test-ai-coll"
)

col := client.AIDatabase(aiDatabase).CollectionView(collectionViewName)
searchRes, _ := col.Search(ctx, tcvectordb.SearchAIDocumentSetsParams{
Content: "什么是向量数据库",
Filter: tcvectordb.NewFilter(`author="sam"`),
Limit: 3, // 指定 Top K 的 K 值
ExpandChunk: []int{1,1},
})
for _, doc := range searchRes.Documents {
log.Printf("document: %+v", doc)
}
参数名称
是否必选
参数含义及配置方法
Content
以 String 类型输入检索的文本信息。
ExpandChunk
以数组形式配置检索的目标信息所需向前扩展的段落数量以及向后扩展的段落数。例如,输入[2,3],指所检索到的 Chunk 返回时,同时返回其之前的 2个段落与之后的3个段落。
段落指文件在上传存储时,自动向量化拆分的段落。
默认值:[1,1]。
DocumentSetName
表示要查询的文档的名称,支持批量查询,数组元素范围[1,10]。
Filter
使用创建 CollectionView 指定的 Filter 索引的字段设置查询过滤表达式。Filter 表达式格式为 <field_name><operator><value>,多个表达式之间支持 and(与)、or(或)、not(非)关系。具体信息,请参见 混合检索。其中:
<field_name>:表示要过滤的字段名。
<operator>:表示要使用的运算符。
string :匹配单个字符串值(=)、排除单个字符串值(!=)、匹配任意一个字符串值(in)、排除所有字符串值(not in)。其对应的 Value 必须使用英文双引号括起来。
uint64:大于(>)、大于等于(>=)、等于(=)、小于(<)、小于等于(<=)。例如:expired_time > 1623388524。
array:数组类型,包含数组元素之一(include)、排除数组元素之一(exclude)、全包含数组元素(include all)。例如,name include (\\"Bob\\", \\"Jack\\")。
<value>:表示要匹配的值。
示例:Filter('author="jerry"').And('page>20')。
Limit
指定返回最相似的 Top K 的 K 的值。

出参描述

2025/06/27 11:47:48 ---------------------------- Search ----------------------------
2025/06/27 11:47:49 SearchDocument: {DatabaseName:go-sdk-demo-ai-db CollectionViewName:go-sdk-demo-ai-col DocumentSetId:1388002727443693568 DocumentSetName:腾讯云向量数据库.pdf Score:0.8344933390617371 SearchData:{Text:## 什么是向量?

向量是指在数学和物理中用来表示大小和方向的量。它由一组有序的数值组成,这些数值代表了向量在每个坐标轴上的分量。

StartPos:1418 EndPos:1486 Pre:[## 关键概念

如果您不熟悉向量数据库和相似性搜索领域,请优先阅读以下基本概念,便于您对向量数据库有一个初步的了解。更多名词解释,请阅读关键概念。

] Next:[## 什么是非结构化数据?

非结构化数据,是指图像、文本、音频等数据。与结构化数据相比,非结构化数据不遵循预定义模型或组织方式,通常更难以处理和分析。

] ParagraphTitle:什么是向量? AllParentParagraphTitles:[什么是向量?]} ScalarFields:map[author:sam fileKey:1024 test_str:v1]}
2025/06/27 11:47:49 SearchDocument: {DatabaseName:go-sdk-demo-ai-db CollectionViewName:go-sdk-demo-ai-col DocumentSetId:1388002727443693568 DocumentSetName:腾讯云向量数据库.pdf Score:0.7606131434440613 SearchData:{Text:## 向量(Vector)

向量可以理解为一组数值的有序集合,通常用于表示某个对象或事物的属性或者特征。这些数值可以有不同的维度,每个维度都表示一个属性或特征。在机器学习和人工智能领域,向量常用于表示图像、文本、音频等数据,通过计算向量之间的距离或相似度来实现分类、聚类、检索等任务。

StartPos:7309 EndPos:7454 Pre:[## 向量数据库

## 关键概念

最近更新时间:2023-07-2419:36:42

] Next:[## OLAMA

OLAMA是腾讯自研的向量引擎,具有高性能、高可用、简单易用等特点。它支持单索引10亿级向量规模,适用于AI运算、检索场景,已稳定服务于近40个线上业务。

] ParagraphTitle:向量(Vector) AllParentParagraphTitles:[向量(Vector)]} ScalarFields:map[author:sam fileKey:1024 test_str:v1]}
2025/06/27 11:47:49 SearchDocument: {DatabaseName:go-sdk-demo-ai-db CollectionViewName:go-sdk-demo-ai-col DocumentSetId:1388002727443693568 DocumentSetName:腾讯云向量数据库.pdf Score:0.7552775144577026 SearchData:{Text:## 什么是AI中的向量表示?

当我们处理非结构化数据时,需要将其转换为计算机可以理解和处理的形式。向量表示是一种将非结构化数据转换为嵌入向量的技术,通过多维度向量数值表述某个对象或事物的属性或者特征。腾讯云向量数据库提供的模型能力,目前在开发调试中。具体上线时间,请关注产品动态。

StartPos:1564 EndPos:1708 Pre:[## 什么是非结构化数据?

非结构化数据,是指图像、文本、音频等数据。与结构化数据相比,非结构化数据不遵循预定义模型或组织方式,通常更难以处理和分析。

] Next:[## 什么是向量检索?

向量检索是将向量与数据库进行比较以查找与查询向量最相似的向量的过程。相似的向量通常具有相近的原始数据,通过向量检索可以挖掘出原始非结构化数据之间的联系。

] ParagraphTitle:什么是AI中的向量表示? AllParentParagraphTitles:[什么是AI中的向量表示?]} ScalarFields:map[author:sam fileKey:1024 test_str:v1]}
参数名
子参数
参数含义
Score
-
表示查询向量与检索结果向量之间的相似性计算分数。
SearchData
Text
检索的结果。
EndPos
检索结果在文件中偏移的结束位置。
StartPos
检索结果在文件中偏移的起始位置。
Next
根据检索时,设置的参数 chunkExpand,返回检索结果向后扩展的段落。
Pre
根据检索时,设置的参数 chunkExpand,返回检索结果向前扩展的段落。
ParagraphTitle
检索到的 chunk 所属的段落标题。
AllParentParagraphTitles
检索到的 chunk 所属的所有层级的段落标题。
DocumentSet
DocumentSetId
文件 ID。
DocumentSetName
文件名。
ScalarFields
自定义的文件 Meta 信息的标量字段。例如:author、bookName、page 等。
说明:
显示创建 CollectionView 时设置为 Filter 索引的字段,同时显示上传文件时或使用 update 新增的字段,但新增的字段不会构建索引。