向量数据库 query

Method 与 URL
精确查找与查询条件完全匹配的文件：POST https://{实例访问 IP 地址}:{实例网络端口}/ai/documentSet/query。
说明：
query 可获取文件 ID、向量化的进度与状态等，具体支持如下方式查找文件。
支持指定具体的文件名查找文件，或搭配文件 Meta 信息对应字段的 Filter 表达式查询文件信息。
支持指定具体的 DocumentSet ID 查找文件，或搭配文件 Meta 信息对应字段的 Filter 表达式查询文件信息。
支持指定查询起始位置 offset 和返回数量 limit，查找指定范围的文件信息。
支持根据文件 Meta 信息对应字段 Filter 表达式，直接过滤需查找的文件。
请求示例
使用文件名查询文件信息
使用范围查询文件
使用文件 ID 查询文件信息
如下示例，查找文件名为腾讯云向量数据库.md，且满足 author 与 tags 的 Filter 表达式的文件信息。
curl -i -X POST \\
  -H 'Content-Type: application/json' \\
  -H 'Authorization: Bearer account=root&api_key=A5VOgsMpGWJhUI0WmUbY********************' \\
   http://10.0.X.X:80/ai/documentSet/query \\
  -d '{
    "database": "db-test-ai",
    "collectionView": "coll-ai-files",
    "query": {
       "documentSetName": ["腾讯云向量数据库.pdf"],
       "filter": "author in (\\"Tencent\\", \\"tencent\\") and tags include (\\"AI\\", \\"Embedding\\")",
       "outputFields": ["textPrefix", "tags","documentSetInfo"],
       "limit":10
    }
}'
文件上传于向量数据库之后，可以使用 limit 与 offset 参数，设定查询的范围来查询文件信息。
curl -i -X POST \\
  -H 'Content-Type: application/json' \\
  -H 'Authorization: Bearer account=root&api_key=A5VOgsMpGWJhUI0WmUbY********************' \\
  http://10.0.X.X:80/ai/documentSet/query \\
  -d '{
    "database": "db-test-ai",
    "collectionView": "coll-ai-files",
    "query": {
       "outputFields": ["textPrefix", "tags","documentSetInfo"],
       "offset":0,
       "limit":10
    }
}'
文件上传于向量数据库之后，系统会自动分配文件 ID，获取文件的 ID 信息之后可通过文件 ID 批量查询文件信息。
curl -i -X POST \\
  -H 'Content-Type: application/json' \\
  -H 'Authorization: Bearer account=root&api_key=A5VOgsMpGWJhUI0WmUbY********************' \\
  http://10.0.X.X:80/ai/documentSet/query \\
  -d '{
    "database": "db-test-ai",
    "collectionView": "coll-ai-files",
    "query": {
       "documentSetId": ["11801071477********"],
       "filter": "author=\\"Tencent\\"",
       "outputFields": ["textPrefix", "tags","documentSetInfo"],
       "limit":10
    }
}'
请求参数
参数名称
参数含义
子参数
是否必选
配置方法及要求
database
指定要查询的Database 名称。
-
是
使用 /database/list 获取集群中的数据库列表，复制数据库名。
collectionView
指定要查询的CollectionView 名称。
-
是
使用 /ai/collectionView/list 获取指定数据库名下的 CollectionView 列表，复制集合名。
query

设置查询条件。

documentSetId
否
表示要查询的文件的所有 ID，支持批量查询，数组元素范围[1,20]。
﻿
﻿
documentSetName
否
表示要查询的文档名称，支持批量查询，数组元素范围[1,20]。
﻿
﻿
filter
否
使用创建 CollectionView 指定的 Filter 索引的字段设置查询过滤表达式。
Filter 表达式格式为 <field_name><operator><value>，多个表达式之间支持 and（与）、or（或）、not（非）关系。具体信息，请参见 混合检索。其中： 
<field_name>：表示要过滤的字段名。
<operator>：表示要使用的运算符。
string ：匹配单个字符串值（=）、排除单个字符串值（!=）、匹配任意一个字符串值（in）、排除所有字符串值（not in）。其对应的 Value 必须使用英文双引号括起来。
uint64：大于（>）、大于等于（>=）、等于（=）、小于（<）、小于等于（<=）。例如：expired_time > 1623388524。
array：数组类型，包含数组元素之一（include）、排除数组元素之一（exclude）、全包含数组元素（include all）。例如，name include (\\"Bob\\", \\"Jack\\")。
<value>：表示要匹配的值。
示例：Filter('author="jerry"').And('page>20')。
﻿
﻿
limit
是
每页返回的 DocumentSet 数量。
数据类型：uint 64。
默认值：10。
取值范围：[1,16384]
注意：
若不配置任何查询条件，即 doc_list = coll_view.query()，则默认返回 10 个 DocumentSet。
若查询条件仅配置 Filter 表达式，不配置 limit，则默认返回 10 条 DocumentSet。
若查询条件仅设置 documentSetName 或 documentSetId，则可不配置 limit 参数，默认返回 10 条数据。
﻿
﻿
offset
否
设置分页偏移量，用于控制分页查询返回结果的起始位置，方便用户对数据进行分页展示和浏览。
取值：为 limit 整数倍。
计算公式：offset=limit*(page-1)。
例如：当 limit = 10，page = 2 时，分页偏移量 offset = 10 * (2 - 1) = 10，表示从查询结果的第 11 条记录开始返回数据。
﻿
﻿
outputFields
否
以数组形式配置需返回的字段。
响应消息
{
  "code": 0,
  "msg": "Operation success",
  "requestId": "85f094becf3ba517bdbec4**********",
  "count": 1,
  "documentSets": [
    {
      "documentSetId": "1190130763145******",
      "documentSetName": "腾讯云向量数据库.pdf",
      "textPrefix": "本页面旨在通过回答几个问题来让您大致了解腾讯云向量数据库（Tencent Cloud VectorDB）。读完本页后，您将了解腾讯云向量数据库是什么、它是如何工作的、关键概念、为什么使用腾讯云向量数据库、支持的索引和指标、架构和相关连接方式。\\n## 腾讯云向量数据库是什么？\\n腾讯云向量数据库是一款全托管的自研企业级分布式数据库服务，专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似",
      "documentSetInfo": {
        "textLength": 5526,
        "byteLength": 12886,
        "indexedProgress": 100,
        "indexedStatus": "Ready",
        "createTime": "2023-12-29 11:14:45",
        "lastUpdateTime": "2023-12-29 11:14:47",
        "keywords": "向量 数据库 数据 腾讯 检索 索引 支持 结构化 进行 相似"
      },
      "splitterPreprocess": {
        "appendTitleToChunk": true,
        "appendKeywordsToChunk": true
      },
      "parsingProcess":{
        "parsingType":"VisionModelParsing"
      },
      "author": "Tencent",
      "tags": [
        "向量",
        "Embedding",
        "AI"
      ]
    }
  ]
}
参数名
参数名
子参数
参数含义
count
-
-
查找到的文档数量。
documentSets
documnetSetId
-
文件 ID。
﻿
documnetSetName
-
文件名。
﻿
textPrefix
-
文件内容前 200个字符。
﻿
documentSetInfo
textLength
文件的字符数。
﻿
﻿
byteLength
文件的字节数。
﻿
﻿
indexedProgress
文件被预处理、Embedding 向量化的进度。
﻿
﻿

indexedStatus

文件预处理、Embedding 向量化的状态。
New：等待解析。
Loading：文件解析中。
Failure：文件解析、写入出错。
Ready：文件解析、写入完成。
﻿
﻿

indexedErrorMsg

文件解析、写入错误描述信息。
说明：
当 IndexedStatus 为 Failure 时，返回 indexedErrorMsg 信息。
﻿
﻿
createTime
文件创建时间。
﻿
﻿
lastUpdateTime
文件最后更新时间。
﻿
﻿
keywords
文件关键字。
﻿
splitterPreprocess
appendTitleToChunk
在对文件拆分时，配置是否将 Title 追加到切分后的段落后面一并 Embedding。取值如下所示：
false：不追加。
true：将段落 Title 追加到切分后的段落。
﻿
﻿
appendKeywordsToChunk
在对文件拆分时，配置是否将关键字 keywords 追加到切分后的段落一并 Embedding。取值如下所示：
false：不追加。
true：将全文的 keywords 追加到切分后的段落。
﻿
parsingProcess
parsingType
指定 PDF 类型文件的解析方式，取值如下所示：
VisionModelParsing：文件依据解析模型解析，推荐使用，可解析 PDF 中双栏、表格等复杂格式。
AlgorithmParsing：文件依据算法解析，系统默认解析方式。Markdown、Word、PPT 类型，无需配置该参数，默认使用 AlgorithmParsing 解析。
﻿
tags
-
自定义的文件 Meta 信息字段。

参数名称	参数含义	子参数	是否必选	配置方法及要求
database	指定要查询的Database 名称。	-	是	使用 /database/list 获取集群中的数据库列表，复制数据库名。
collectionView	指定要查询的CollectionView 名称。	-	是	使用 /ai/collectionView/list 获取指定数据库名下的 CollectionView 列表，复制集合名。
query	设置查询条件。	documentSetId	否	表示要查询的文件的所有 ID，支持批量查询，数组元素范围[1,20]。
				documentSetName	否	表示要查询的文档名称，支持批量查询，数组元素范围[1,20]。
				filter	否	使用创建 CollectionView 指定的 Filter 索引的字段设置查询过滤表达式。 Filter 表达式格式为 <field_name><operator><value>，多个表达式之间支持 and（与）、or（或）、not（非）关系。具体信息，请参见混合检索。其中： <field_name>：表示要过滤的字段名。 <operator>：表示要使用的运算符。 string ：匹配单个字符串值（=）、排除单个字符串值（!=）、匹配任意一个字符串值（in）、排除所有字符串值（not in）。其对应的 Value 必须使用英文双引号括起来。 uint64：大于（>）、大于等于（>=）、等于（=）、小于（<）、小于等于（<=）。例如：expired_time > 1623388524。 array：数组类型，包含数组元素之一（include）、排除数组元素之一（exclude）、全包含数组元素（include all）。例如，name include (\\"Bob\\", \\"Jack\\")。 <value>：表示要匹配的值。示例：`Filter('author="jerry"').And('page>20')。`
				limit	是	每页返回的 DocumentSet 数量。数据类型：uint 64。默认值：10。取值范围：[1,16384] 注意：若不配置任何查询条件，即 `doc_list = coll_view.query()`，则默认返回 10 个 DocumentSet。若查询条件仅配置 Filter 表达式，不配置 limit，则默认返回 10 条 DocumentSet。若查询条件仅设置 documentSetName 或 documentSetId，则可不配置 limit 参数，默认返回 10 条数据。
				offset	否	设置分页偏移量，用于控制分页查询返回结果的起始位置，方便用户对数据进行分页展示和浏览。取值：为 limit 整数倍。计算公式：offset=limit(page-1)。例如：当 limit = 10，page = 2 时，分页偏移量 offset = 10 (2 - 1) = 10，表示从查询结果的第 11 条记录开始返回数据。
				outputFields	否	以数组形式配置需返回的字段。

参数名	参数名	子参数	参数含义
count	-	-	查找到的文档数量。
documentSets	documnetSetId	-	文件 ID。
		documnetSetName	-	文件名。
		textPrefix	-	文件内容前 200个字符。
		documentSetInfo	textLength	文件的字符数。
				byteLength	文件的字节数。
				indexedProgress	文件被预处理、Embedding 向量化的进度。
				indexedStatus	文件预处理、Embedding 向量化的状态。 New：等待解析。 Loading：文件解析中。 Failure：文件解析、写入出错。 Ready：文件解析、写入完成。
				indexedErrorMsg	文件解析、写入错误描述信息。说明：当 IndexedStatus 为 Failure 时，返回 indexedErrorMsg 信息。
				createTime	文件创建时间。
				lastUpdateTime	文件最后更新时间。
				keywords	文件关键字。
		splitterPreprocess	appendTitleToChunk	在对文件拆分时，配置是否将 Title 追加到切分后的段落后面一并 Embedding。取值如下所示： false：不追加。 true：将段落 Title 追加到切分后的段落。
		splitterPreprocess		appendKeywordsToChunk	在对文件拆分时，配置是否将关键字 keywords 追加到切分后的段落一并 Embedding。取值如下所示： false：不追加。 true：将全文的 keywords 追加到切分后的段落。
		parsingProcess	parsingType	指定 PDF 类型文件的解析方式，取值如下所示： VisionModelParsing：文件依据解析模型解析，推荐使用，可解析 PDF 中双栏、表格等复杂格式。 AlgorithmParsing：文件依据算法解析，系统默认解析方式。Markdown、Word、PPT 类型，无需配置该参数，默认使用 AlgorithmParsing 解析。
		tags	-	自定义的文件 Meta 信息字段。

query

本页目录：

Method 与 URL

请求示例

请求参数

响应消息