向量数据库精确查询文件信息

接口定义
query() 用于精确查找与查询条件完全匹配的文件，可获取文件长度、向量化的进度与状态等，不包括文件内容。
def query(
    document_set_id: List | None = None,
    document_set_name: List[str] | None = None,
    filter: Filter | None = None,
    limit: int | None = None,
    offset: int | None = None,
    output_fields: List[str] | None = None,
    timeout: float | None = None
) -> List[DocumentSet]
使用示例
说明：
支持指定具体的文件名查找文件，或搭配文件 Metadata 信息对应字段的 Filter 表达式查询文件信息。
支持指定具体的 DocumentSet ID 查找文件，或搭配文件 Metadata 信息对应字段的 Filter 表达式查询文件信息。
支持指定查询起始位置 offset 和返回数量 limit，查找指定范围的文件信息。
支持根据文件 Metadata 信息对应字段 Filter 表达式，过滤需查找的文件。
使用文件名搭配 Filter 查询文件
使用范围查询文件
使用文件 ID 查询文件
根据存储于向量数据库的文件名，搭配标量字段 author 与 tags 的 Filter 表达式一并过滤文件。
import tcvectordb
from tcvectordb.model.document import Filter
from tcvectordb.model.enum import ReadConsistency
﻿
#create a database client object
client = tcvectordb.RPCVectorDBClient(url='http://10.0.X.X:80', username='root', key='eC4bLRy2va******************************', read_consistency=ReadConsistency.EVENTUAL_CONSISTENCY, timeout=30)
﻿
# 指定文件上传所属的文件
db = client.database('db-test-ai')
coll_view = db.collection_view('coll-ai-files')
﻿
doc_list = coll_view.query(
        document_set_name=["腾讯云向量数据库.pdf"],
        limit = 2,
        filter=Filter(Filter.In("author",["Tencent","tencent"])).And(Filter.Include("tags",["AI","Embedding"])),
        output_fields=['textPrefix','author', 'tags']
    )
    
for doc in doc_list:
    print(vars(doc))
查询结果，如下所示。
{
  'documentSetId': '11801071477********',
  'documentSetName': '腾讯云向量数据库.md',
  'textPrefix': '本页面旨在通过回答几个问题来让您大致了解腾讯云向量数据库（Tencent Cloud VectorDB）。读完本页后，您将了解腾讯云向量数据库是什么、它是如何工作的、关键概念、为什么使用腾讯云向量数据库、支持的索引和指标、架构和相关连接方式。\\n## 腾讯云向量数据库是什么？\\n腾讯云向量数据库是一款全托管的自研企业级分布式数据库服务，专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似',
  'author': 'Tencent',
  'tags': [
    '向量',
    'Embedding',
    'AI'
  ]
}
文件上传于向量数据库之后，可以使用 limit 与 offset 参数，设定查询的范围来查询文件信息。
import tcvectordb
from tcvectordb.model.document import Filter
from tcvectordb.model.enum import ReadConsistency
﻿
#create a database client object
client = tcvectordb.RPCVectorDBClient(url='http://10.0.X.X', username='root', key='eC4bLRy2va******************************', read_consistency=ReadConsistency.EVENTUAL_CONSISTENCY, timeout=30)
﻿
# 指定文件上传所属的文件
db = client.database('db-test-ai')
coll_view = db.collection_view('coll-ai-files')
# 指定 limit 与 offset ，查询文件信息，返回从 offset 开始的 limit 条数据
doc_list = coll_view.query(limit=10, offset=0)
for doc in doc_list:
          print(vars(doc))
查询结果，如下所示。
{
  'documentSetId': '1190130763145412608',
  'documentSetName': '腾讯云向量数据库.md',
  'textPrefix': '本页面旨在通过回答几个问题来让您大致了解腾讯云向量数据库（Tencent Cloud VectorDB）。读完本页后，您将了解腾讯云向量数据库是什么、它是如何工作的、关键概念、为什么使用腾讯云向量数据库、支持的索引和指标、架构和相关连接方式。\\n## 腾讯云向量数据库是什么？\\n腾讯云向量数据库是一款全托管的自研企业级分布式数据库服务，专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似',
  'documentSetInfo': {
    'textLength': 5526,
    'byteLength': 12886,
    'indexedProgress': 100,
    'indexedStatus': 'Ready',
    'createTime': '2023-12-29 11:14:45',
    'lastUpdateTime': '2023-12-29 11:14:47',
    'keywords': '向量 数据库 数据 腾讯 检索 索引 支持 结构化 进行 相似'
  },
  'splitterPreprocess': {
    'appendTitleToChunk': True,
    'appendKeywordsToChunk': True
  },
  'parsingProcess': {
      'parsingType': 'VisionModelParsing'
  },
  'author': 'Tencent',
  'tags': [
    '向量',
    'Embedding',
    'AI'
  ]
}
文件上传于向量数据库之后，系统会自动分配文件 ID，获取文件 ID 信息之后可通过文件 ID 批量查询文件信息。
import tcvectordb
from tcvectordb.model.document import Filter
from tcvectordb.model.enum import ReadConsistency
﻿
#create a database client object
client = tcvectordb.RPCVectorDBClient(url='http://10.0.X.X', username='root', key='eC4bLRy2va******************************', read_consistency=ReadConsistency.EVENTUAL_CONSISTENCY, timeout=30)
﻿
# 指定文件上传所属的文件
db = client.database('db-test-ai')
coll_view = db.collection_view('coll-ai-files')
# 指定 limit 与 offset ，查询文件信息，返回从 offset 开始的 limit 条数据
doc_list = coll_view.query(
        document_set_id=["11793516237********"],
        limit = 2,
        filter=Filter("author=\\"Tencent\\""),
        output_fields=['textPrefix','author', 'keywords']
    )
for doc in doc_list:
          print(vars(doc))
查询结果，如下所示。
{
  'documentSetId': '11793516237********',
  'documentSetName': '腾讯云向量数据库.md',
  'textPrefix': '本页面旨在通过回答几个问题来让您大致了解腾讯云向量数据库（Tencent Cloud VectorDB）。读完本页后，您将了解腾讯云向量数据库是什么、它是如何工作的、关键概念、为什么使用腾讯云向量数据库、支持的索引和指标、架构和相关连接方式。\\n## 腾讯云向量数据库是什么？\\n腾讯云向量数据库是一款全托管的自研企业级分布式数据库服务，专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似',
  'documentSetInfo': {
    'keywords': '向量 数据库 数据 腾讯 检索 索引 支持 结构化 进行 相似'
  },
  'author': 'Tencent'
}
入参描述
参数名
是否必选
配置方法及要求
document_set_name 
否
表示要查询的文档的名称，支持批量查询，数组元素范围[1,20]。
document_set_id
否
表示要查询的文档的所有 ID，支持批量查询，数组元素范围[1,20]。
filter
否
使用创建 CollectionView 指定的 Filter 索引的字段设置查询过滤表达式。Filter 表达式格式为 <field_name><operator><value>，多个表达式之间支持 and（与）、or（或）、not（非）关系。具体信息，请参见 混合检索。其中： 
<field_name>：表示要过滤的字段名。
<operator>：表示要使用的运算符。
string ：匹配单个字符串值（=）、排除单个字符串值（!=）、匹配任意一个字符串值（in）、排除所有字符串值（not in）。其对应的 Value 必须使用英文双引号括起来。
uint64：大于（>）、大于等于（>=）、等于（=）、小于（<）、小于等于（<=）。例如：expired_time > 1623388524。
array：数组类型，包含数组元素之一（include）、排除数组元素之一（exclude）、全包含数组元素（include all）。例如，name include (\\"Bob\\", \\"Jack\\")。
<value>：表示要匹配的值。
示例：Filter('author="jerry"').And('page>20')。
limit
是
每页返回的 DocumentSet 数量。
数据类型：uint 64。
默认值：10。
取值范围：[1,16384]。
注意：
若不配置任何查询条件，即 doc_list = coll_view.query()，则默认返回 10 个 DocumentSet。
若查询条件仅配置 Filter 表达式，不配置 limit，则默认返回 10 条 DocumentSet。
若查询条件仅设置 document_set_name 或 document_set_id，则可不配置 limit 参数，默认返回 10 条数据。
offset
否
设置分页偏移量，用于控制分页查询返回结果的起始位置，方便用户对数据进行分页展示和浏览。
取值：为 limit 整数倍。
计算公式：offset = limit * (page-1)。
例如：当 limit = 10，page = 2 时，分页偏移量 offset = 10 * (2 - 1) = 10，表示从查询结果的第11条记录开始返回数据。
outputFields
否
以数组形式配置需返回的字段。
出参描述
{
  'documentSetId': '1190130763145412608',
  'documentSetName': '腾讯云向量数据库.pdf',
  'textPrefix': '本页面旨在通过回答几个问题来让您大致了解腾讯云向量数据库（Tencent Cloud VectorDB）。读完本页后，您将了解腾讯云向量数据库是什么、它是如何工作的、关键概念、为什么使用腾讯云向量数据库、支持的索引和指标、架构和相关连接方式。\\n## 腾讯云向量数据库是什么？\\n腾讯云向量数据库是一款全托管的自研企业级分布式数据库服务，专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似',
  'documentSetInfo': {
    'textLength': 5526,
    'byteLength': 12886,
    'indexedProgress': 100,
    'indexedStatus': 'Ready',
    'createTime': '2023-12-29 11:14:45',
    'lastUpdateTime': '2023-12-29 11:14:47',
    'keywords': '向量 数据库 数据 腾讯 检索 索引 支持 结构化 进行 相似'
  },
  'splitterPreprocess': {
    'appendTitleToChunk': True,
    'appendKeywordsToChunk': True
  },
  'parsingProcess': {
      'parsingType': 'VisionModelParsing'
  },
  'author': 'Tencent',
  'tags': [
    '向量',
    'Embedding',
    'AI'
  ]
}
返回参数
参数名
子参数
参数含义
documnetSetId
-
文件 ID。
documnetSetName
-
文件名。
textPrefix
-
文件内容前 200个字符。
documentSetInfo
textLength
文件的字符数。
﻿
byteLength
文件的字节数。
﻿
indexedProgress
文件被预处理、Embedding 向量化的进度。
﻿

indexedStatus

文件预处理、Embedding 向量化的状态。
New：等待解析。
Loading：文件解析中。
Failure：文件解析、写入出错。
Ready：文件解析、写入完成。
﻿

indexedErrorMsg

文件解析、写入错误描述信息。
说明：
当 IndexedStatus 为 Failure 时，返回 indexedErrorMsg 信息。
﻿
createTime
文件创建时间。
﻿
lastUpdateTime
文件最后更新时间。
﻿
keywords
文件关键字。
splitterPreprocess
appendTitleToChunk
在对文件拆分时，配置是否将 Title 追加到切分后的段落后面一并 Embedding。取值如下所示：
false：不追加。
true：将段落 Title 追加到切分后的段落。
﻿
appendKeywordsToChunk
在对文件拆分时，配置是否将关键字 keywords 追加到切分后的段落一并 Embedding。取值如下所示：
false：不追加。
true：将全文的 keywords 追加到切分后的段落。
﻿
chunk_splitter
以正则表达式的方式配置文档拆分方式，如下：\\n{2,} 代表以两个及以上的换行进行拆分，常用在 QA 对文件拆分中。
parsingProcess
parsingType
指定 PDF 类型文件的解析方式，取值如下所示：
VisionModelParsing：文件依据解析模型解析。
AlgorithmParsing：文件依据算法解析。
author
-
自定义的文件 Metadata 信息字段。

参数名	是否必选	配置方法及要求
document_set_name	否	表示要查询的文档的名称，支持批量查询，数组元素范围[1,20]。
document_set_id	否	表示要查询的文档的所有 ID，支持批量查询，数组元素范围[1,20]。
filter	否	使用创建 CollectionView 指定的 Filter 索引的字段设置查询过滤表达式。Filter 表达式格式为 <field_name><operator><value>，多个表达式之间支持 and（与）、or（或）、not（非）关系。具体信息，请参见混合检索。其中： <field_name>：表示要过滤的字段名。 <operator>：表示要使用的运算符。 string ：匹配单个字符串值（=）、排除单个字符串值（!=）、匹配任意一个字符串值（in）、排除所有字符串值（not in）。其对应的 Value 必须使用英文双引号括起来。 uint64：大于（>）、大于等于（>=）、等于（=）、小于（<）、小于等于（<=）。例如：expired_time > 1623388524。 array：数组类型，包含数组元素之一（include）、排除数组元素之一（exclude）、全包含数组元素（include all）。例如，name include (\\"Bob\\", \\"Jack\\")。 <value>：表示要匹配的值。示例：`Filter('author="jerry"').And('page>20')。`
limit	是	每页返回的 DocumentSet 数量。数据类型：uint 64。默认值：10。取值范围：[1,16384]。注意：若不配置任何查询条件，即 `doc_list = coll_view.query()`，则默认返回 10 个 DocumentSet。若查询条件仅配置 Filter 表达式，不配置 limit，则默认返回 10 条 DocumentSet。若查询条件仅设置 document_set_name 或 document_set_id，则可不配置 limit 参数，默认返回 10 条数据。
offset	否	设置分页偏移量，用于控制分页查询返回结果的起始位置，方便用户对数据进行分页展示和浏览。取值：为 limit 整数倍。计算公式：offset = limit * (page-1)。例如：当 limit = 10，page = 2 时，分页偏移量 offset = 10 * (2 - 1) = 10，表示从查询结果的第11条记录开始返回数据。
outputFields	否	以数组形式配置需返回的字段。

参数名	子参数	参数含义
documnetSetId	-	文件 ID。
documnetSetName	-	文件名。
textPrefix	-	文件内容前 200个字符。
documentSetInfo	textLength	文件的字符数。
		byteLength	文件的字节数。
		indexedProgress	文件被预处理、Embedding 向量化的进度。
		indexedStatus	文件预处理、Embedding 向量化的状态。 New：等待解析。 Loading：文件解析中。 Failure：文件解析、写入出错。 Ready：文件解析、写入完成。
		indexedErrorMsg	文件解析、写入错误描述信息。说明：当 IndexedStatus 为 Failure 时，返回 indexedErrorMsg 信息。
		createTime	文件创建时间。
		lastUpdateTime	文件最后更新时间。
		keywords	文件关键字。
splitterPreprocess	appendTitleToChunk	在对文件拆分时，配置是否将 Title 追加到切分后的段落后面一并 Embedding。取值如下所示： false：不追加。 true：将段落 Title 追加到切分后的段落。
		appendKeywordsToChunk	在对文件拆分时，配置是否将关键字 keywords 追加到切分后的段落一并 Embedding。取值如下所示： false：不追加。 true：将全文的 keywords 追加到切分后的段落。
		chunk_splitter	以正则表达式的方式配置文档拆分方式，如下：`\\n{2,}` 代表以两个及以上的换行进行拆分，常用在 QA 对文件拆分中。
parsingProcess	parsingType	指定 PDF 类型文件的解析方式，取值如下所示： VisionModelParsing：文件依据解析模型解析。 AlgorithmParsing：文件依据算法解析。
author	-	自定义的文件 Metadata 信息字段。

精确查询文件信息

本页目录：

接口定义

使用示例

入参描述

出参描述

返回参数