集合视图数据操作

最近更新时间:2024-04-16 17:51:42

我的收藏
AI 类数据库下集合视图的数据操作支持文档导入和文档内容检索。
文档导入
支持导入格式为 Markdown 的文档,并支持为导入的文档配置元数据字段及值。
文档内容检索
基于相似度匹配的查询方式,用于在指定的文件中,查找与给定文本信息相似的 Top K 条文本信息。
支持指定文件名称检索最相似的文本信息。
支持文件名搭配文件元数据的标量字段的 Filter 表达式检索最相似的文本信息。
支持仅使用文件元数据的标量字段的 Filter 表达式检索最相似的文本信息。

前提条件

文档导入

1. 在左侧库表栏,展开 AI 类数据库和集合视图。
2. 打开数据操作页面。
方式一:单击集合视图名称。
方式二:鼠标悬停至待操作集合视图名称处,在右侧单击

,选择数据操作

3. 选择文档导入页签。

4. 单击点击上传或拖拽文件到文档文件区域,上传大小为1MB 以内且格式为 Markdown 的文件。
说明:
一次仅允许上传一个文件。
5. (可选)配置元数据信息(MetaData)。
自定义字段:新增标量字段,但新增字段不会构建 Filter 索引。
选择自定义字段页签,选择字段类型,并输入 Key、Value。若需要自定义多个字段,请单击添加字段
可选字段类型:
string:字符型。
uint64:指无符号整数(unsigned integer)。
float:指浮点数(即带有小数点的数值)。
array:数组类型,数组元素为 string。

已有索引字段:可为创建集合视图时设置的 Filter 索引的字段赋值,以便在检索时,使用该字段的 Filter 表达式检索文件。
选择已有索引字段页签,单击添加字段,选择创建集合时已设置的索引字段和系统默认提供的索引字段(包括 documentSetName documentSetId),并为索引字段赋值。支持添加多个索引字段,但一个索引字段仅允许设置一个 Value。

6. 配置完成后,在输入参数下方单击执行导入
执行结果区域查看执行结果。

文档导入及执行结果示例



文档内容检索

1. 在左侧库表栏,展开 AI 类数据库和集合视图。
2. 打开数据操作页面。
方式一:单击集合视图名称。
方式二:鼠标悬停至待操作集合视图名称处,在右侧单击

,选择数据操作
3. 选择文档内容检索页签。

4. 配置输入参数。
输入方式:表单JSON
输入参数:参数字段说明如下表所示。
参数(字段)名
是否必选
说明
content(查询内容)
以 String 类型输入检索的文本信息。
documentSetName(指定文档查询)
检索的文件名。
filter(根据条件表达式查询)
使用创建集合视图时指定的 Filter 索引的字段设置查询过滤表达式。 Filter 表达式格式为 <field_name><operator><value>,多个表达式之间支持 and(与)、or(或)、not(非)关系。具体信息,请参见 混合检索。其中:
<field_name>:表示要过滤的字段名。
<operator>:表示要使用的运算符。
string :匹配单个字符串值(=)、排除单个字符串值(!=)、匹配任意一个字符串值(in)、排除所有字符串值(not in)。其对应的 Value 必须使用英文双引号括起来。
uint64:大于(>)、大于等于(>=)、等于(=)、小于(<)、小于等于(<=)。例如:expired_time > 1623388524。
array:数组类型,包含数组元素之一(include)、排除数组元素之一(exclude)、全包含数组元素(include all)。例如,name include (\\"Bob\\", \\"Jack\\")。 <value>:表示要匹配的值。
示例:Filter('author="jerry"').And('page>20')
limit(查询的数据条数)
指定返回最相似的 Top K 的 K 的值。
默认值:10。
chunkExpand (结果前后补充 chunk 数)
以数组形式配置检索的目标信息所需向前扩展的段落数量以及向后扩展的段落数。例如,输入[2,3],指所检索到的 Chunk 返回时,同时返回其之前的 2个段落与之后的3个段落。
段落指文件在上传存储时,自动向量化拆分的段落。
默认值:[1,1]。
5. 配置完成后,在输入参数下方单击执行
执行结果区域查看执行结果。
说明:
当输入方式选择表单,不输入任何参数,单击执行,可最多获取该集合视图内的前10条数据。

文档内容检索输入参数及执行结果示例

输入方式:表单
输入方式:JSON

{
"database": "db-test-ai",
"collectionView": "coll-ai-files",
"search": {
"content": "什么是向量数据库",
"documentSetName": ["腾讯云向量数据库.md"],
"filter": "author in (\\"Tencent\\", \\"tencent\\") and tags include (\\"AI\\", \\"Embedding\\")",
"limit": 3,
"options": {
"chunkExpand": [
1,
1
]
}
}
}