向量数据库新建 Collection

接口定义
createCollection() 用于为已创建的 Base 类向量数据库创建 Collection。
public Collection createCollection(String databaseName, CreateCollectionParam param)
说明：
当前版本一个数据库实例下，不支持创建同名的 Collection。
使用示例
无 Embedding 模型（向量读写）
Embedding 模型（文本读写）
仅稀疏向量
支持二进制
支持 json 与 autoid
支持文件写入
创建一个名为 book-vector 的集合，不配置 Embedding 模型相关参数，用于写入3维向量数据。
private static final String DBNAME = "db-test";
// 初始化 Colleciton 参数
CreateCollectionParam collectionParam = CreateCollectionParam.newBuilder()
        .withName("book-vector")
        .withShardNum(3)
        .withReplicaNum(2)
        .withDescription("this is a collection book vector")
        .addField(new FilterIndex("id", FieldType.String, IndexType.PRIMARY_KEY))
        .addField(new VectorIndex("vector", 3, IndexType.HNSW,
                MetricType.COSINE, new HNSWParams(16, 200)))
        .addField(new FilterIndex("bookName", FieldType.String, IndexType.FILTER))
        .addField(new FilterIndex("author", FieldType.String, IndexType.FILTER))
        .addField(new FilterIndex("tags", FieldType.Array, IndexType.FILTER))
        .build();
Collection collection = client.createCollection(DBNAME, collectionParam);
创建一个名为 book-emb 的集合 ，配置 Embedding 模型相关参数，用于写入原始文本。Embedding 模型自动将原始文本进行向量化。
// link database， client 为 VectorDBClient() 创建的客户端对象
Database db = client.database("db-test");
// 初始化 Colleciton 参数
CreateCollectionParam collectionParam = CreateCollectionParam.newBuilder()
          .withName("book-emb")
          .withShardNum(3)
          .withReplicaNum(2)
          .withDescription("this is an embedding collection")
          .addField(new FilterIndex("id", FieldType.String, IndexType.PRIMARY_KEY))
          .addField(new VectorIndex("vector", 768, FieldType.Vector, IndexType.HNSW,
                  MetricType.IP, new HNSWParams(16, 200)))
           // 稀疏向量可根据需求添加
          //.addField(new FilterIndex("sparse_vector", IndexType.INVERTED, MetricType.IP))
          .addField(new FilterIndex("bookName", FieldType.String, IndexType.FILTER))
          .addField(new FilterIndex("author", FieldType.String, IndexType.FILTER))
          .addField(new FilterIndex("tags", FieldType.Array, IndexType.FILTER))
          .addField(new FilterIndex("bookName", FieldType.String, IndexType.FILTER))             
          .withEmbedding(Embedding.newBuilder().withVectorField("vector")
                  .withField("text").withModelName("bge-base-zh").build())
          .build();
  Collection collection = db.createCollection(collectionParam);
创建一个名为 book-vector 的集合，不配置 Embedding 模型相关参数，用于写入3维向量数据，并支持稀疏向量写入。
// link database， client 为 VectorDBClient() 创建的客户端对象
Database db = client.database("db-test");
// 初始化 Colleciton 参数
CreateCollectionParam collectionParam = CreateCollectionParam.newBuilder()
        .withName("book-vector")
        .withShardNum(3)
        .withReplicaNum(2)
        .withDescription("this is a collection book vector")
        .addField(new FilterIndex("id", FieldType.String, IndexType.PRIMARY_KEY))
        .addField(new SparseVectorIndex("sparse_vector", IndexType.INVERTED, MetricType.IP))
        .addField(new FilterIndex("bookName", FieldType.String, IndexType.FILTER))
        .addField(new FilterIndex("author", FieldType.String, IndexType.FILTER))
        .addField(new FilterIndex("tags", FieldType.Array, IndexType.FILTER))
        .build();
Collection collection = db.createCollection(collectionParam);
// link database， client 为 VectorDBClient() 创建的客户端对象
Database db = client.database("db-test");
// 初始化 Colleciton 参数
CreateCollectionParam collectionParam = CreateCollectionParam.newBuilder()
        .withName("bin-vector")
        .withShardNum(3)
        .withReplicaNum(2)
        .withDescription("this is a collection bin vector")
        .addField(new FilterIndex("id", FieldType.String, IndexType.PRIMARY_KEY))
        .addField(new VectorIndex("vector", 16, FieldType.BinaryVector, IndexType.BIN_FLAT,
                MetricType.HAMMING))
        .addField(new FilterIndex("bookName", FieldType.String, IndexType.FILTER))
        .build();
Collection collection = db.createCollection(collectionParam);
// link database， client 为 VectorDBClient() 创建的客户端对象
Database db = client.database("db-test");
// 初始化 Colleciton 参数
CreateCollectionParam collectionParam = CreateCollectionParam.newBuilder()
        .withName("coll-json-autoid")
        .withShardNum(3)
        .withReplicaNum(2)
        .withDescription("this is a collection book vector")
        .addField(new FilterIndex("id", FieldType.String, IndexType.PRIMARY_KEY, AutoIdType.UUID))
        .addField(new VectorIndex("vector", 3, IndexType.HNSW, MetricType.IP, new HNSWParams(16, 200)))
        .addField(new FilterIndex("bookInfo", FieldType.Json, IndexType.FILTER))
        .build();
Collection collection = db.createCollection(collectionParam);
注意：
在创建存储文件内容的 Collection 时，索引字段的设计需遵循以下限制与建议，否则可能导致上传文件失败。
文件名字段（file_name）：该字段必须定义为 string 类型的 filter 索引，以支持文件的过滤检索和处理同名文件覆盖的情况。字段名可以自定义，在上传文件时，需通过参数 FieldMappings 的 filename 映射自定义的字段名。
文件内容字段（text）：该字段用于存储知识点的原始文本内容。由于文本内容可能较大，不建议为该字段创建索引，以避免占用过多内存空间。数据库会自动写入该字段的内容。在查询时，只需要通过 output_fields 参数指定该字段即可返回原始文本。字段名可以自定义，但需通过参数 FieldMappings 的 text 映射自定义的字段名。
文件图片信息字段（image_list）：该字段存放 PDF 文件中图片的 Key 列表。在原始检索出的文本块中，图片位置将以 {key} 的形式进行占位。通过调用接口 getImageUrl，可以获取图片 URL 地址列表，这些地址与 Key 一一对应，从而实现将原始 PDF 文档恢复并展示为 HTML 格式。
不建议为该字段创建索引。如果需要创建索引，必须确保其为数组（array）类型，否则接口将报错，导致文件无法上传。
字段名可以自定义，但需要在上传文件时通过参数 FieldMappings 的 imageList 映射到自定义的字段名。
// link database， client 为 VectorDBClient() 创建的客户端对象
Database db = client.database("db-test");
// 初始化 Colleciton 参数
CreateCollectionParam collectionParam = CreateCollectionParam.newBuilder()
        .withName("coll-file-test")
        .withShardNum(3)
        .withReplicaNum(2)
        .withDescription("this is a collection upload file")
        .addField(new FilterIndex("id", FieldType.String, IndexType.PRIMARY_KEY))
        .addField(new VectorIndex("vector", 768, IndexType.HNSW, MetricType.IP, new HNSWParams(16, 200)))
        .addField(new FilterIndex("file_name", FieldType.String, IndexType.FILTER))
        .build();
Collection collection = db.createCollection(collectionParam);
入参描述
参数
参数含义
子参数
是否必选
参数配置
Name
指定 Collection 的名称。
-
是
Collection 命名要求如下：
只能使用英文字母，数字，下划线_、中划线-，并以英文字母开头。
长度要求：[1,128]。

ReplicaNum
指定 Collection 的副本数。副本数是指每个主分片有多个相同的备份，用来容灾和负载均衡。
-
是
取值类型：int。
取值范围如下所示。搜索请求量越高的索引，建议设置越多的副本数，避免负载不均衡。
单可用区实例：0。
两可用区实例：[1,节点数-1]。
三可用区实例：[2,节点数-1]。


ShardNum


指定 Collection 的分片数。分片是把大数据集切成多个子数据集。
-
是
取值类型：int。
取值范围：[1,100]。例如：5。
配置建议：在搜索时，全部分片是并发执行的，分片数量越多，平均耗时越低，但是过多的分片会带来额外开销而影响性能。
单分片数据量建议控制在300万以内，例如500万向量，可设置2个分片。
如果数据量小于300万，建议使用1分片。系统对1分片有特定优化，可显著提升性能。
Description
指定 Collection 的描述信息。
-
否
取值类型：string。
字符长度要求：[1,256]。
示例：This is the collection description。
addField
FilterIndex
fieldName
是
配置可作为 Filter 索引的自定义扩展的标量字段名。
说明：
Filter 索引（Filter Index）对标量字段或稀疏向量建立的索引。标量字段名称、类型均由用户自定义，不限制标量字段数量.
标量字段被建立 Filter 索引之后，向量检索时，将依据 Filter 指定的标量字段的条件表达式进行过滤查询和范围查询以此来匹配相似向量。
建立 Filter 索引时，选取需要使用 Filter 表达式高效过滤数据的标量字段。不做过滤查询、检索的标量字段不必建立 Filter 索引。切勿将所有标量字段建立索引，导致内存资源的浪费。
必须构建唯一的 Document id 为主键的 Filter 索引，配置 name 固定为 id 。
配置其他自定义扩展的可作为 Filter 索引的标量字段，例如：author、page 等。该标量字段名称、类型均由用户自定义，且不限制字段数量。
﻿
﻿
filedType
是
指定 Filter 字段的数据类型。取值如下：
FieldType.String：字符型。若 name 为 id，则该参数固定为 FieldType.String。
FieldType.Uint64：无符号整数。
FieldType.Int64：有符号整型。
FieldType.Double：双精度浮点型。
FieldType.Array：数组类型，数组元素默认为  String。
FieldType.Json：由键值对组成的数据对象。具体规则，请参见 json 类型。
说明：
使用 int64 与 double 数据类型，需要将 Java SDK 升级至 2.5.5 版本。
﻿
﻿
indexType
是
指定 Filter 字段的索引类型。
fieldName 为 id，该参数固定配置为 IndexType.PRIMARY_KEY，即以 id 为主键构建索引。
fieldName 为其他自定义的标量字段，在检索时，依据该字段过滤数据，可配置该字段索引类型为 IndexType.FILTER。
﻿
﻿
autoIdType
否
自动生成 ID。指定为AutoIdType.UUID，即可开启自动生成 ID 功能。
说明：
当启用 autoId 功能后，用户在写入或更新数据时，无需手动传入 id 字段。若用户在启用 autoId 的情况下仍传入了 id 字段，则系统将优先采用用户传入的 id 值作为数据的唯一标识。
在执行批量写入（batch upsert）时，如果部分数据包含 id 字段，而另一部分数据未包含 id 字段，则系统仅对未传入 id 的数据生成默认 id。
﻿
VectorIndex
fieldName
是
指定向量索引的索引对象为 vector。
﻿
﻿
FieldType
       是
向量字段的数据类型。支持不同类型、不同精度的向量数据，以适用不同业务场景。更多信息，请参见 数据类型。
Vector：单精度浮点数向量，采用8位指数位 + 23位尾数位 + 1位符号位（共32位），适用于需最高精度的计算任务或对误差敏感的向量检索。
Float16Vector：半精度浮点数向量，采用5位指数位 + 10位尾数位 + 1位符号位的格式，适用于尾数精度较高（小数点后保留更多位数）的场景，如 BGE-large 等模型生成的嵌入向量。
BFloat16Vector：bfloat16浮点数向量，采用8位指数位 + 7位尾数位 + 1位符号位的格式，适用于向量数值范围较大（更多 bit 位表达整数）的场景。
BinaryVector：每个维度仅用1个比特（bit） 表示0或1，无指数位、尾数位和符号位，直接存储二进制数据，适用于存储稀疏向量。
﻿
﻿
indexType
是
指定索引类型，取值如下所示。更多信息，请参见 索引类型。
FLAT：数据量小（<10万），要求100%召回率的基准场景。
HNSW：通用首选，百万至亿级数据，平衡高性能与高召回。
BIN_FLAT：图像二值化特征等二进制数据的检索。
IVF_FLAT、IVF_PQ、IVF_SQ4, IVF_SQ8, IVF_SQ16：IVF 系列索引，适用于上亿规模的数据集，检索效率高，内存占用低，写入效率高。
IVF_RABITQ：亿级超大规模高维向量，保证高召回率的同时实现高倍压缩，是 IVF_PQ/SQ的升级选择。
﻿
﻿
dimension
是
指定向量维度。
取值类型：uint64。
取值范围：
FLAT/HNSW/BIN_FLAT/IVF 系列索引：[1,4096]，支持最小1维到最大4096维的向量。
IVF_RABITQ 索引：(64, 2048]，支持65维到2048维的向量（不支持64维及以下）。
配置建议：维度建议为4的整数倍，字节对齐有助于提升搜索性能。维度越高，存储成本越高，检索效率越低。
说明：
若 indexType 为 BIN_FLAT，向量维度大于等于8，且必须为8的倍数。
开通 Embedding 功能，则无需配置该字段，该字段将自动配置为 Embedding 模型对应的向量维度。
﻿
﻿
metricType
是
指定索引对象为 vector 的向量之间距离度量的算法。取值如下：
L2：全称是 Euclidean distance，指欧几里得距离，它计算向量之间的直线距离，所得的值越小，越与搜索值相似。L2在低维空间中表现良好，但是在高维空间中，由于维度灾难的影响，L2的效果会逐渐变差。
IP：全称为 Inner Product，是一种计算向量之间相似度的度量算法，它计算两个向量之间的点积（内积），所得值越大越与搜索值相似。
COSINE：余弦相似度（Cosine Similarity）算法，是一种常用的文本相似度计算方法。它通过计算两个向量在多维空间中的夹角余弦值来衡量它们的相似程度。所得值越大越与搜索值相似。
HAMMING：汉明距离（Hamming Distance），计算两个二进制字符串对应位置上不同字符的数量，如果字符不同，两字符串的汉明距离就会加一。汉明距离越小，表示两个字符串之间的相似度越高。
﻿
﻿
params
否
指定索引类型 indexType 为 HNSW ，则 HNSWParams 需配置如下参数。
m：每个节点在检索构图中可以连接多少个邻居节点。
取值类型：uint64。
取值范围：[4,64]。默认为16。
intefconstruction：搜索时，指定寻找节点邻居遍历的范围。数值越大构图效果越好，构图时间越长。
取值类型：uint64。
取值范围：[8,512]。默认为200。
﻿
﻿
﻿
﻿
指定索引类型 indexType 为 IVF_RABITQ，需要配置如下参数。
Nlist：指索引中的聚类中心数量。取值类型：uint64。取值范围：[1,65536]。
bits：指定每个维度量化的 bit 数，正整数，取值范围 [1,9]，默认值为 1。取值越小，压缩程度越高，性能越好，但召回率越低。
﻿
﻿
﻿
否
指定索引类型 indexType 分别为 IVF_FLAT、 IVF_PQ、 IVF_SQ4, IVF_SQ8, IVF_SQ16，则 IVFFLATParams/IVFPQParams/
IVFSQ8Params 需配置如下参数。
NList ：指索引中的聚类中心数量。
取值类型：uint64。
取值范围：[1,65536]。
m：指乘积量化中原始数据被拆分的子向量的数量。该参数仅IVF_PQ 索引类型需配置。更多信息，请参见 索引与计算。
取值要求：原始数据的向量的维度 D（即向量中元素的个数）必须能够被 m 整除，m 必须是一个正整数。
取值范围：[1,向量维度]。
﻿
SparseVectorIndex
fieldName
否
可选择构建稀疏向量索引，字段名固定为 sparse_vector。 每个集合仅支持创建1个稀疏向量索引，无需指定稀疏向量维度。
﻿
﻿
indexType
﻿
稀疏向量索引类型固定为 IndexType.INVERTED。
﻿
﻿
metricType
﻿
稀疏向量相似性计算仅支持设置为 IP。
﻿
TtlConfig
﻿
标识数据库是否开启 TTL 配置，指定存储数据过期时间戳字段名。
﻿
Enable
﻿
否
标识数据库是否开启 TTL 属性。
true：开启。
false：关闭。
说明：
TTL（生存周期）功能规定了数据自创建或更新后将被自动删除的时间期限。向量数据库默认每小时轮询检查一次数据是否过期，超期即清理，且插入数据时允许存在最多1小时的过期时间误差。具体信息，请参见 TTL。
﻿
﻿
﻿
TimeField
﻿
﻿
指定存储数据过期时间戳的字段名。插入数据时，以标准的 Unix 时间戳指定该字段的值。字段名要求如下：
数据类型：uint64。
索引类型：Filter 索引。
示例：expired_at。
.withTtlConfig(TTLConfig.newBuilder().WithEnable(true).WithTimeField("expired_at").build())
FilterIndexConfig
支持开启所有标量字段全索引模式，默认关闭。
说明：
使用 Json 类型的字段，目前不支持创建动态索引。
FilterAll
﻿
控制标量字段全索引模式的开启和关闭。
true：开启。
false：关闭。默认值为 false。
﻿
﻿
FieldWithoutFilterIndex
﻿
当 FilterAll 为 true 时，支持通过 fieldWithoutFilterIndex 参数指定不创建索引的字段。
若 filterAll 为 false 时不支持配置。
默认值：NULL。
﻿
﻿
MaxStrLen
﻿
当 filterAll 为 true 时，支持通过 maxFieldLength 参数设定单条文档中创建索引的标量字段的最大字节数。如果字段字节数超出此限制，则忽略该字段，不创建标量索引。
默认值：32。
取值范围：[1,65536]。
.withFilterIndexConfig(FilterIndexConfig.newBuilder()
        .withFilterAll(true)
        .withFieldWithoutFilterIndex(Arrays.asList("test1", "test2"))
        .withMaxStrLen(64)
        .build())

Embedding

设置 Embedding 相关参数
ModelName
否
指定使用的 Embedding 模型的名称。您需根据业务的语言类型、数据维度要求等综合选择合适的模型。具体信息，参见 
Embedding 介绍。取值如下所示：
bge-large-zh-v1.5：适用中文，1024维，推荐使用。
bge-base-zh-v1.5：适用中文，768维。
bge-large-zh：适用中文，1024维。
bge-base-zh：适用中文，768维。
m3e-base：适用中文，768维。
e5-large-v2：适用英文，1024维。
text2vec-large-chinese：适用中文，1024维。
multilingual-e5-base：适用于多种语言类型，768维。
BAAI/bge-m3：适用于多种语言类型，1024维。
﻿
﻿
Field
否
指定文本字段名称。取值类型：String。
说明：
通过 upsert() 写入数据或通过 update() 更新数据时，Embedding 模型会自动将该字段的文本内容转换成向量数据。
﻿
﻿
VectorField
否
指定向量字段。通过 Embedding 模型生成的向量会自动存储在该字段中。固定为 vector。
返回结果
说明：
createCollection() 执行之后，如果抛出异常，说明创建 Collection 失败。具体异常原因，可根据提示信息进行分析。无任何提示信息说明创建 Collection 执行成功，可使用 listCollections() 查看已经创建的 Collection。

参数	参数含义	子参数	是否必选	参数配置
Name	指定 Collection 的名称。	-	是	Collection 命名要求如下：只能使用英文字母，数字，下划线_、中划线-，并以英文字母开头。长度要求：[1,128]。
ReplicaNum	指定 Collection 的副本数。副本数是指每个主分片有多个相同的备份，用来容灾和负载均衡。	-	是	取值类型：int。取值范围如下所示。搜索请求量越高的索引，建议设置越多的副本数，避免负载不均衡。单可用区实例：0。两可用区实例：[1,节点数-1]。三可用区实例：[2,节点数-1]。
ShardNum	指定 Collection 的分片数。分片是把大数据集切成多个子数据集。	-	是	取值类型：int。取值范围：[1,100]。例如：5。配置建议：在搜索时，全部分片是并发执行的，分片数量越多，平均耗时越低，但是过多的分片会带来额外开销而影响性能。单分片数据量建议控制在300万以内，例如500万向量，可设置2个分片。如果数据量小于300万，建议使用1分片。系统对1分片有特定优化，可显著提升性能。
Description	指定 Collection 的描述信息。	-	否	取值类型：string。字符长度要求：[1,256]。示例：This is the collection description。
addField	FilterIndex	fieldName	是	配置可作为 Filter 索引的自定义扩展的标量字段名。说明： Filter 索引（Filter Index）对标量字段或稀疏向量建立的索引。标量字段名称、类型均由用户自定义，不限制标量字段数量. 标量字段被建立 Filter 索引之后，向量检索时，将依据 Filter 指定的标量字段的条件表达式进行过滤查询和范围查询以此来匹配相似向量。建立 Filter 索引时，选取需要使用 Filter 表达式高效过滤数据的标量字段。不做过滤查询、检索的标量字段不必建立 Filter 索引。切勿将所有标量字段建立索引，导致内存资源的浪费。必须构建唯一的 Document id 为主键的 Filter 索引，配置 name 固定为 id 。配置其他自定义扩展的可作为 Filter 索引的标量字段，例如：author、page 等。该标量字段名称、类型均由用户自定义，且不限制字段数量。
				filedType	是	指定 Filter 字段的数据类型。取值如下： FieldType.String：字符型。若 name 为 id，则该参数固定为 FieldType.String。 FieldType.Uint64：无符号整数。 FieldType.Int64：有符号整型。 FieldType.Double：双精度浮点型。 FieldType.Array：数组类型，数组元素默认为 String。 FieldType.Json：由键值对组成的数据对象。具体规则，请参见 json 类型。说明：使用 int64 与 double 数据类型，需要将 Java SDK 升级至 2.5.5 版本。
				indexType	是	指定 Filter 字段的索引类型。 fieldName 为 id，该参数固定配置为 IndexType.PRIMARY_KEY，即以 id 为主键构建索引。 fieldName 为其他自定义的标量字段，在检索时，依据该字段过滤数据，可配置该字段索引类型为 IndexType.FILTER。
				autoIdType	否	自动生成 ID。指定为`AutoIdType.UUID`，即可开启自动生成 ID 功能。说明：当启用 autoId 功能后，用户在写入或更新数据时，无需手动传入 id 字段。若用户在启用 autoId 的情况下仍传入了 id 字段，则系统将优先采用用户传入的 id 值作为数据的唯一标识。在执行批量写入（batch upsert）时，如果部分数据包含 id 字段，而另一部分数据未包含 id 字段，则系统仅对未传入 id 的数据生成默认 id。
		VectorIndex	fieldName	是	指定向量索引的索引对象为 vector。
				FieldType	是	向量字段的数据类型。支持不同类型、不同精度的向量数据，以适用不同业务场景。更多信息，请参见数据类型。 Vector：单精度浮点数向量，采用8位指数位 + 23位尾数位 + 1位符号位（共32位），适用于需最高精度的计算任务或对误差敏感的向量检索。 Float16Vector：半精度浮点数向量，采用5位指数位 + 10位尾数位 + 1位符号位的格式，适用于尾数精度较高（小数点后保留更多位数）的场景，如 BGE-large 等模型生成的嵌入向量。 BFloat16Vector：bfloat16浮点数向量，采用8位指数位 + 7位尾数位 + 1位符号位的格式，适用于向量数值范围较大（更多 bit 位表达整数）的场景。 BinaryVector：每个维度仅用1个比特（bit）表示0或1，无指数位、尾数位和符号位，直接存储二进制数据，适用于存储稀疏向量。
				indexType	是	指定索引类型，取值如下所示。更多信息，请参见索引类型。 FLAT：数据量小（<10万），要求100%召回率的基准场景。 HNSW：通用首选，百万至亿级数据，平衡高性能与高召回。 BIN_FLAT：图像二值化特征等二进制数据的检索。 IVF_FLAT、IVF_PQ、IVF_SQ4, IVF_SQ8, IVF_SQ16：IVF 系列索引，适用于上亿规模的数据集，检索效率高，内存占用低，写入效率高。 IVF_RABITQ：亿级超大规模高维向量，保证高召回率的同时实现高倍压缩，是 IVF_PQ/SQ的升级选择。
				dimension	是	指定向量维度。取值类型：uint64。取值范围： FLAT/HNSW/BIN_FLAT/IVF 系列索引：[1,4096]，支持最小1维到最大4096维的向量。 IVF_RABITQ 索引：(64, 2048]，支持65维到2048维的向量（不支持64维及以下）。配置建议：维度建议为4的整数倍，字节对齐有助于提升搜索性能。维度越高，存储成本越高，检索效率越低。说明：若 indexType 为 BIN_FLAT，向量维度大于等于8，且必须为8的倍数。开通 Embedding 功能，则无需配置该字段，该字段将自动配置为 Embedding 模型对应的向量维度。
				metricType	是	指定索引对象为 vector 的向量之间距离度量的算法。取值如下： L2：全称是 Euclidean distance，指欧几里得距离，它计算向量之间的直线距离，所得的值越小，越与搜索值相似。L2在低维空间中表现良好，但是在高维空间中，由于维度灾难的影响，L2的效果会逐渐变差。 IP：全称为 Inner Product，是一种计算向量之间相似度的度量算法，它计算两个向量之间的点积（内积），所得值越大越与搜索值相似。 COSINE：余弦相似度（Cosine Similarity）算法，是一种常用的文本相似度计算方法。它通过计算两个向量在多维空间中的夹角余弦值来衡量它们的相似程度。所得值越大越与搜索值相似。 HAMMING：汉明距离（Hamming Distance），计算两个二进制字符串对应位置上不同字符的数量，如果字符不同，两字符串的汉明距离就会加一。汉明距离越小，表示两个字符串之间的相似度越高。
				params	否	指定索引类型 indexType 为 HNSW ，则 HNSWParams 需配置如下参数。 m：每个节点在检索构图中可以连接多少个邻居节点。取值类型：uint64。取值范围：[4,64]。默认为16。 intefconstruction：搜索时，指定寻找节点邻居遍历的范围。数值越大构图效果越好，构图时间越长。取值类型：uint64。取值范围：[8,512]。默认为200。
							指定索引类型 indexType 为 IVF_RABITQ，需要配置如下参数。 Nlist：指索引中的聚类中心数量。取值类型：uint64。取值范围：[1,65536]。 bits：指定每个维度量化的 bit 数，正整数，取值范围 [1,9]，默认值为 1。取值越小，压缩程度越高，性能越好，但召回率越低。
						否	指定索引类型 indexType 分别为 IVF_FLAT、 IVF_PQ、 IVF_SQ4, IVF_SQ8, IVF_SQ16，则 IVFFLATParams/IVFPQParams/ IVFSQ8Params 需配置如下参数。 NList ：指索引中的聚类中心数量。取值类型：uint64。取值范围：[1,65536]。 m：指乘积量化中原始数据被拆分的子向量的数量。该参数仅IVF_PQ 索引类型需配置。更多信息，请参见索引与计算。取值要求：原始数据的向量的维度 D（即向量中元素的个数）必须能够被 m 整除，m 必须是一个正整数。取值范围：[1,向量维度]。
		SparseVectorIndex	fieldName	否	可选择构建稀疏向量索引，字段名固定为 sparse_vector。每个集合仅支持创建1个稀疏向量索引，无需指定稀疏向量维度。
					indexType		稀疏向量索引类型固定为 IndexType.INVERTED。
					metricType		稀疏向量相似性计算仅支持设置为 IP。
TtlConfig	标识数据库是否开启 TTL 配置，指定存储数据过期时间戳字段名。	Enable	否	标识数据库是否开启 TTL 属性。 true：开启。 false：关闭。说明： TTL（生存周期）功能规定了数据自创建或更新后将被自动删除的时间期限。向量数据库默认每小时轮询检查一次数据是否过期，超期即清理，且插入数据时允许存在最多1小时的过期时间误差。具体信息，请参见 TTL。
TtlConfig	标识数据库是否开启 TTL 配置，指定存储数据过期时间戳字段名。			TimeField		指定存储数据过期时间戳的字段名。插入数据时，以标准的 Unix 时间戳指定该字段的值。字段名要求如下：数据类型：uint64。索引类型：Filter 索引。示例：expired_at。 .withTtlConfig(TTLConfig.newBuilder().WithEnable(true).WithTimeField("expired_at").build())
FilterIndexConfig	支持开启所有标量字段全索引模式，默认关闭。说明：使用 Json 类型的字段，目前不支持创建动态索引。	FilterAll		控制标量字段全索引模式的开启和关闭。 true：开启。 false：关闭。默认值为 false。
				FieldWithoutFilterIndex		当 FilterAll 为 true 时，支持通过 fieldWithoutFilterIndex 参数指定不创建索引的字段。若 filterAll 为 false 时不支持配置。默认值：NULL。
				MaxStrLen		当 filterAll 为 true 时，支持通过 maxFieldLength 参数设定单条文档中创建索引的标量字段的最大字节数。如果字段字节数超出此限制，则忽略该字段，不创建标量索引。默认值：32。取值范围：[1,65536]。 .withFilterIndexConfig(FilterIndexConfig.newBuilder() .withFilterAll(true) .withFieldWithoutFilterIndex(Arrays.asList("test1", "test2")) .withMaxStrLen(64) .build())
Embedding	设置 Embedding 相关参数	ModelName	否	指定使用的 Embedding 模型的名称。您需根据业务的语言类型、数据维度要求等综合选择合适的模型。具体信息，参见 Embedding 介绍。取值如下所示： bge-large-zh-v1.5：适用中文，1024维，推荐使用。 bge-base-zh-v1.5：适用中文，768维。 bge-large-zh：适用中文，1024维。 bge-base-zh：适用中文，768维。 m3e-base：适用中文，768维。 e5-large-v2：适用英文，1024维。 text2vec-large-chinese：适用中文，1024维。 multilingual-e5-base：适用于多种语言类型，768维。 BAAI/bge-m3：适用于多种语言类型，1024维。
				Field	否	指定文本字段名称。取值类型：String。说明：通过 upsert() 写入数据或通过 update() 更新数据时，Embedding 模型会自动将该字段的文本内容转换成向量数据。
				VectorField	否	指定向量字段。通过 Embedding 模型生成的向量会自动存储在该字段中。固定为 `vector`。

新建 Collection

本页目录：

接口定义

使用示例

入参描述

返回结果