重构索引

最近更新时间:2025-08-26 15:07:31

我的收藏

接口定义

RebuildIndex() 接口用于重建指定 Collection 的所有索引,清除无用的索引数据,修复损坏的索引数据,优化索引结构,改善性能。
RebuildIndex(ctx context.Context, params ...*tcvectordb.RebuildIndexParams) (result *tcvectordb.RebuildIndexResult, err error)
说明:
RebuildIndex 接口用于重建指定集合的向量索引,主要适用于以下两种场景:
首次使用 IVF 系列索引时,需要通过 RebuildIndex 接口初始化索引结构。具体信息,请参见 IVF 系列索引应用指南
在离线批量数据导入场景中,建议先执行数据写入操作(通过 Upsert 接口设置 BuildIndex = false 暂停索引构建),待数据完整导入后,再调用RebuildIndex 接口集中创建索引,以此减少写入过程中的索引维护开销,提升整体导入效率。
警告:
Rebuild 操作需占用额外内存且可能影响服务,执行前请评估业务场景并选择重建方式。
保留原索引、同时构建新索引(即设置dropBeforeRebuild=False):期间集合读取正常,写入被阻止,构建新索引后,替换原索引,构建过程中,旧索引和新索引都会占用内存,如果内存足够可采用该方式,建议根据实际业务高低峰选择停写时段执行。
先删除原索引、再构建新索引(即设置dropBeforeRebuild=True):期间集合读写会受到影响,先删除旧索引,再构建新索引。如果内存严重不足时,则需采用该方案。建议根据业务需求选择可中断服务的时段处理。

使用示例

var (
ctx = context.Background()
database = "go-sdk-test-db"
collection = "go-sdk-test-emcoll"
)
_, err = d.client.RebuildIndex(ctx, database, collection, &tcvectordb.RebuildIndexParams{
FieldName: "vector",
DropBeforeRebuild: true,
Throttle: 1,
})
if err != nil {
panic(err)
}

入参描述

参数名
参数
是否必选
参数含义
配置方法及要求
databaseName
-
配置需重建索引的 Database 名称。
获取集群中的数据库列表,复制需重建索引的集合所属的数据库名。
collectionName
-

指定需重建索引的 Collection 名称。
获取指定数据库名下的 Collection 列表,复制需重建索引的集合名。
RebuildIndexParams
FieldName
指定重建索引的字段。
vector:重建稠密向量索引。默认值为 vector。
sparse_vector:重建稀疏向量索引。
说明:
同一集合,不支持并发执行 rebuild。如果集合中既有稠密向量又有稀疏向量,则需要分别进行重建。
DropBeforeRebuild
标识在重建索引时,是否需先删除旧索引再重建新索引。
警告:
重建索引需要占用额外的内存空间,数据量越大,消耗的内存空间越大。在重建索引之前,您需根据实际资源情况选择是否需先删除旧索引再重建,避免引起内存占满而阻塞业务正常运行。

取值如下所示:
true:重建之前,先删除旧索引在重建索引。
警告:
内存资源不足时,可配置为 true,先删除旧索引,在新索引构建过程中,无法正常读写。
false:重建之前,不删除旧索引,创建新索引完成之后再删除旧索引。默认为 false。
警告:
内存资源足够的情况下,可配置为 false,可不删除旧索引。在新索引构建过程中,可读数据,禁止写入数据。

Throttle
标识是否限制构建索引的单节点 CPU 核数。
说明:
重建索引会消耗 CPU 资源,为防止资源打满影响写入或者检索等操作,请根据业务实际配置重建索引的 CPU 核数。默认为限制 CPU 核数为1。
取值如下所示:
0:不限制 CPU 核数。在模型训练期间,会消耗大量的 CPU 资源。重建索引任务将会尽快执行,但可能会对其他集合的读写操作产生影响。
1~节点 CPU 核数:可用于 rebuild 的 CPU 资源最大为实例单个节点规格的 CPU 核数,可避免构建索引期间对其他集合产生影响,但任务执行较慢。

出参描述

说明:
RebuildIndex() 执行之后,如果抛出异常,说明重建索引失败。具体异常原因,可根据提示信息进行分析。无任何提示信息说明执行成功,可使用 query() 确认删除的 Document 已经不存在。

相关说明

请用 RebuildIndex() 接口重建索引之后,使用 DescribeCollection() 接口查看 Collection 的索引状态。当返回参数 indexStatus 中的 status 显示为 ready 时,说明索引重构完成,可正常写入数据。
initial:索引已创建但尚未构建,处于初始状态。
ready:索引构建成功且已就绪,可正常执行操作。
training:正在训练机器学习模型以生成向量数据。
building:正在构建向量索引结构并存储向量数据。
building_scalar:正在构建标量索引。
building_sparse:正在构建稀疏向量索引。
failed:索引构建失败,需修复后方可正常操作。
{
"code": 0,
"msg": "operation success",
"collection": {
"database": "db-test",
"collection": "coll-test",
"documentCount": 4,
"indexes": [
......
],
"indexStatus": {
"status": "ready",
"startTime": ""
}
}
}