Embedding 功能是腾讯云向量数据库(Tencent Cloud VectorDB)提供将非结构化数据转换为向量数据的能力,目前已支持文本 Embedding 模型,能够覆盖多种主流语言的向量转换,包括但不限于中文、英文。开启 Embedding 功能并在创建 Collection 时配置模型,在插入、更新和相似性检索数据时直接传入原始文本,向量数据库会自动将原始文本进行转换,生成对应的向量数据后插入数据库或进行相似性计算,大幅提高业务接入效率。
快速接入
Embedding 实现架构
腾讯云向量数据库(Tencent Cloud VectorDB)通过 HTTP API 将这些非结构化文本数据送入向量数据库,向量数据库将原始文本数据转交给 Embedding 模型进行向量化,再将转换后的向量数据以及原始文本一并存储在向量数据库中。其整个实现架构,如下图所示。

模型信息
腾讯云向量数据库(Tencent Cloud VectorDB)快速测试并分析来源于 Massive Text Embedding Benchmark(MTEB)上排名靠前的模型,选择出综合性能较好、适合不同应用场景的模型。当前,Embedding 功能支持的模型如下表所示。您可以依据数据集的语言类型、向量维度、以及综合性能得分选择合适的模型。
说明:
如您正在选择模型阶段或认为当前模型效果不佳,可参考以下逻辑选择合适的 Embedding 模型:
1. 如果需要向量化的原始文本长度超过500字符数,且不希望做拆分,推荐选用 BAAI/bge-m3,该模型提供8K Token 的输入长度,可满足长文本向量化的需求,但请注意:即使该模型支持8K的 token 输入,但在实际的业务场景中,为了您的效果和性能最佳,建议每次 token 不超过2K。
2. 如果您的数据以中文文本为主,从效果方面考虑选择 bge-large-zh-v1.5;从性能、效果、成本方面综合考虑可选择 bge-base-zh-v1.5。使用 bge-base-zh-v1.5的存储空间对比 bge-large-zh-v1.5会降低约25%,且向量生成平均性能 bge-base-zh-v1.5对比 bge-large-zh-v1.5约有1倍优势。
3. 如果您的数据以混合语言的数据组成,推荐选用 BAAI/bge-m3,该支持100多种语言且在混合语言下具有较好的效果。
模型名 | 适用语言类型 | Dimensions(维度) | 最大 Token 数量 |
| | | |
bge-large-zh-v1.5(推荐) | 中文 | 1024 | 512 |
bge-base-zh-v1.5 | 中文 | 768 | 512 |
bge-base-zh | 中文 | 768 | 512 |
bge-large-zh | 中文 | 1024 | 512 |
BAAI/bge-m3 | 多语言 | 1024 | 8192 |
m3e-base | 中文 | 768 | 512 |
text2vec-large-chinese | 中文 | 1024 | 512 |
e5-large-v2 | 英文 | 1024 | 512 |
multilingual-e5-base | 多语言 | 768 | 514 |
计费说明
腾讯云向量数据库(Tencent Cloud VectorDB)默认开通 Embedding 功能。在使用 Embedding 功能时,腾讯云向量数据库(Tencent Cloud VectorDB)将会根据输入文本的 Token 数量进行计费。具体计费信息,请参见 计费概述。
说明:
在 Embedding 模型中,Token 是指文本数据处理的基本单元。通常在文本中,一个 Token 可以是一个字或词,也可以是一个标点符号。在将文本输入到 Embedding 模型中进行向量化时,文本数据会被切分成一系列的 Token 序列,每个 Token 都会依据在模型中预先建立的词汇表的映射关系与唯一的数字 ID 相关联,实现将所有 Token 映射到一个固定维度的向量空间,完成文本的向量化。
发布地域
当前 Embedding 功能支持地域包含:北京、上海、广州、南京、新加坡、硅谷。
相关 API
您需要在建表时,做相关配置,才能在写入、更新、检索数据直接写入原始文本,应用 Embedding 功能进行向量化。相关 API,如下表所示。
相关 API | 含义 | Embedding 信息 |
创建集合 | 指定 Embedding 模型,配置输入文本的字段名及其输出的向量字段。 | |
插入数据 | 插入原始文本信息,将原始文本直接向量化,将原始文本与向量数据一并存入数据库。 | |
更新数据 | 更新之前写入的文本信息,自动向量化后存入数据库。 | |
检索数据 | 检索数据时,可根据输入的文本信息,自动向量化并检索与其最相似的数据。 |