工具介绍

最近更新时间:2025-02-21 11:07:12

我的收藏
腾讯云向量数据库团队推出了一款稀疏向量工具包,旨在帮助用户高效生成稀疏向量。该工具包集成“jieba”分词库,并提供了一系列高级且灵活的功能,能够满足用户在不同领域和任务中的个性化需求。
快速生成稀疏向量:具有优化的算法和数据结构,并区分写入和检索场景,使用不同的词表拆分计算方法,将文本内容快速转换为稀疏向量表示。当前支持中文、英文两种语言,默认为中文。
训练自定义语料:支持针对特定领域的数据集进行模型训练,生成适配特定领域的词频计算参数,并可下载与上传参数,以灵活调整优化参数,持续提高模型稀疏向量生成的准确性。
SDK:为了帮助用户快速生成稀疏向量,腾讯云向量数据库提供了 Python、Java、Go 三种语言的稀疏向量生成工具。
说明:
在使用不同语言的工具生成稀疏向量时,由于底层使用的分词工具存在差异,因此在支持的拆分参数以及拆分结果上可能会存在细微差别,如 Python SDK 支持指定使用 PaddlePaddle 的分词库,其他语言暂不支持。
语言
语言版本
SDK 下载
SDK 源码
Python
推荐使用3.8及以上版本
安装最新版本 tcvectordb SDK,已包含 tcvdb-text 工具,无需单独下载。
pip3 install tcvectordb
执行如下命令,可单独安装 tcvdb_text 最新版本。
pip3 install tcvdb-text
Java
Java 8或更高版本
安装最新版本的 vectordatabase-sdk-java,已依赖tcvdb_text 工具,无需单独下载。如需单独依赖,请参见tcvdb-text
GO
Go 1.17或更高版本
安装最新版本(V1.4.7及以上版本支持稀疏向量)的 vectordatabase-sdk-go,已包含 tcvdbtext 工具。
说明:
使用 Go SDK 通过 Bm25 tcvdbtext 将文本转化成稀疏向量的过程中,英文文本统一会转换成小写字母处理。