嵌入模型 Qwen3-Embedding 开源即为王者

文章来源：企鹅号 - 白狼诗

Qwen3 Embedding 模型系列是 Qwen 家族的最新专有模型，专门设计用于文本嵌入和排序任务。基于 Qwen3 系列的密集基础模型，它提供了各种大小（0.6B、4B 和 8B）的全面文本嵌入和重新排序模型。该系列继承了其基础模型出色的多语言能力、长文本理解和推理技能。Qwen3 Embedding 系列在多种文本嵌入和排序任务中代表了重大进步，包括文本检索、代码检索、文本分类、文本聚类和双语文本挖掘。

卓越的多功能性：嵌入模型在广泛的下游应用评估中取得了最先进的性能。8B 大小的嵌入模型在 MTEB 多语言排行榜上排名第1（截至2025年6月5日，得分为70.58），而重新排序模型在各种文本检索场景中表现出色。

全面的灵活性：Qwen3 Embedding 系列提供了从 0.6B 到 8B 的全尺寸范围的嵌入和重新排序模型，适用于优先考虑效率和效果的各种用例。开发人员可以无缝结合这两个模块。此外，嵌入模型允许在所有维度上灵活定义向量，并且嵌入和重新排序模型都支持用户定义的指令，以提高特定任务、语言或场景的性能。

多语言能力：得益于 Qwen3 模型的多语言能力，Qwen3 Embedding 系列支持超过 100 种语言。这包括各种编程语言，并提供了强大的多语言、跨语言和代码检索能力。

Qwen3-Embedding-8B具有以下特点：

模型类型：文本嵌入

支持的语言：100+ 种语言

参数数量：8B

上下文长度：32k

嵌入维度：最高 4096，支持用户自定义输出维度，范围从 32 到 4096

MTEB (多语言)

MTEB (Eng 英文)

C-MTEB (MTEB 中文)

Qwen3与BGE-M3对比

综合测评1. MTEB多语言榜单‌

‌全球排名‌：8B版本超越Google Gemini-Embedding、Cohere等商业API，登顶MTEB多语言榜单冠军

‌多语言覆盖‌：支持119种语言，低资源语言（如斯瓦希里语）检索准确率提升25%

‌2. 长文本处理能力（32K上下文）‌

‌合同条款检索‌：在32K法律文档中定位关键条款，召回率达98.5%（较8K模型提升41%）

‌误差控制‌：双块注意力机制使长文本表征误差降低40%

推荐场景

‌替换BGE-M3‌：需超高精度多语言检索（如跨境电商搜索）、长文档分析（如法律合同审查）、低资源边缘设备（如轻量化智能客服）

‌保留BGE-M3‌：轻量级英文检索、8K以内文本处理、迁移成本敏感场景

嵌入模型 Qwen3-Embedding 开源即为王者

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐