首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

嵌入模型 Qwen3-Embedding 开源即为王者

Qwen3 Embedding 模型系列是 Qwen 家族的最新专有模型,专门设计用于文本嵌入和排序任务。基于 Qwen3 系列的密集基础模型,它提供了各种大小(0.6B、4B 和 8B)的全面文本嵌入和重新排序模型。该系列继承了其基础模型出色的多语言能力、长文本理解和推理技能。Qwen3 Embedding 系列在多种文本嵌入和排序任务中代表了重大进步,包括文本检索、代码检索、文本分类、文本聚类和双语文本挖掘。

卓越的多功能性:嵌入模型在广泛的下游应用评估中取得了最先进的性能。8B 大小的嵌入模型在 MTEB 多语言排行榜上排名第1(截至2025年6月5日,得分为70.58),而重新排序模型在各种文本检索场景中表现出色。

全面的灵活性:Qwen3 Embedding 系列提供了从 0.6B 到 8B 的全尺寸范围的嵌入和重新排序模型,适用于优先考虑效率和效果的各种用例。开发人员可以无缝结合这两个模块。此外,嵌入模型允许在所有维度上灵活定义向量,并且嵌入和重新排序模型都支持用户定义的指令,以提高特定任务、语言或场景的性能。

多语言能力:得益于 Qwen3 模型的多语言能力,Qwen3 Embedding 系列支持超过 100 种语言。这包括各种编程语言,并提供了强大的多语言、跨语言和代码检索能力。

Qwen3-Embedding-8B具有以下特点:

模型类型:文本嵌入

支持的语言:100+ 种语言

参数数量:8B

上下文长度:32k

嵌入维度:最高 4096,支持用户自定义输出维度,范围从 32 到 4096

MTEB (多语言)

MTEB (Eng 英文)

C-MTEB (MTEB 中文)

Qwen3与BGE-M3对比

综合测评1. MTEB多语言榜单

全球排名‌:8B版本超越Google Gemini-Embedding、Cohere等商业API,登顶MTEB多语言榜单冠军

多语言覆盖‌:支持119种语言,低资源语言(如斯瓦希里语)检索准确率提升25%

2. 长文本处理能力(32K上下文)

合同条款检索‌:在32K法律文档中定位关键条款,召回率达98.5%(较8K模型提升41%)

误差控制‌:双块注意力机制使长文本表征误差降低40%

推荐场景

替换BGE-M3‌:需超高精度多语言检索(如跨境电商搜索)、长文档分析(如法律合同审查)、低资源边缘设备(如轻量化智能客服)

保留BGE-M3‌:轻量级英文检索、8K以内文本处理、迁移成本敏感场景

相关部署

pip install modelscopemkldir Qwen3-Reranker-4Bcd  Qwen3-Reranker-4Bmodelscope download Qwem/Qwen3-Reranker-4B --local_dir .vllm serve . --served-model-name Qwen3-Reranker-4B --port 8001

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OBPhyN8zzbntne43h1NTlw0w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券