首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Mistral 推出全新代码嵌入模型,在真实检索任务中超越 OpenAI 与 Cohere

随着企业检索增强生成 ( RAG ) 的需求不断上升,为模型提供商提供其嵌入模型的机会已成熟。

法国 AI 公司 Mistral 参与竞逐,发布了其首款嵌入模型 Codestral Embed,并表示其在 SWE-Bench 等基准测试中表现优于现有嵌入模型。

该模型专注于代码,并“在真实代码数据的检索用例中表现尤为出色”。该模型向开发者提供服务,费用为每百万 Token 0.15 美元。

公司表示,Codestral Embed 在性能上“显著超越了领先的代码嵌入器”,例如 Voyage Code 3、Cohere Embed v4.0 以及 OpenAI 的嵌入模型 Text Embedding 3 Large。

Super excited to announce @MistralAI Codestral Embed, our first embedding model specialized for code. It performs especially well for retrieval use cases on real-world code data. pic.twitter.com/ET321cRNli — Sophia Yang, Ph.D. (@sophiamyang) May 28, 2025

Codestral Embed 属于 Mistral 的 Codestral 系列编程模型,可生成将代码和数据转化为用于 RAG 的数字表示的嵌入。

“Mistral 在博客中指出:‘Codestral Embed 可输出不同维度和精度的嵌入,下面的图展示了检索质量与存储成本之间的权衡。采用 256 维且 int8 精度的 Codestral Embed 仍然优于竞争对手的任何模型。我们的嵌入维度按相关性排序,对任意整数目标维度 n ,你可以选择保留前 n 个维度,以实现质量与成本之间的平滑折衷。’”

Mistral 在多个基准测试上对该模型进行了测试,包括 SWE-Bench 和 GitHub 上的 Text2Code。在这两种测试中,Codestral Embed 均超越了领先的嵌入模型。

SWE-Bench Text2Code

用例 Mistral 表示,Codestral Embed 针对“高性能代码检索”和语义理解进行了优化。公司称该代码最适用于至少四种用例:RAG、语义代码搜索、相似性搜索以及代码分析。

嵌入模型通常面向 RAG 用例,因为它们可以促进任务或智能代理过程的更快信息检索。因此,Codestral Embed 将焦点放在这一方向上不足为奇。

该模型还可实现语义代码搜索,允许开发者使用自然语言查找代码片段。这一用例对开发者工具平台、文档系统和编程助手均十分适用。Codestral Embed 还可帮助开发者识别重复代码片段或相似代码串,这对有代码复用政策的企业十分有益。

该模型支持语义聚类,即基于代码的功能或结构对代码进行分组。这一用例有助于分析代码仓库、分类及寻找代码架构中的模式。

嵌入领域的竞争日益激烈 Mistral 连续发布新模型和智能代理工具,步伐不断。它发布了 Mistral Medium 3,这是一款旗舰大语言模型 ( LLM ) 的中型版本,目前支持其面向企业的平台 Le Chat Enterprise。

此外,公司还宣布了 Agents API,该 API 使开发者可以访问用于创建执行实际任务和协调多个代理的工具。

Mistral 向开发者提供更多模型选择的举措在开发者社区中引起了关注,一些 X 平台用户指出,Mistral 在发布 Codestral Embed 的时机“正值竞争加剧之时”。

Mistral AI Just Dropped a Game-Changer: Codestral Embed Crushes OpenAI and Google in Code Search Race French AI startup Mistral AI has quietly unleashed what could be the most significant breakthrough in code intelligence this year. Their brand-new Codestral Embed model isn't… — Rahul Khorwal (@rkrahulkhorwal) May 28, 2025

Mistral on a delivery mission — Joel Basson (@joelbasson) May 28, 2025

然而,Mistral 必须证明 Codestral Embed 在基准测试之外也能出色地表现。尽管其与 OpenAI 与 Cohere 等更封闭的模型竞争,Codestral Embed 同时还面临来自 Qodo 等开源选项的挑战,例如 Qodo-Embed-1-1.5 B。

VentureBeat 已联系 Mistral 了解 Codestral Embed 的许可选项。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OZDuak43xSuGNOTB3QljEiPA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券