Mistral AI 与 NVIDIA 联手推出 120 亿参数 NeMo 模型

文章来源：企鹅号 - 一数上码

最近，Mistral AI 宣布与 NVIDIA 合作推出了一款名为 NeMo 的 120 亿参数模型。这个模型非常厉害，拥有高达 12.8 万个词元的上下文窗口，而且在推理、世界知识和代码准确性方面表现出色，堪称最顶尖的性能。

Mistral AI 和 NVIDIA 的这次合作催生了这款超级牛的模型，不仅性能强大，而且还很易用。NeMo 是建立在标准架构上的，可以轻松替代当前使用 Mistral 7B 的系统。

为了鼓励更多人采用和深入研究，Mistral AI 根据 Apache 2.0 许可证提供了预训练基础模型和指令微调检查点。这种开源方法可能会吸引更多研究人员和企业，有望加速模型在各种应用中的应用。

Mistral NeMo 的一个主要特点是在训练期间具有量化意识，这使得 FP8 推理能够在不影响性能的情况下进行。对于希望高效部署大型语言模型的组织来说，这个功能可能非常重要。

Mistral AI 还提供了 Mistral NeMo 基础模型与最近两个开源预训练模型（Gemma 2 9B 和 Llama 3 8B）的性能比较。

据 Mistral AI 介绍：“这个模型专为全球多语言应用程序而设计。它经过函数调用训练，拥有大量的上下文窗口，在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语等多种语言方面表现出色。”

Mistral NeMo 还推出了 Tekken，这是一种基于 Tiktoken 的全新分词器。Tekken 经过对100多种语言的训练，在自然语言文本和源代码方面比之前的 SentencePiece 分词器更高效。据报道，Tekken 在压缩源代码和几种主要语言方面的效率提高了约30%，而对于韩语和阿拉伯语，这个提升甚至更高。

Mistral AI 还表示，Tekken 在大约85%的语言文本压缩方面优于 Llama 3 分词器，这可能使 Mistral NeMo 在多语言应用中具有优势。

这个模型的权重现在在 HuggingFace 上提供，包括基础版本和指令版本。开发人员可以用 mistral-inference 工具开始试验 Mistral NeMo，并用 mistral-finetune 进行调整。对于使用 Mistral 平台的用户，可以用 open-mistral-nemo 访问该模型。

Mistral NeMo 的发布代表着先进人工智能模型民主化的重要一步。通过结合高性能、多语言功能和开源可用性，Mistral AI 和 NVIDIA 将这个模型定位为适用于各行各业和研究领域的通用工具。

发表于: 2024-07-202024-07-20 11:08:32
原文链接：https://page.om.qq.com/page/OoTPOeEIftuqeahmhMQ1N4Dw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Mistral AI 与 NVIDIA 联手推出 120 亿参数 NeMo 模型

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐