首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Mistral AI 与 NVIDIA 联手推出 120 亿参数 NeMo 模型

最近,Mistral AI 宣布与 NVIDIA 合作推出了一款名为 NeMo 的 120 亿参数模型。这个模型非常厉害,拥有高达 12.8 万个词元的上下文窗口,而且在推理、世界知识和代码准确性方面表现出色,堪称最顶尖的性能。

Mistral AI 和 NVIDIA 的这次合作催生了这款超级牛的模型,不仅性能强大,而且还很易用。NeMo 是建立在标准架构上的,可以轻松替代当前使用 Mistral 7B 的系统。

为了鼓励更多人采用和深入研究,Mistral AI 根据 Apache 2.0 许可证提供了预训练基础模型和指令微调检查点。这种开源方法可能会吸引更多研究人员和企业,有望加速模型在各种应用中的应用。

Mistral NeMo 的一个主要特点是在训练期间具有量化意识,这使得 FP8 推理能够在不影响性能的情况下进行。对于希望高效部署大型语言模型的组织来说,这个功能可能非常重要。

Mistral AI 还提供了 Mistral NeMo 基础模型与最近两个开源预训练模型(Gemma 2 9B 和 Llama 3 8B)的性能比较。

据 Mistral AI 介绍:“这个模型专为全球多语言应用程序而设计。它经过函数调用训练,拥有大量的上下文窗口,在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语等多种语言方面表现出色。”

Mistral NeMo 还推出了 Tekken,这是一种基于 Tiktoken 的全新分词器。Tekken 经过对100多种语言的训练,在自然语言文本和源代码方面比之前的 SentencePiece 分词器更高效。据报道,Tekken 在压缩源代码和几种主要语言方面的效率提高了约30%,而对于韩语和阿拉伯语,这个提升甚至更高。

Mistral AI 还表示,Tekken 在大约85%的语言文本压缩方面优于 Llama 3 分词器,这可能使 Mistral NeMo 在多语言应用中具有优势。

这个模型的权重现在在 HuggingFace 上提供,包括基础版本和指令版本。开发人员可以用 mistral-inference 工具开始试验 Mistral NeMo,并用 mistral-finetune 进行调整。对于使用 Mistral 平台的用户,可以用 open-mistral-nemo 访问该模型。

Mistral NeMo 的发布代表着先进人工智能模型民主化的重要一步。通过结合高性能、多语言功能和开源可用性,Mistral AI 和 NVIDIA 将这个模型定位为适用于各行各业和研究领域的通用工具。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OoTPOeEIftuqeahmhMQ1N4Dw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券