首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

开源 MoE 模型 Mixtral 8x7B 性能超过 GPT-3.5

大模型创业公司 Mistral AI 终于介绍了前两天 “开源” 的 MoE 模型Mixtral 8x7B

官方称,Mixtral 8x7B 是开放权重的高质量稀疏混合专家模型 (SMoE),采用 Apache 2.0 License 开源。在大多数基准测试中,Mixtral 的成绩都优于 Llama 2-70B,且推理速度提升了 6 倍。而且在大多数标准基准测试中超过 GPT-3.5。

因此,Mistral AI 称 Mixtral 是最强大的开放权重模型,也是成本 / 性能权衡方面的最佳模型。

Mixtral 主要特性

・32k 上下文

・支持英语、法语、意大利语、德语和西班牙语

・性能超过 Llama 2 系列和 GPT-3.5

・在代码生成方面具有强劲性能

・在 MT-Bench 上获得 8.3 分

Mixtral 作为稀疏混合专家网络,是一个纯解码器模型,其中前馈块从 8 组不同的参数组中选择。在每一层,对于每个 token,路由网络选择两组 “专家” 来处理 token 并相加地结合它们的输出。

Mixtral 总共有 45B 个参数,但每个 token 只使用 12B 个参数。因此,它以与 12B 模型相同的速度和成本处理输入和生成输出。

更多细节查看:https://mistral.ai/news/mixtral-of-experts/

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OFYLZKRY1rXpEB8SpdeTevKA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券