首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

FlagEval 2月榜|新增多个MoE模型及InternLM2系列模型评测结果

MoE 模型评测

为了构建更强大的语言模型,模型的参数规模和复杂度不断增加,导致计算成本持续攀升,对大模型的应用落地造成了阻碍。为了解决这一问题,Mixture-of-Experts(MoE)架构被应用到大语言模型上。简言之,MoE架构是将多个模型(称为“专家 / Experts”)通过“门控网络”结合在一起,选择最合适的“专家”来处理输入,从而减少计算量,有效地提高大模型的推理效率,同时保证较好的性能。

本期FlagEval大语言模型榜单评测了4个 MoE 模型:

Mixtral-8x7B系列基座模型及SFT模型:由有着“欧洲OpenAI”之称的创业公司 Mistral AI 发布,是首个在多项评测基准上超越Llama2-70B的MoE模型,开启大模型MoE实践新风向,同时也催生了一系列MoE模型“百花齐放”。

SOLARC-MOE-10.7Bx6:由韩国Markr AI团队基于Upstage AI团队发布的SOLAR系列开源模型打造,SOLAR模型曾在Hugging Face OpenLLM leaderboard上排名第一。

DeepSeek-MoE-16B-base:由国内深度求索&幻方量化团队发布,该团队在近期陆续发布了DeepSeek-67B、DeepSeek-7B系列模型。

评测结果如下:

1. 基座模型

Mixtral-8x7B-v0.1中英文客观评测准确率为 69.2%,接近 Qwen-14B。具体而言,英文客观评测准确率为76.8%,优于ChatGLM3-6B,略弱于 Llama-2-70B;中文客观评测准确率为65.4%,接近Yi-6B-200K。

由深度求索&幻方量化发布的DeepSeek-MoE-16B-base整体准确率(45.6%)弱于DeepSeek-7B(54.4%)。

2. SFT 模型

Mixtral-8x7B-instruct-v0.1、SOLARC-MOE-10.7Bx6,从中英客观评测结果来看,两个模型客观评测准确率分别为69.2%、66.6%,排名中上游,大致与InternLM2-7B-chat、InternLM2-20B-chat相当。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OBwbWesBeiuz51DpvS8poTJw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券