FlagEval 2月榜｜新增多个MoE模型及InternLM2系列模型评测结果

文章来源：企鹅号 - 智源研究院

MoE 模型评测

为了构建更强大的语言模型，模型的参数规模和复杂度不断增加，导致计算成本持续攀升，对大模型的应用落地造成了阻碍。为了解决这一问题，Mixture-of-Experts（MoE）架构被应用到大语言模型上。简言之，MoE架构是将多个模型（称为“专家 / Experts”）通过“门控网络”结合在一起，选择最合适的“专家”来处理输入，从而减少计算量，有效地提高大模型的推理效率，同时保证较好的性能。

本期FlagEval大语言模型榜单评测了4个 MoE 模型：

Mixtral-8x7B系列基座模型及SFT模型：由有着“欧洲OpenAI”之称的创业公司 Mistral AI 发布，是首个在多项评测基准上超越Llama2-70B的MoE模型，开启大模型MoE实践新风向，同时也催生了一系列MoE模型“百花齐放”。

SOLARC-MOE-10.7Bx6：由韩国Markr AI团队基于Upstage AI团队发布的SOLAR系列开源模型打造，SOLAR模型曾在Hugging Face OpenLLM leaderboard上排名第一。

DeepSeek-MoE-16B-base：由国内深度求索&幻方量化团队发布，该团队在近期陆续发布了DeepSeek-67B、DeepSeek-7B系列模型。

评测结果如下：

1. 基座模型

Mixtral-8x7B-v0.1中英文客观评测准确率为 69.2%，接近 Qwen-14B。具体而言，英文客观评测准确率为76.8%，优于ChatGLM3-6B，略弱于 Llama-2-70B；中文客观评测准确率为65.4%，接近Yi-6B-200K。

由深度求索&幻方量化发布的DeepSeek-MoE-16B-base整体准确率（45.6%）弱于DeepSeek-7B（54.4%）。

2. SFT 模型

Mixtral-8x7B-instruct-v0.1、SOLARC-MOE-10.7Bx6，从中英客观评测结果来看，两个模型客观评测准确率分别为69.2%、66.6%，排名中上游，大致与InternLM2-7B-chat、InternLM2-20B-chat相当。

发表于: 2024-02-052024-02-05 18:00:00
原文链接：https://page.om.qq.com/page/OBwbWesBeiuz51DpvS8poTJw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

FlagEval 2月榜｜新增多个MoE模型及InternLM2系列模型评测结果

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐