MoE 模型评测
为了构建更强大的语言模型,模型的参数规模和复杂度不断增加,导致计算成本持续攀升,对大模型的应用落地造成了阻碍。为了解决这一问题,Mixture-of-Experts(MoE)架构被应用到大语言模型上。简言之,MoE架构是将多个模型(称为“专家 / Experts”)通过“门控网络”结合在一起,选择最合适的“专家”来处理输入,从而减少计算量,有效地提高大模型的推理效率,同时保证较好的性能。
本期FlagEval大语言模型榜单评测了4个 MoE 模型:
Mixtral-8x7B系列基座模型及SFT模型:由有着“欧洲OpenAI”之称的创业公司 Mistral AI 发布,是首个在多项评测基准上超越Llama2-70B的MoE模型,开启大模型MoE实践新风向,同时也催生了一系列MoE模型“百花齐放”。
SOLARC-MOE-10.7Bx6:由韩国Markr AI团队基于Upstage AI团队发布的SOLAR系列开源模型打造,SOLAR模型曾在Hugging Face OpenLLM leaderboard上排名第一。
DeepSeek-MoE-16B-base:由国内深度求索&幻方量化团队发布,该团队在近期陆续发布了DeepSeek-67B、DeepSeek-7B系列模型。
评测结果如下:
1. 基座模型
Mixtral-8x7B-v0.1中英文客观评测准确率为 69.2%,接近 Qwen-14B。具体而言,英文客观评测准确率为76.8%,优于ChatGLM3-6B,略弱于 Llama-2-70B;中文客观评测准确率为65.4%,接近Yi-6B-200K。
由深度求索&幻方量化发布的DeepSeek-MoE-16B-base整体准确率(45.6%)弱于DeepSeek-7B(54.4%)。
2. SFT 模型
Mixtral-8x7B-instruct-v0.1、SOLARC-MOE-10.7Bx6,从中英客观评测结果来看,两个模型客观评测准确率分别为69.2%、66.6%,排名中上游,大致与InternLM2-7B-chat、InternLM2-20B-chat相当。
领取专属 10元无门槛券
私享最新 技术干货