前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >源2.0-M32大模型发布,MoE全新门控网络Attention Router值得关注

源2.0-M32大模型发布,MoE全新门控网络Attention Router值得关注

作者头像
公众号-arXiv每日学术速递
发布2024-05-31 21:03:47
1050
发布2024-05-31 21:03:47
举报

源2.0-M32

近期,一个新的MoE大模型“源2.0-M32”发布,它创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),大幅提升了模型算力效率。

根据官方信息显示,源2.0-M32模型运行时激活参数为37亿,在数学竞赛、基础数学、代码生成、综合知识能力、科学推理方面与LLaMA3-700亿不相上下。同时,源2.0-M32大幅提升了模型算力效率,在性能全面对标LLaMA3-700亿的同时,显著降低了在模型训练、微调和推理所需的算力开销,算力消耗仅为LLaMA3-700亿的1/19。

目前这个模型已全面开源,免费商用!

代码开源链接:

https://github.com/IEIT-Yuan/Yuan2.0-M32

模型下载链接:

https://huggingface.co/IEITYuan/Yuan2-M32-hf

https://modelscope.cn/models/YuanLLM/Yuan2-M32-hf/summary

MoE全新的算法结构:Attention Router

37亿>700亿,源2.0-M32模型是如何创新,让这个看似不合理的等式变得合理的呢?

当然是算法+数据+算力,三方发力。

MoE作为一种由专家模型和门控模型组成稀疏门控制的深度学习技术,由多个专家模型组成,每个子模型都是一个局部模型,能够在远少于稠密模型所需的计算资源下进行有效的预训练。

当前流行的MoE结构中,门控网络大都采用简单的调度策略,其过程是将Token与每个专家的特征向量进行点积,从而找到点积结果最大的几位专家,由多个专家协同参与计算。但这个过程忽略了专家之间的相关性,无疑会降低模型的精度。

浪潮信息提出并采用了一种新型的算法结构——基于注意力机制的门控网络(Attention Router)。有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题。Attention Router的机制是,为每个专家提供了三个特征向量来构建专家之间的关系,然后将其引入到传统调度策略中,因此,门控网络在选择专家模型时,就会同时考虑绝对点积数值以及专家间的协同性,找到自身属性更为相似、关联度更高的专家,使得专家之间协同处理数据的水平大为提升。

基于注意力机制的门控网络(Attention Router)

同时,源2.0-M32的专家模型还以源2.0-2B为基础模型进行设计,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention)。

LFA机制通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。

在数据方面,源2.0-M32基于2万亿token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。代码数据占比至47.5%,从6类最流行的代码扩充至619类,并通过对代码中英文注释的翻译,将中文代码数据量增大至1800亿token。

在算力方面,源2.0-M32采用了流水并行的方法,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,并针对MoE模型的稀疏专家计算,采用合并矩阵乘法的方法,模算效率得到大幅提升。

浪潮信息也分享了测试数据,可以看出,在MATH、ARC-C等项目上,源2.0-M32模型的表现都极为优异。

大模型膨胀期!模算效率值得关注

在模算效率上,源2.0-M32更是堪称“一骑绝尘”,在模型能力与LLaMA3不相上下的同时,凭借特别优化设计的模型架构,所消耗算力仅相为LLaMA3的1/19。在模型推理运行阶段,M32处理每token所需算力为7.4GFLOPs,而LLaMA3-70B所需算力为140GFLOPs。在模型微调训练阶段,对1万条平均长度为1024 token的样本进行全量微调,M32消耗算力约0.0026PD(PetaFLOPs/s-day),而LLaMA3消耗算力约为0.05PD。

这意味着企业未来能够以更低的算力支出,使用能力水平更高的大模型!

浪潮信息早在2021年就率先发布参数规模达2457亿的源1.0模型,训练算力效率为44.8%,远超GPT-3 21.3%的训练算力效率。树立了千亿大模型的训练标杆!

2023年,浪潮信息成功研发并开源千亿参数“源2.0”基础大模型,包括1026亿、518亿、21亿三种参数规模的模型,在代码编程、逻辑推理、数学计算等多方面展示出了先进的能力。并继续坚持开源开放,促进行业普惠!

降低大模型的算力支出、控制大模型参数规模的扩展已经成为重要发展方向,源2.0-M32模型则让我们进一步看到大模型技术的不断创新以及算力水平的提升的可能路径,相信随着模算效率的提升,将有越来越多的用户能够大模型的发展中受益。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 arXiv每日学术速递 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档