首页
学习
活动
专区
圈层
工具
发布

生成首个token耗时降96%,类脑模型SpikingBrain显神威中国科学院发布SpikingBrain

9月5日,中国科学院自动化研究所发布类脑脉冲大模型。名为“瞬悉1.0”的技术报告,揭示其成分。SpikingBrain-7B开源模型,用主流大模型2%数据,就实现了Qwen2.5-7B的90%。性能媲美Llama-3.1-8B等,众多开源Transformer模型。中科院表示,这是我国首次,提出大规模类脑线性基础架构。也是首次在国产GPU上,构建类脑模型的训练和推理框架。全过程在国产算力上完成,采用曦云C550 GPU集群。训练期间,集群连续运行2周,未出现中断。证明了构建国产大模型,生态的可行性。数据效率极高,推理效率也有量级提升。100万个token场景中,生成首个token耗时,比Qwen2.5-7B降低96.2%。令其适合法律、医学等长序列任务。在能耗方面,平均乘加运算能耗,比传统FP16和INT8低97.7%和85.2%。

SpikingBrain-1.0技术报告,指出模型有7B和76B两个版本。9月3日,7B版本已在GitHub和魔搭开源。76B版本虽未开源,但提供体验链接。链接地址:https://github.com/BICLab/SpikingBrain-7B。技术报告:https://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf。体验链接:https://controller-fold-injuries-thick.trycloudflare.com/。未来模型需要新型架构。联合团队认为,Transformer架构面临计算瓶颈。随着序列增大,训练开销呈平方级别增长。推理阶段,显存占用也线性增加。导致资源消耗极大,限制处理超长序列能力。人的大脑以极低能耗,实现复杂智能,是另一发展方向。低功耗脉冲神经网络,被视为通向通用AI的重要方案。其工作方式类似大脑,仅在必要时传递信号。

研究表明,复杂脉冲神经元,可由小神经元组合实现。这使类脑网络的高效构建成为可能。基于此,SpikingBrain团队,在架构中整合高效注意力、MoE模块、脉冲编码等三大核心部件。注意力机制是核心计算单元,SpikingBrain结合不同注意力优势。7B版本使用混合线性注意力与SWA,兼顾全局与局部信息。76B大规模版本,层内并行混合不同注意力,可有效处理全局和长程依赖。SpikingBrain整体架构采用混合专家模块,从稠密模型扩展到稀疏模型。通过参数复制和输出缩放,避免扩展过程损失性能。脉冲神经元是模型基本单元,常见的LIF模型存在过度激活问题。为此,团队提出自适应阈值脉冲神经元,保持适度活跃。

在模型转换过程中,SpikingBrain团队将Qwen2.5-7B-Base转为类脑脉冲大模型。持续预训练和长序列扩展中,使用了约150B tokens,将序列长度逐步扩至128K。数据量仅占训练2%,实现高效转换。监督微调中,加入不同领域数据集,模型能力逐步提升。脉冲化编码过程中,受生物系统启发,将激活值转为整数脉冲。推理时,脉冲计数展开为稀疏序列,以适配事件驱动计算。提供三种编码:二值脉冲节能;三值支持兴奋-抑制;二进制节省计算和能耗。GPU兼容脉冲化运行,但需专用硬件才能释放潜力。SpikingBrain选用国产沐曦GPU训练平台,通过MoE优化、通信并行、显存优化等手段实现适配。Triton适配和CUDA向MACA迁移,是适配关键。

下游用户共享原有编程习惯,可不改大量代码。平台提供调试工具,便于观察硬件执行。训练通常超出单个GPU容量,团队利用多种分布式技术,分散负载至多个GPU。在下游任务评测中,SpikingBrain-7B恢复了基座模型约90%的性能。与Mistral-7B、Llama-3-8B水平相近,表明线性注意力有效降低复杂度。SpikingBrain-76B混合模型几乎完全恢复性能,经过对齐训练后,能力与同量级模型相当。长序列推理中,SpikingBrain-7B在百万token长度下,加速达26.5倍。训练时,128K序列下吞吐量为5.36倍。CPU端推理速度提升明显,显示高效资源利用。集群连续两周运行,无中断,展现国产硬件可靠性。脉冲统计为低功耗运行,提供有力支持。结合事件驱动硬件后,运算能耗显著下降。

智东西体验SpikingBrain-76B模型,在网页上进行试验。生成长度限制8000个token,超过则中止回答。模型给出清晰回答,但某些见解与主流看法不同。小球弹跳考验编程能力时,模型有所不足。算术题中,高计数设定下,模型给出正确答案。中国科学院提示,高峰期访问较慢,我们发现每轮对话约需20秒。国内多家企业与高校探索非Transformer架构,与国产硬件结合,或许能走出新路径。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OD-2_EwJivF2PmP1y1PjdNZA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券