首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

奥特曼的“温和奇点”愿景,线性注意力的胜利?MiniMax-M1技术报告深度解析

OpenAI CEO 奥特曼前两天发了一篇博文,名字叫「温和的奇点」(The Gentle Singularity),文中有一句话是这么说的:

“Then focus on making superintelligence cheap, widely available, and not too concentrated with any person, company, or country.”

这段话明确指出,未来的超级智能(superintelligence)必须实现低成本、大规模普及,且不应被少数个人、公司或国家垄断。换言之,AI 应像电力一样普及——前提是要做好基础设施建设并将价格压到足够低。然而,OpenAI 自身在这两方面一直被人诟病:其一,自 GPT-3.5 以来一直采取闭源策略;其二,ChatGPT 在世界许多地区仍无法使用。

要让 AI 真正“廉价且广泛可用”,并满足当下应用需求(奥特曼、黄仁勋等一众将 2025 年称为“Agent 元年”),至少需要具备以下三项能力:

推理reasoning能力,对应了应运而生的各种复杂任务,传统大模型思考能力有限,只有带有推理能力的大模型才能搞定。

tool calling,所谓的Agent其实就是缩小版的人类,它得熟练使用各类不同的工具(联网搜索,画图,调用程序等),并且最好跟现在的各种MCP,A2A协议适配。

尽可能长的上下文context:很多大型文档或者稍大点的开源repo需要消耗大量token,短的上下文别说工作,连资料都读不完。

这三点需求正好体现了 AI 模型从“写诗对对子”的玩具阶段向“具备实际工作能力”的工具阶段的演进。

而演进的速度其实受到了很多方面的制约,硬件、算法和架构缺一不可,现有的大模型大多基于英伟达的硬件,所以能够做文章的地方主要就是架构和算法。

这次MiniMax-M1的发布,在这两个方向都有不小的创新。

Lighting Transformer的创新性应用:在尽可能保留信息的前提下降低了训练成本

Hybrid MoE架构:适应Lighting Transformer,Dense级别的消耗,10x大小模型性能

RL算法创新:CISPO

论文以及开源代码地址:https://github.com/MiniMax-AI/MiniMax-M1

技术报告地址:https://arxiv.org/abs/2506.13585

前两个算架构的创新性应用,特别是Lighting Transformer的应用,现有的绝大多数大模型都采用的是传统的Transformer结构,这个结构图估计大家见过非常多次了。

Transformer这个图复杂,但其实它的原理很简单,就是把一句话的每个词之间的关系都找出来,比如我吃饭,它会找到(我,吃)(我,饭)(吃,饭)这些关系,但这只有三个字,如果字数变数,关系数量直接翻倍(3->6)。

特别是很多朋友喜欢直接把一本几十万字的书扔给AI分析,那对于显卡的负担可想而知,而Lighting Transformer的本质就是尽可能的保证准确的前提下,降低对于计算资源的消耗。这就是Lighting Transformer的发力的地方,它的原理其实在数学上很简单,传统的Transfomer需要Q*K^T*V,QK这两个数的乘积会随着输入文字的长度剧烈的扩张,也就说传统的方法好用,但是碰到超长的文本,就会算的非常吃力。

而Lighting Transformer可以说就是利用了数学上的乘法定律,A*B*C = A*(B*C),只是让后面两个数先乘,就这简单的一步就可以将所需要的计算量降低很多。

但有一个问题,那就是在数学角度上看起来很直观的公式,真正到了实际应用中却非常难以实现,因为有非常多的瓶颈限制。MiniMax-M1用的lighting transformer其实并不是简单的线性注意力,而是一个针对现代GPU硬件特性进行深度优化I/O-aware的变体,它的存在可以让理论尽可能的贴近了现实。

其实除了M1用的这个lighting transformer,LLM领域也有几个很火的架构,分别是Mamba和RWKV,都比传统的Transformer处理速度要快很多,但是他们的局限性也很强,那就是碰到超长上下文的时候会捉襟见肘,在前LLM时代还能行,但agent时代明显不太够用了。

特别的是M1的架构也不是纯Lighting Transformer,而是每7层Lighting后会加一层传统的softmax transformer,因为只要省算力,那肯定会有代价,这是一种深思熟虑的工程权衡。 

这种设计体现了一种务实的架构理念:在享受线性注意力带来的巨大计算和内存效率的同时,周期性地利用标准softmax注意力的能力来校准和巩固模型的表征。

感兴趣的朋友可以看看,纯粹的线性注意力模型虽然高效,但学术界已经指出其存在一些固有缺陷,例如可能导致表征能力的“秩崩溃”(low-rank nature),从而在需要精细区分和复杂关系建模的任务上表现不佳 。

论文地址:

https://arxiv.org/html/2411.07635v1  https://arxiv.org/abs/2411.07635

可以看到新架构的优势,同样的生成长度(横轴),M1的消耗几乎是直线,而DeepSeek-R1和Qwen的消耗明显大的多,从实际效果中也印证了线性注意力的效果。

另一部分的创新就是RL算法,现在新出的大模型基本上都是推理大模型,而推理大模型的前身就是传统大模型,多加的步骤就是post-training,相当于给一个具备了高中知识的人灌了一大堆博士级别的思考方式,本质上知识量没变,只是掌握了更多的思考方式和技巧。

这个核心就是用强化学习RL来做,主流的算法有两个,PPO(Proximal Policy Optimization)、GRPO(Group Relative Policy Optimization),其中最近的大模型基本上都是后者,比如DeepSeek,Qwen3等等,它俩的核心思路都是相同的,都是让模型朝着性能提升的方向走。

但是M1的作者们发现了一个问题,那就是Token Clipping,通俗来讲,就是你在学数学,对于一个很难的问题,你突然有了灵感,比老师设想的解题速度快很多,老师就直接把你的做法否定了,这么做当然可以让你更扎实的学知识,但是也有问题,那就是把你那些灵光乍现的经验人为的遏制了。

但问题是在Agent时代,模型需要这种灵感乍现,需要这种深度的长思考能力。

本文提出的CISPO就是发现了这个问题会导致模型的性能提不上去,特别是采用了独特的Lighting Transformer,CISPO的核心思路就是不限制任何思路,只是“提醒”,如果思考的太快,那就提示“慢一点儿”,这种温和的约束可以保持大模型的训练目标是正向向前的同时,还能够稳定的学到所有重要的地方。

红色的部分(CISPO)实现了两倍的训练速度,同时效果还最好。

同时有架构和算法上的创新,MiniMax-M1的性能也很不错,跟世界上最强的几个模型相比也很不错,特别是跟Agent相关能力的维度上,几乎跟最强的几个闭源模型齐平了。

别忘了,M1的几个特性都是奔着性价比去的,你看文中的这句话,3周、512块H800(DeepSeek R1同款),0.53M美元。

这是什么意思,也就是只用了53万美元就完成了RL训练,这释放出的信号对于大模型领域的玩家都是非常积极的,你想,一个世界梯队的Reasnoing大模型,只需要租512张H800,三周时间就能迭代一轮,相比起之前动辄几个月才能完成的训练,M1让大模型这盘蛋糕变的更大,成本直接降低了一个数量级,显而易见的入场门槛也更加友好了。

所以说,M1的这篇论文要传达并不是单纯的性价比或者技术力,更多的是一种新路径的探索,它不仅是一个在多个基准测试上取得优异成绩的模型,它更是一次成功的技术宣言。它宣告了通过底层的架构和算法创新,我们完全有能力构建出既强大又高效的大规模AI系统。它所开辟的这条非Transformer、高效率、高性能的道路,为整个AI领域迈向更复杂、更智能、更普惠的未来,提供了一份极具价值的参考设计。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Owth5aG5EoVtgbcikgvZ2MVA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券