
今天我们要深入探讨一篇来自KAIST、Mila和Google等顶尖机构的最新研究——《Mixture-of-Recursions》(混合递归,简称MoR)。在当前这个“模型越大,能力越强”的时代,我们几乎每天都在见证参数量刷新纪录的巨型模型诞生。但随之而来的是令人咋舌的训练成本和部署难题,这道无形的墙将许多创新者挡在了门外。

我们不禁要问:除了无止境地“堆料”,还有没有更聪明的路径?有没有办法让模型既“节俭”又“强大”?这篇论文给出了一个响亮而优雅的回答。MoR框架首次将两大主流效率优化技术——参数共享与自适应计算——无缝地融合在了一个统一的架构中,为我们描绘了一幅“少劳多得”的美好蓝图。
要理解MoR的价值,我们首先需要了解当前大模型效率优化的两条主要技术路线。
1. 参数共享:这条路线的核心思想是“节俭”。它试图通过让模型中的不同部分共享同一套参数(权重),来大幅减少模型的总参数量和内存占用。最典型的代表就是递归网络(Recursive Networks)。这种方法虽然大大减小了模型体积,但其“一刀切”的计算方式往往会限制模型的性能上限。
2. 自适应计算:这条路线的核心思想是“智能”。它认为,对于输入的一段文本,并非所有词语都同等重要。例如,处理thermodynamics(热力学)显然比处理冠词“a”需要更多的思考。因此,自适应计算允许模型根据输入的复杂度动态地分配计算资源。典型的技术是早退机制(Early Exiting),即让简单的token提前毕业,不必走完整个计算流程。这种方法能有效减少总计算量(FLOPs),但通常不减少模型的参数规模。
一直以来,这两个方向如同两条平行线,各自发展。研究者们要么选择一个更小的模型(参数共享),要么选择一个计算更快的模型(自适应计算)。而MoR的开创性就在于,它大胆地提出了一个问题:我们为什么不能两者兼得呢?
MoR的目标,就是构建一个既能通过参数共享保持“身材苗条”,又能通过自适应计算实现“智能思考”的统一框架。这不仅是一个技术上的挑战,更可能引领下一代高效语言模型的设计潮流。

MoR的创新可以总结为三大核心贡献,它们共同构建了一个高效且强大的语言模型架构。
1. 统一的效率框架:MoR是第一个将参数共享和token级自适应计算这两个效率范式优雅地统一起来的架构。它不是两种技术的简单堆砌,而是一个内在协同的系统。其基础是一个递归Transformer,通过重复使用一个共享的层堆栈来实现参数效率;其灵魂则是一个轻量级的路由器,通过动态地为每个token分配不同的递归深度来实现计算效率。
2. 精细的token级自适应计算:MoR将自适应计算的粒度推进到了前所未有的token级别。传统的早退机制通常是让整个序列在某个中间层退出,而MoR则为序列中的每一个token独立决策其所需要的思考深度(即递归次数)。这意味着模型可以将宝贵的计算资源精确地分配给那些最需要深度处理的、语义信息最丰富的词语,从而在整体计算量受限的情况下,最大化模型的性能。
3. 高效的系统级架构设计:MoR不仅是一个理论上的漂亮模型,更是一个充分考虑了实际部署效率的工程杰作。它提出了一套与动态递归深度完美匹配的键值缓存(KV Caching)策略,有效解决了因token提前退出而导致的缓存管理难题。这一设计,结合其固有的参数共享特性,使得MoR能够在实际推理中获得比传统模型高得多的吞吐量,这对于在线服务等实际应用场景至关重要。
总而言之,MoR通过一个设计精巧的框架,同时在模型大小、训练/推理计算量和内存占用这三个维度上实现了显著优化,建立了一个全新的性能与效率的帕累托前沿(Pareto Frontier)。
要理解MoR的魔力,我们需要深入其内部,探究它的三大关键组件:参数共享策略、动态路由策略和键值缓存策略。
MoR的基础是递归Transformer,其核心在于参数共享。但这并非简单的重复,如何共享大有学问。论文通过详尽的实验,最终确定了一种名为“中间循环(Middle-Cycle)”的最佳策略。

我们可以用一个公司组织结构来类比:
如果说参数共享是MoR的骨架,那么动态路由就是它的灵魂。它让模型学会了因材施教。MoR的路由器就像一个智能调度员,决定每个token需要在这个“核心项目组”里循环思考多少次。论文重点探讨了两种路由机制:
a) 专家选择路由 (Expert-choice Routing)
这个策略可以理解为“工位选择零件”。
b) 令牌选择路由 (Token-choice Routing)
这个策略则相反,可以理解为“零件选择自己的加工路线”。
实验证明,专家选择路由凭借其高效的负载管理能力,在整体性能上更胜一筹,成为了MoR架构的首选。

KV缓存是Transformer高效推理的基石,但MoR的动态性给它带来了新挑战——缓存中会出现因token提前退出而产生的“空洞”。为此,论文设计了两种专门的缓存策略。
a) 逐递归缓存 (Recursion-wise Caching)
可以比喻成“部门内部的笔记本”。
b) 递归共享缓存 (Recursive Sharing)
可以比喻成“全公司共享的公共白板”。
这两种策略提供了在计算、内存和性能之间的灵活权衡。总的来说,MoR通过这三大组件的精妙配合,构建了一个既紧凑又强大、既智能又高效的计算框架。
理论的优雅最终需要实验数据来证明。MoR在一系列严格的实验中展现了其卓越的性能。
实验设置:

关键结果解读:



MoR的研究为我们揭示了通往更高效、更普惠AI的一条光明大道。它不仅仅是一个新模型,更是一种新的设计哲学。基于此,未来有几个令人兴奋的研究方向:
总而言之,《Mixture-of-Recursions》是一项里程碑式的工作。它告诉我们,模型的强大并非只来自于庞大的身躯,更可以来自于其内部计算过程的智慧与优雅。在追求通用人工智能的漫漫征途上,MoR无疑是向着“更智能,而不仅仅是更大”这一目标迈出的坚实而重要的一步。
参考文献
论文名称: Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation
第一作者: KAIST AI & Google Research
论文链接: https://arxiv.org/abs/2507.10524
发表日期: 2025年7月14日
GitHub:https://github.com/raymin0223/mixture_of_recursions
你好,我是唐国梁Tommy,专注于分享AI前沿技术。
#AI #大模型 #LLM #AI技术论文 #AI前沿技术 #唐国梁Tommy #检索增强生成 #RAG #大模型推理