论文链接: https://arxiv.org/abs/2505.15431
随着大型语言模型(LLM)的飞速发展,模型能力与效率的平衡成为了前沿研究的关键议题。腾讯混元团队最新推出的混元 TurboS 模型,是一款新颖的超大型 Hybrid Transformer-Mamba 架构 MoE 模型。该模型通过 Mamba 架构在长序列处理上的卓越效率与 Transformer 架构在上下文理解上的固有优势的有机协同,实现了性能与效率的精妙平衡。
混元 TurboS 引入了创新的自适应长短思维链机制,能够根据问题复杂度动态切换快速响应模式与深度思考模式,从而优化计算资源分配。更重要的是,其模型激活参数达到了 56B(总参数 560B),是业界首个大规模部署的 Transformer-Mamba 专家混合(MoE)模型。
架构创新以及参数量的保证,让模型效果进步明显,国际最权威的大模型评测榜单 LMSYS Chatbot Arena 最新排名显示: 混元 TurboS 取得了整体 1356 的高分,在所有 239 个参赛模型中位列全球前 7 名。

图:截自 Chatbot Arena 官网 5 月 18 日排名
多语种能力方面表现突出,中文、法语、西班牙语并列排名全球第一,韩文排名全球第二。

多任务处理能力方面,四大关键任务(困难提示、创意写作、多轮对话、长问题)均排名全球前五。

以下,通过模型技术报告我们将逐一解开腾讯混元 Turbo S 的神秘面纱。
三大核心创新,
让模型性能显著提升
腾讯混元 TurboS 的核心创新体现在以下几个方面:
架构协同:巧妙地融合了 Mamba 架构处理长序列的高效性与 Transformer 架构卓越的上下文理解能力。这两种架构的结合,旨在取长补短,实现性能与效率的最大化。模型包含 128 层,采用了创新的“AMF”(Attention → Mamba2 → FFN)和“MF”(Mamba2 → FFN)模块交错模式。这种设计使得模型在拥有 5600 亿总参数(56B 激活参数)的同时,保持了较高的运算效率。
自适应思维链 (Adaptive Long-short CoT):该机制是 Hunyuan-TurboS 的一大亮点。它借鉴了短思维链模型(如 GPT-4o)的快速响应和计算友好特性,以及长思维链模型(如 o3)强大的复杂推理能力。面对简单问题,TurboS 自动激活“无思考”(no thinking)模式,以最小计算成本提供足够质量的答案;而当遇到复杂问题时,则自动切换至“思考”(thinking)模式,运用逐步分析、自我反思和回溯等深度推理方法,给出高准确度的回答。
先进的后训练策略:为了进一步增强模型能力,腾讯混元团队设计了包含四个关键模块的后训练流程:

预训练:在 16 万亿 Token 的语料上进行训练
本节将详细介绍预训练数据的处理、创新的模型架构设计,以及退火(Annealing)和长上下文预训练策略。
预训练数据

预训练数据的质量、数量和多样性对 LLM 的性能至关重要。相较于先前的混元 Large 模型,腾讯混元 TurboS 在数据处理上进行了显著增强。团队开发了全面的评估模型和数据混合模型,引入了包含数十个结构化领域标签的基础质量标准,确保了数据选择和整合的原则性。最终,腾讯混元 TurboS 在包含 16 万亿 Token 的语料上进行训练。
模型架构

混元 TurboS 的核心是一种混合架构,整合了 Transformer、Mamba2 和 FFN 组件,旨在实现训练和推理的效率与可扩展性。
退火阶段 (Annealing)
退火阶段的数据是异构混合的,包括高质量预训练数据、代码、数学、STEM 相关语料、指令遵循数据(如长 CoT 数据)和其他合成样本。
长上下文扩展
预训练的最后阶段,采用课程学习策略逐步扩展模型的上下文窗口,从 4K Tokens 扩展到 32K,最终到 256K Tokens。
预训练模型评估
在 23 个广泛使用的基准上对预训练的腾讯混元 TurboS 进行了评估,结果显示其与 SOTA 模型相比具有强大的基础能力。

注:表格中,其它模型的评测指标来自官方评测结果,官方评测结果中不包含部分来自混元内部评测平台
后训练:自适应长短思维链融合
后训练阶段对混元 TurboS 的各项能力进行了精雕细琢和显著增强。该阶段包含四个环环相扣的关键模块:监督微调、自适应长短思维链融合、多轮反思学习以及两阶段大规模强化学习。

监督微调 (SFT)
SFT 数据的质量和多样性对 LLM 在各类任务上的表现至关重要。混元 TurboS 的 SFT 数据被细致地划分为多个主题,为每个主题收集高质量样本并整合。
数据来源与构建
涵盖数学(教材、考试、竞赛)、代码(开源仓库代码片段转为指令对)、逻辑(公共 / 授权数据源,自动化合成)、科学(物理、化学、生物)、语言中心任务(理解、翻译、生成)、创意写作、英文及多语言、复杂指令、角色扮演、知识问答、多轮对话、金融 / 法律 / 医学以及安全等 13 个领域。
最终构建了百万级样本的 SFT 数据集(包含推理型和非推理型数据)。其中,需要较长 CoT 的复杂推理任务(数学、代码、科学、逻辑)会经过额外处理,采用内部教师模型,生成自适应长短 CoT 响应。非推理型数据则直接使用原始响应。
自适应长短思维链融合
(Adaptive Long-short CoT Fusion)
该方法旨在让 LLM 能够根据问题复杂度自主决定使用长 CoT 还是短 CoT,以及推理的深度,创造性地将两种推理模式融合进单一模型。先前研究表明长 CoT 在数学等推理领域特别有效,因此该方法主要应用于推理数据(数学、STEM 等),而非推理数据主要使用短 CoT 模式。团队训练了一个自适应长短 CoT 融合教师模型,其训练分为两阶段:
自适应长短 CoT SFT 训练
首先,使用推理数据训练 Hunyuan-Base 得到一个短 CoT 模型。
然后,用此短 CoT 模型对所有推理数据进行推理并进行一致性检查。若短 CoT 模型回答正确,则直接作为训练样本。
若首次尝试错误,则将问题和短 CoT 的错误响应输入混元 -T1(混元长链推理模型)继续生成后续推理过程和答案,并将此扩展的推理过程和答案转换为短 CoT 的响应风格。
重复此混元 -T1 生成过程,直至获得正确答案。
最后,将所有失败尝试与正确响应拼接,作为自适应长短融合教师模型的训练响应。用此数据训练 Hunyuan-Base,得到自适应 SFT 模型。
自适应长短 CoT 的强化学习
此长短自适应奖励框架使 LLM 能根据问题难度选择合适的思考模式。
难度自适应奖励:在 GRPO 采样期间,为每个提示生成不同推理深度的响应。在线拒绝采样机制评估提示难度并选择合适的模式——复杂问题分配长 CoT,简单问题分配短 CoT。
长 CoT 压缩奖励:对于长推理链,在计算奖励时应用长度惩罚。当多条推理路径达到相同正确性时,较短的路径获得更高奖励,从而在保持准确性的同时最小化冗余。
推敲学习 (Deliberation Learning)
为进一步提升混元 -TurboS 的能力,团队提出了一种基于“反思学习”原则的人机协作迭代优化策略。该方法利用一个“数据飞轮”,模型通过相互竞争逐步改进,由强大的基于 LLM 的裁判和人类专家识别弱点,为后续 SFT 迭代提供信息。
训练强大的裁判 LLM 模拟人类标注者
基于腾讯混元 TurboS 开发和训练了一组裁判模型(Judge Models)。响应评估不依赖单一整体评分,而是跨多个预定义维度(准确性、有用性、无害性、连贯性、简洁性、指令遵循度)。每个裁判对成对比较提供维度评分和文本解释。通过多数投票或加权评分系统等共识机制聚合这些多维判断。
构建数据飞轮后训练腾讯混元 TurboS
核心是一个通过竞争性评估和有针对性的 SFT 持续增强混元 -TurboS 能力的迭代改进循环。
裁判(Judging):使用混元 -TurboS SFT 模型和混元系列其他前沿模型(混元 Large, 混元 Turbo, 混元 T1)对精选训练集中的相同提示生成响应,然后由多 LLM 裁判组进行细致评估。
弱点推敲(Weakness Deliberation):通过人类专家和 LLM 监督识别模型弱点。领域专家审查复杂的比较结果和自动化系统可能遗漏的细微模型失败。
迭代 SFT(Iterative SFT):根据弱点画像,为已识别的缺陷开发定制的训练批次,通常包含“失败数据”。这些数据由人类专家用高质量输出仔细标注,并增量添加到训练过程中。采用课程学习,随着模型掌握程度的提高逐步增加任务复杂度和技巧的微妙性。
通用奖励系统
(General Reward System)
为实现有效的强化学习,设计了一个围绕三个关键组件组织的通用奖励系统。
带参考答案的生成式奖励模型 (GRM)
比较候选答案与参考答案。对确定性解的任务(如闭卷问答),参考答案是真实答案;对开放式任务(如创意写作),提供精心策划的参考,GRM 将其视为语义锚点而非精确匹配。GRM 使用成对偏好方案训练。
答案一致性模型
轻量级分类器,验证生成答案是否与参考答案匹配(匹配为 1,否则为 0),用于数学等有标准答案的任务。
代码沙箱 (Sandbox)
支持 36 种编程语言的多语言代码沙箱,用于执行单元测试。
奖励聚合模块
整合特定领域规则产生统一评分,系统总共覆盖 16 个子主题和超过 30 个评分服务。
强化学习训练 (RL Training)
采用基于 GRPO 框架的增量式、领域聚焦的 RL 流程。这是一个两阶段策略:
两阶段 GRPO 训练策略
阶段一:推理 GRPO。目标是逻辑、编码、数学和科学领域。混合 30 万训练数据(代码: 数学: 逻辑 & 科学 = 2:2:1)。由于 SFT 主干模型在这些任务上已表现强劲且输出熵较低,因此应用相对较小的 KL 散度约束以鼓励更广泛的探索。
阶段二:通用 GRPO。优化扩展到通用任务,重点是平衡各领域性能。继续包含 10% 来自阶段一的推理数据。阶段一的超参数(如裁剪范围、学习率)基本保留,但增加 KL 散度惩罚系数以缓解灾难性遗忘。
更多 GRPO 实施细节:
自动化评估结果

与业界领先的开源和闭源模型在关键基准上进行对比:
自适应 CoT 的推理效率
在评估推理成本效益时,混元 TurboS 在所有评估模型中实现了最具成本效益的输出生成。
值得注意的是,模型在 LMSYS Chatbot Arena 上取得了与 Deepseek-R1 相当的性能,却仅使用了后者 52.8% 的 Token 量,证明了腾讯混元所提出的自适应长短思维链融合方法的有效性,也突显了腾讯混元 TurboS 在提供高性能 LLM 推理方面的卓越成本效益。
腾讯自研的高效基础设施
为训练和推理加速
腾讯混元 TurboS 的训练与推理依赖于腾讯自研的高效基础设施。
强化学习训练框架 (Angel-RL):基于腾讯自研的大模型训练框架 AngelPTM 和推理框架 AngelHCF 全面集成了张量并行(TP)、流水线并行(PP)、专家并行(EP)、上下文并行(CP)和序列拼接优化,同时,上下文并行实现了串行和并行两种状态传递方法(下图),在采样端支持 INT8 量化,并且,利用腾讯定制的 Starlink 网络有效实现通信计算重叠。
针对 RL 训练中多模型导致 GPU 显存瓶颈的问题,设计了结合混合与专用资源分配的多模型 RL 工作流,并使用 AngelPTM 的 ZeroCache 技术(将去重模型状态卸载到 CPU 内存)降低 GPU 显存压力。

推理与部署 (AngelHCF):针对 TurboS 的 Mamba 混合架构,从三个关键维度实施了优化,最终相比纯 Transformers MoE 模型实现了 1.8 倍的加速:
总 结
腾讯混元团队在本报告中详细介绍了腾讯混元 TurboS,这是一款创新的超大型混合 Transformer-Mamba 专家混合(MoE)模型,它独特地融合了 Mamba 在长序列处理上的高效率和 Transformer 卓越的上下文理解能力,采用了新颖的 AMF/MF 模块模式以及自适应长短思维链(CoT)机制。这款 56B 激活参数(560B 总参数)的模型成为业界首个大规模部署的 Mamba 架构。
混元 TurboS 在 LMSYS Chatbot Arena 上获得 1356 分,并在 23 个自动化基准测试中平均得分 77.9%,展现了强大性能。至关重要的是,腾讯混元 TurboS 在高性能和计算效率之间取得了有效平衡,以远低于许多推理模型的推理成本提供了强大的能力。这项工作为高效、大规模预训练模型树立了新范式,推动了易于获取且功能强大的人工智能系统的发展。