首页
学习
活动
专区
圈层
工具
发布

Yuan 3.0 Flash避免“过度思考”,大幅压缩推理成本

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区,始终坚持“中立、开放、共建、共创、合作”五项基本原则,欢迎加入共同成长。

YuanLab.ai 团队正式开源发布源Yuan3.0 Flash 多模态基础大模型。Yuan3.0 Flash 是一款 40B 参数规模的多模态基础大模型,采用稀疏混合专家(MoE)架构,单次推理仅激活约 3.7B 参数。Yuan3.0 Flash创新性地提出和采用了强化学习训练方法(RAPO),通过反思抑制奖励机制(RIRM),从训练层面引导模型减少无效反思,在提升推理准确性的同时,大幅压缩了推理过程的 token 消耗,显著降低算力成本,在 “更少算力、更高智能” 的大模型优化路径上更进一步。Yuan3.0 Flash已上线始智AI-wisemodel开源社区,欢迎大家前去体验。

模型地址

https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash

https://wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash-4bit

Yuan3.0 Flash 由视觉编码器、语言主干网络以及多模态对齐模块组成。语言主干网络采用局部过滤增强的Attention结构(LFA)和混合专家(MoE)结构,在提升注意力精度的同时,显著降低训练与推理的算力开销。多模态方面,采用视觉编码器,将视觉信号转化为token,与语言token一起输入到语言主干网络,通过多模态对齐模块实现高效、稳定的跨模态特征对齐。同时,引入自适应图像分割机制,在支持高分辨率图像理解的同时,有效降低显存需求及算力开销(如图1)。

图1:Yuan 3.0整体架构和基于MoE的语言主干

左侧为Yuan 3.0架构,含三个组件:(1) ViT编码器处理图像;(2) 轻量级MLP投影器对齐视觉与文本特征;(3) 基于MoE的语言模型。右侧为采用局部过滤注意力(LFA) 的源3.0语言主干网络。

更值得关注的是,在企业场景的 RAG(ChatRAG)、多模态检索(Docmatix)、多模态表格理解(MMTab)、摘要生成(SummEval)等任务中, Yuan3.0 Flash 的表现已优于 GPT-5.1,体现出其在企业应用场景中的明显能力优势。在多模态推理与语言推理评测中,Yuan3.0 Flash(40B)精度接近Qwen3-VL235B-A22B(235B)与DeepSeek-R1-0528(671B),但 token 消耗仅约为其 1/4 ~ 1/2,显著降低了企业大模型应用成本(如图2)。

图2:Yuan3.0 Flash在企业级、多模态和语言模态上的基准测试表现

01.

避免想得太多,而是“更有效思考”

近年来,长思维链(Chain-of-Thought)成为提升大模型推理能力的主流范式,但在实际应用中也带来了新的问题:推理过程冗长、算力消耗大、部署成本高,甚至在得到正确答案后仍持续大量生成冗长的内容(如图3)。

图3: DeepSeek-R1的重复反思行为示例

针对推理模型普遍存在的 “过度思考(Overthinking)”问题,Yuan3.0 Flash 创新Reflection-aware Adaptive Policy Optimization(RAPO) 强化学习算法,提出反思抑制奖励机制(RIRM),从训练层面引导模型减少无效反思,专注于必要推理步骤(如图4)。

RIRM:通过奖励“思考过程”优化模型训练

RIRM(Reflection Inhibition Reward Mechanism,反思抑制奖励机制)的核心思想并不复杂,却极具突破性:模型不仅要为“答对”负责,也要为“什么时候停止思考”负责。

在传统训练中,只要最终答案正确,模型在中途经历了多少次自我否定、重复验证,几乎不会被区分对待。而RIRM首次明确引入了一条新的判断标准——当模型已经形成可靠结论后,继续反思是否还具有信息价值。

图4:反思抑制奖励机制(RIRM)

该机制能够识别模型首次得到正确答案的关键节点,并对后续冗余推理行为进行抑制,使模型在保证答案正确性的前提下,大幅压缩输出长度。实验结果表明,在数学、科学与复杂推理任务中,Yuan3.0 Flash 在准确率提升的同时,推理 token 数量最高可减少约 75%,显著降低推理成本。

表1:Yuan3.0 Flash采用RIRM的强化学习训练与DAPO+长度惩罚的精度与输出token数量对比

RAPO:反思感知的自适应策略优化算法

然而,仅靠对推理行为的抑制,并不足以支撑一个稳定、高效的企业级模型训练。Yuan 3.0 Flash所引入的RAPO(Reflection-aware Adaptive Policy Optimization,反思感知自适应策略优化)并非一次局部技巧的优化,而是对强化学习训练框架的一次系统性改进:从数据采样效率、到学习目标、到推理过程评估(RIRM),同时兼顾训练效率、训练稳定性及推理效率,使模型能够在多任务、异构场景中形成更具实用价值的策略。

RAPO通过自适应采样、梯度稳定性控制等机制,显著减少了强化学习阶段的过度数据采样,有效抑制了训练过程的梯度波动。在大规模MoE模型上,这种改进尤为关键——实验显示,RAPO可使整体训练效率提升超过 50%,在保证模型能力提升的同时,大幅缩短训练周期。

更重要的是,RAPO与RIRM在设计上是协同的。RAPO决定模型“如何学习”,而 RIRM 明确模型“学到什么程度该停”。前者提供稳定高效的学习框架,后者则为推理行为划定边界,两者叠加,才使“想对就停”真正成为模型的默认行为,而非例外情况。

02.

企业场景下模型能力的提升,

离不开高质量数据支撑

Yuan3.0 Flash的优秀表现,并非仅依赖算法本身,而是建立在面向企业真实场景的数据准备工作之上。与通用对话或互联网语料不同,模型在训练阶段重点引入了大量贴近企业生产环境的数据形态,包括:

长篇技术文档、解决方案材料、操作手册、投标文件等复杂文本

财务与业务报表、多级表头表格、嵌套表格与图文混排页面

跨页面、多模态信息联合理解的真实业务场景

围绕这些输入形态,训练数据重点覆盖多模态信息检索、对比分析、摘要生成、表格分析与理解等企业高频任务。同时,在数据构建阶段,团队显式区分了无需深度推理即可完成的任务与确需多步推理的复杂任务,为后续强化学习阶段优化推理效率提供了明确的数据基础。

03.

面向企业场景的多模态基础能力

在能力层面,Yuan3.0 Flash 并非围绕单一 Benchmark 优化,而是针对企业真实业务需求进行了系统设计。在多项企业级评测中,模型在以下能力上表现突出:

检索增强生成(RAG):在 ChatRAG、Docmatix 等评测中取得领先成绩

复杂表格与文档理解:在 MMTab 等多任务基准中展现领先能力

高质量总结生成:在 SummEval 上兼顾语义一致性与事实准确性

多模态推理效率:在 ChartQA、DocVQA 等任务中,以更少token 达到比肩前沿大模型的精度

结合对128K长上下文的稳定支持,Yuan3.0 Flash 能够胜任企业级长文档分析、跨页面信息检索与多源知识融合任务(如图5)。

图5:Yuan3.0 Flash在"大海捞针"测试中实现100%精度召回

04.

“更少算力、更高智能”

如何落地企业真实场景中

在架构层面,Yuan3.0 Flash采用稀疏MoE设计,在推理时仅激活少量专家,降低单次推理的计算开销;而在行为层面,RAPO与RIRM进一步确保这些算力被用于真正有价值的判断,而非冗余反思。

这种组合效应,在企业高频场景中表现尤为明显。在RAG场景下,模型能够更快聚焦于检索到的关键信息,而不是围绕同一内容反复展开解释;在复杂表格理解中,推理路径更加直接,不再被冗余验证拖慢;在长文档分析中,模型避免了层层递归式总结,显著提升了响应效率。

对企业而言,这意味着一个非常关键的变化:默认推理模式本身就已经足够可靠。无需额外开启高成本的“深度思考模式”,模型就能在大多数业务任务中保持稳定、可控的表现,也就是更快、更准、更省。

Yuan3.0 Flash的技术实践表明:当大模型已经具备足够的推理能力后,真正稀缺的,不再是“让它想得更多”,而是“让它知道什么时候该停”。

RIRM通过奖励机制约束无效反思,解决了“想得太多”的问题;RAPO通过高效、稳定的强化学习策略,解决了“学得太慢、学得不实用”的问题。两者共同构成了一条面向企业级落地的现实路径——在不牺牲能力的前提下,实现更低成本、更高效率的智能系统。

Yuan3.0 Flash大模型全面开源,不仅包括模型权重(16bit与4bit模型)、技术报告,也涵盖完整的训练方法与评测结果,支持社区在此基础上进行二次训练与行业定制。YuanLab.ai团队希望通过这一开源基础模型,推动大模型从“能力展示”走向“规模化落地”,为企业提供可控成本、可预测性能、可持续演进的多模态智能底座。

更少算力,并不意味着更弱能力;更高智能,也不一定依赖更大模型。” Yuan3.0 Flash 正是在这一理念下,对下一代基础大模型形态的一次探索与实践。

源Yuan 3.0基础大模型将包含Flash、Pro和Ultra等版本,模型参数量为40B、200B和1T等,我们将陆续发布相关工作。

编辑:成蕴年

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O8ZA4Yn4OVQs20nrmGXoaUgA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券