AgentCPM-Report：交替起草与深化，开源本地深度研究新范式

梯度不陡

发布于 2026-05-18 20:15:51

3520

📋 论文信息

• 标题: AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research
• 机构/单位: AgentCPM Team
• 论文链接: https://arxiv.org/abs/2602.06540
• 发布日期: 2026-02-06
• 开源地址: https://github.com/OpenBMB/AgentCPM

引言：深度研究的本地化挑战与解决方案

在人工智能快速发展的今天，生成高质量的深度研究报告已成为一项关键能力。这种报告需要大规模信息获取和洞察驱动的分析合成。然而，现有方法大多采用"先规划再写作"的范式，其性能高度依赖于初始大纲的质量。而构建全面大纲本身就需要强大的推理能力，导致当前深度研究系统几乎完全依赖闭源或在线大型模型。这种依赖带来了实际部署障碍，并引发安全和隐私问题。

本文介绍的AgentCPM-Report提供了一个轻量级、高性能的本地解决方案。它结合了一个模仿人类写作过程的框架和一个8B参数的深度研究代理。该框架采用写作即推理策略（WARP），使模型能够在报告生成过程中动态修订大纲。通过交替进行基于证据的起草和推理驱动的深化，该系统实现了信息获取、知识提炼和迭代大纲演化的统一。

一句话精炼

AgentCPM-Report通过"写作即推理"策略(WARP)，让8B参数模型在动态修订大纲的迭代过程中超越闭源大模型，实现隐私保护的本地深度研究。

实践要点总结

• 论文解决了什么问题：现有深度研究系统采用"先规划再写作"范式，产生洞察力天花板，且严重依赖闭源大模型，引发部署、隐私和安全问题。
• 方法的核心创新是什么：提出WARP框架，交替进行"基于证据的起草"和"推理驱动的深化"，将规划决策从写作过程中涌现；配合多阶段代理训练（冷启动→原子技能RL→整体流水线RL），使小模型获得动态决策能力。
• 关键结果指标是什么：
- • DeepResearch Bench：洞察力52.64、全面性50.54，超越Gemini-2.5-Pro（49.45和49.51）
- • DeepResearch Gym：深度、广度、洞察力均达到100分
- • DeepConsult：平均得分6.60，胜率57.60%
- • 仅使用8B参数，匹敌或超越专有大规模系统
• 读者可以直接借鉴的做法是什么：
1. 1. 实施迭代写作流程：允许规划从写作中涌现，而不是预先固定大纲
2. 2. 交替起草与深化：基于草稿质量动态决定是否扩展研究深度（约6-15步为最优）
3. 3. 多阶段能力培养：从原子技能（规划、检索、写作、决策）到端到端优化
4. 4. 轨迹剪枝优化：通过质量评分选择最佳中间状态作为训练终止点
• 落地边界和风险是什么：
- • 计算成本：迭代过程增加资源消耗，需优化终止策略
- • 终止决策挑战：教师模型自身也难以确定最佳停止点
- • 知识来源限制：当前依赖本地文本知识库（arXiv摘要和网页摘要），缺乏多模态、实时和个性化数据
- • 呈现质量瓶颈：表格/图表生成与文本写作耦合，建议解耦由专用渲染代理处理

核心创新：WARP框架与多阶段训练

框架设计：写作作为推理过程

WARP的核心在于将深度研究重新表述为一个迭代的层次化决策过程。在每个循环中，代理观察全局状态（用户查询、动态大纲、当前草稿和检索上下文），并从定义的动作空间中选择行动：初始化、搜索、写作、扩展或终止。

不同于静态规划器，WARP允许规划决策从写作过程中涌现并适应。代理交替在两个宏观状态之间切换：

1. 基于证据的起草（Evidence-Based Drafting）

基于初步大纲，代理执行检索-写作策略，将结构化计划转化为实质性内容。检索查询根据累积叙述进行条件化，确保新信息严格扩展逻辑流程。关键是实现信息整合（synthesizing）而非简单聚合（aggregation），将不同来源的内容综合成连贯论证。

2. 推理驱动的深化（Reasoning-Driven Deepening）

初始大纲必然受限于模型的预检索知识，可能产生洞察天花板。为突破这一限制，代理周期性地从局部起草转向全局规划，将新生成的草稿作为推理和诊断的新观察。由于草稿提供了具体的推理上下文，代理能够检测到初始规划时不可见的逻辑差距或肤浅论证。如果某部分缺乏深度，代理会生成局部子部分来分解主题，并触发针对性的起草循环。

流程仅在代理验证逻辑链完整且内容深度与查询复杂度一致时才终止。这种动态策略不仅统一了规划和写作，还通过从写作中涌现的洞察来打破静态规划的固有限制。

图1：不同写作范式对比。(a)检索后写作：灵活但易失去连贯性；(b)先规划后写作：结构稳定但受限于固定大纲；(c)写作即推理：动态大纲随写作演化，突破洞察天花板

图2：WARP框架工作流程。代理交替进行基于证据的起草（填充内容）和推理驱动的深化（更新动态大纲），在写作过程中发现并弥合逻辑差距

多阶段代理训练：从小模型到专家级能力

WARP的动态特性引入了长时序信用分配和扩展的动作空间，标准训练流水线无法处理。为此，研究团队设计了多阶段代理训练策略：

阶段1：冷启动（SFT）

• 建立基本指令遵循和格式一致性
• 使用33k动作级样本（来自1200条轨迹）
• 学习率1.5e-5，训练4个epoch，约2天完成

阶段2：原子技能RL

• 分解全局目标为原子能力：规划（Initialize/Expand）、检索（Search）、写作（Write）、决策（Terminate）
• 使用教师轨迹作为锚点，为每种能力设计专门的奖励函数
• 结合执行结果（基本属性、整体质量、忠实性）与参考对齐
• 确保代理掌握局部正确性：有效规划、精确搜索、连贯段落

阶段3：整体流水线RL

• 转向端到端优化，评估最终报告质量（全面性、洞察力、指令遵循、可读性）
• 使代理能够偏离教师路径，学习仅在产生有意义信息增益时触发深化
• 通过反向传播整体报告分数，优化质量-效率前沿，抑制冗余扩展
• 500个用户查询，50个训练步骤，约4天完成

通过轨迹剪枝机制，系统解决了最优停止问题：强制教师模型递归过度扩展，生成不同粒度的草稿序列，回溯识别得分最高的最优点并重新标记终止动作。这提供了信息饱和的监督信号，教导代理基于报告质量而非任意模仿来停止。

图3：多阶段代理训练流程概览。从冷启动SFT建立基础能力，到原子技能RL掌握局部执行，最后通过整体流水线RL实现端到端优化

实验验证：超越闭源系统的性能

研究团队在三个基准上进行了全面评估：

• DeepResearch Bench：100个博士级科学任务（22个学术领域）
• DeepConsult：102个商业和金融分析查询
• DeepResearch Gym：100个通用信息寻求任务

对比系统包括：

• 专有系统：OpenAI、Gemini、Claude、Doubao深度研究
• 基于提示的框架：WebWeaver、Enterprise DR、RhinoInsight
• 训练的开源模型：WebShaper、WebThinker、DR Tulu

主要发现

1. WARP框架在洞察力和全面性上表现卓越

尽管仅使用8B参数模型，AgentCPM-Report在所有基准上接近最佳性能：

• DeepResearch Bench：洞察力52.64、全面性50.54，超越Gemini-2.5-Pro（49.45和49.51）
• DeepResearch Gym：深度、广度、洞察力均达到100分
• 这些增益直接来源于推理驱动的深化：代理持续从压缩的中间草稿中提取洞察，实现更深推理；通过重新审视中间输出，识别缺失主题并全局评估需要扩展的部分

图4：各代理系统在DeepResearch Gym上的性能对比。AgentCPM-Report（WARP-8B）在深度、广度、洞察力等维度达到满分

2. 多阶段训练带来稳定的全面改进

AgentCPM-Report性能从SFT到原子RL再到流水线RL稳步提升：

• DeepResearch Bench：全面性46.24→50.54，洞察力48.10→52.64，可读性41.79→44.17
• DeepConsult：平均分6.04→6.60，胜率54.17%→57.60%，负率35.54%→28.68%
• 一致的增益表明每个训练阶段都贡献于掌握完整深度研究工作流

图5：不同训练阶段的扩展步骤分布。RL训练使代理学会更频繁地深化（至少4步），而非停留在浅层大纲

3. 小规模代理系统能够匹敌大规模系统

平均而言，AgentCPM-Report表现卓越：

• DeepResearch Bench总体得分50.11，超越Gemini-2.5-Pro（49.71）
• DeepResearch Gym平均得分98.48，达到SOTA
• 结果表明，对于深度研究任务，主要瓶颈不在模型规模，而在于设计有效的认知和规划过程以充分利用模型固有能力

深度分析

WARP的固有有效性

即使在无训练情况下，使用更大模型（Qwen3-235B）进行提示基础比较，WARP也优于计划-写作范式：洞察力+1.19、全面性+0.98。通过使用演化草稿作为推理上下文，WARP能够在写作过程中检测欠发达或模糊的内容，并触发针对性深化。

训练如何塑造代理行为

从SFT到RL阶段，行为发生明显转变：

• 扩展（深化）动作频率近乎翻倍（从4.44到约8.8）
• 细粒度子部分剧增（三级部分从4.86增加到17.32）
• RL训练使代理学会推理驱动的深化：识别草稿中不足部分并主动扩展

图6：不同深化步骤下的性能指标。性能在约9步时趋于平稳，RL训练的代理停止分布（6-15步）与最优深度相匹配

深化深度的影响

强制扩展实验显示：

• 性能随深化稳步增加，在约9步时平稳
• 全面性和洞察力从浅层到充分深化提升近6分
• SFT代理通常在6步内停止，而原子RL和流水线RL代理将停止分布转向6-15步，紧密匹配经验最优深度

轨迹剪枝的效果

在相同教师生成轨迹上训练的SFT模型，使用剪枝轨迹的表现持续优于使用原始轨迹：总体得分46.73 vs 45.80。这揭示了大型教师模型的关键局限：虽然生成强草稿，但终止决策常常次优。轨迹剪枝通过基于奖励的中间状态选择，过滤掉时机不佳的停止点，提供更清晰的训练信号。

技术架构与实现细节

模型与基础设施

• 基础模型：MiniCPM4.1-8B
• 检索环境：约286万文档的本地向量数据库
- • 271万篇arXiv论文摘要
- • 15万个网页摘要（由Gemini 2.0-Flash生成）
• 向量化：MiniCPM-Embedding-Light + Faiss索引
• 训练资源：8块A100 GPU

数据构建

• 用户查询：约2000条（700条学术综述 + 1300条通用研究）
• 轨迹数据：1500条高质量执行轨迹（教师模型Qwen3-235B）
• 动作分布：约10万个动作（33k用于SFT，5k用于原子RL）
• 偏好清单：为每个查询生成加权评分的评估清单

推理配置

• 报告结构上限：三层级
• 最大深化步骤：12步
• 评估模型：Gemini-2.5-Pro、o3-mini、GPT-4.1-mini（分别对应三个基准）

未来方向与局限性

改进方向

1. 更好的报告呈现 当前大多数深度研究系统（包括本研究）将表格和图表与段落级文本内联生成。然而，构建表格布局需要与编写散文根本不同的推理过程，对模型的结构和格式化能力要求很高。这种耦合部分解释了小模型在呈现质量上常常不如大模型的原因。

解决方案：将呈现与内容生成解耦，分配给专用渲染代理，使小模型获得可比甚至更优的布局质量。同时，当前可读性评估主要基于文本，弱反映渲染报告的真实视觉结构，需要未来引入视觉模态评估。

2. 更多信息来源 当前系统依赖本地部署的文本知识库（arXiv摘要和网页摘要），确保了稳定性和可重现性，但限制了覆盖面和时效性。缺乏图像、视频、领域特定语料库和个性化数据的访问。

扩展计划：将知识库扩展以支持多模态内容、本地和个性化来源以及持续更新，实现更丰富和现实的研究场景。

当前局限

1. 隐私保护优势：完全本地化解决了在线系统的隐私问题，但需确保检索环境的完整性和质量
2. 知识更新：本地知识库需要定期更新以保持时效性
3. 多语言支持：当前主要针对英文和中文，其他语言支持有待扩展
4. 计算要求：虽然比大模型轻量，但迭代过程仍需一定计算资源

扩展阅读

技术工具与资源

• UltraRAG（Chen et al., 2025）：模块化自动化RAG工具包（论文）
• MiniCPM系列：高效端设备LLM（GitHub）
- • MiniCPM4.1-8B：骨干模型（🤗 HF）
- • MiniCPM-Embedding-Light：向量化模型（🤗 HF）
• Faiss：高效向量检索库（GitHub）
• DeepResearch Bench：PhD级深度研究基准（论文)）
• DeepResearch Gym：通用信息寻求评估沙盒（论文）