OpenSearch-VL：一份能跑起来的多模态搜索 Agent 配方

唐国梁Tommy

发布于 2026-06-25 21:43:12

260

文章被收录于专栏：TGLTommyAI前沿技术论文TGLTommyAI前沿技术论文

当所有顶级多模态搜索 Agent 都被锁在闭源系统背后时，腾讯混元联合三所高校把数据、工具、训练算法整套配方端上了桌。

一张图看不到全貌的搜索

打开手机随手拍下一栋建筑，问"它叫什么名字、是谁建的、为什么这么造"——这种问题对人来说稀松平常，对模型却是一道综合题。

它需要 Agent 看清画面、决定先搜什么、读懂网页、再回过头追问下一步。中间任何一步出错，整条链路就断了。

这就是多模态深度搜索（Multimodal Deep Search）正在尝试解决的问题：让模型不再被动看图说话，而是像研究员那样主动去查、去验证、去推理。

听起来简单，做起来工程量极大。过去一年里，GPT-4o、Gemini、Claude 等闭源模型在这件事上断崖式领先，但训练数据、工具栈、轨迹合成流水线全都不公开，社区一直缺一份完整、可复现的开源配方。

2026 年 5 月，腾讯混元联合 UCLA、港中文、港大放出了 OpenSearch-VL，把这件事彻底端上桌：数据、工具环境、训练算法、模型权重全部开源。

它到底解决了什么问题

要训出一个能稳定跑多轮工具调用的多模态 Agent，社区面前横着三道墙。

第一堵墙是数据。头部商业系统的训练数据都是私有的，包含哪些来源、过了什么筛选、专家轨迹长什么样，外界无从得知。多模态场景下尤其难——单纯文本 QA 不够用，必须要"看图——多跳检索——验证证据——长链工具调用"这种轨迹型数据。

第二堵墙是工具环境。真实世界的图像往往是糊的、歪的、低分辨率的，光靠搜索引擎根本搜不出结果。Agent 必须先把图片裁剪、修复、增强，再决定下一步去哪里查。

第三堵墙是训练。多轮工具调用一旦中间一步崩了——超时、调用格式错误、查到无关结果——后面所有 token 都会被污染。直接丢掉整条 trajectory 浪费严重，全盘训练又会让噪声梯度毁掉模型。

OpenSearch-VL 给出的回应是：把这三堵墙各自拆掉，再拼成一条完整流水线。

数据：让维基百科自己生成训练题

整篇论文最有意思的设计在数据流水线。它不是雇人标注，也不是直接 prompt 大模型出题，而是把维基百科的超链接图当作天然的多跳推理图。

具体做法是这样的：从某个视觉锚点节点 v₀ 出发，沿着维基百科的链接图走 2 到 4 步随机游走，得到一条完整路径。路径首尾就是题目和答案——v₀ 提供图像（比如一张泰姬陵的照片），终点节点 vₕ 提供属性答案（比如"建造年代"）。

但这只解决了"出什么题"，还有个更微妙的问题：直接让模型读到题目里的实体名（比如"泰姬陵建造年代"），它一步搜索就能拿到答案，根本不需要多跳推理，也不需要看图。

OpenSearch-VL 的对策叫模糊实体重写（Fuzzy Entity Rewriting）。它会把题目里的实体名一个个改写成关系或属性描述符，比如把"泰姬陵"换成"图中那座白色圆顶建筑"。改写要同时满足三个不变量才会被接受：

答案不变性：改完后答案还是同一个；
唯一性：题目仍然只对应一个实体；
不泄露：题目里不出现答案实体的别名。

最终配上锚点视觉 grounding——把 v₀ 替换成"图中的那个 X"这种指代表达式，强迫模型必须先看图、识别出锚点，才能开始走推理链。这一步直接堵死了"绕过图像、纯靠文本走捷径"的可能。

整条流水线再叠上质量控制和分阶段过滤，最后产出两个数据集：SearchVL-SFT-36k（用于监督微调）和 SearchVL-RL-8k（用于强化学习）。专家轨迹由 Claude Opus 4.6 在真实工具环境里合成，平均每条 6.3 轮工具调用，最终保留 36592 条高质量轨迹。

工具：搜索之外的一整套视觉修复

OpenSearch-VL 把工具集分成三类，覆盖了真实搜索场景中会用到的全部基础动作。

检索类包括 TextSearch（带页面阅读和 LLM 摘要的网页搜索）和 ImageSearch（反向图像搜索）。这是常规操作。

真正特别的是图像增强类——Sharpen 用反锐化掩模去模糊、SuperResolution 用 EDSR 做深度超分、PerspectiveCorrect 自动矫正歪斜文档。这三件工具是为了应对真实世界里那些"糊照片、低清缩略图、歪斜文档、拥挤截图"的输入。

最后是注意与解析类：Crop 让 Agent 自己框选图像区域，OCR 做带版面标签的结构化文字识别。

这套设计背后的判断很关键：纯检索不够，Agent 必须先把视觉证据修干净再去查。论文里把这种行为命名为 think-with-image——遇到不可靠的图像，模型会先调用增强工具修复，再启动检索。

训练：让失败轨迹也能被利用

最后一块拼图是训练算法。这部分论文用一节专门讲了一件事：失败的轨迹要怎么处理。

多轮 Agent 的训练有个长期头疼的问题——一条 16 轮的工具调用，前 14 轮推理都很合理，第 15 轮调用工具时格式崩了，导致最后一轮的回答完全错位。这时候直接判定整条失败丢掉，等于把前面 14 轮的有用学习信号一起扔了；可如果照单全收，post-failure 的 token 又是纯噪声。

OpenSearch-VL 的解法叫多轮 fatal-aware GRPO，在标准 GRPO 上加了两个机制。