VLM双模型协同规划复杂视觉任务

原创

用户11764306

发布于 2026-05-23 07:06:41

1060

一种改进的复杂视觉任务规划方法

一种新的混合系统可以帮助机器人在变化的环境中导航，或提高多机器人装配团队的效率。

某机构的研究人员开发了一种基于生成式人工智能驱动的方法，用于规划长期视觉任务（如机器人导航），其有效性约为某些现有技术的两倍。

该方法使用一个专门的视觉语言模型来感知图像中的场景，并模拟达成目标所需的动作。然后，第二个模型将这些模拟结果转换为用于规划问题的标准编程语言，并对解决方案进行细化。最终，系统会自动生成一组文件，这些文件可以输入到经典的规划软件中，由该软件计算出实现目标的计划。

这一两步法系统生成的计划平均成功率约为70%，优于最佳基线方法（仅能达到约30%）。重要的是，该系统可以解决其未曾遇到过的新问题，因此非常适合条件瞬息万变的真实环境。

“我们的框架结合了视觉语言模型的优势（例如理解图像的能力）与形式化求解器的强大规划能力，”该方法论文的第一作者表示，“它可以接收一张图像，通过模拟将其转化为可靠、长时程的计划，这在许多现实应用中都有用处。”

处理视觉任务

在过去几年中，研究人员及其同事一直在研究使用生成式AI模型来执行复杂的推理和规划，通常利用大型语言模型处理文本输入。许多现实世界的规划问题（如机器人装配和自动驾驶）具有视觉输入，而大型语言模型自身难以良好处理。研究人员试图通过利用视觉语言模型（能够处理图像和文本的强大AI系统）来扩展到视觉领域。

但视觉语言模型难以理解场景中物体之间的空间关系，并且常常无法在多步骤中正确推理。这使得视觉语言模型难以用于长程规划。另一方面，科学家们已经开发出稳健的形式化规划器，可以为复杂情况生成有效的长时程计划。然而，这些软件系统无法处理视觉输入，并且需要专家知识将问题编码为求解器能理解的语言。

研究团队构建了一个自动规划系统，融合了两种方法的最佳特性。该系统名为“视觉语言模型引导的形式化规划”，它利用两个专门的视觉语言模型协同工作，将视觉规划问题转化为可供形式化规划软件直接使用的文件。

研究人员首先仔细训练了一个他们称之为SimVLM的小型模型，使其专门用自然语言描述图像中的场景，并在该场景中模拟一系列动作。然后，一个更大的模型（他们称之为GenVLM）使用SimVLM的描述，以一种称为“规划领域定义语言”的形式化规划语言生成一组初始文件。这些文件已准备好输入到经典的PDDL求解器中，由求解器计算出逐步解决任务的计划。GenVLM将求解器的结果与模拟器的结果进行比较，并迭代地细化PDDL文件。

“生成器和模拟器协同工作，以达成完全相同的结果，即一个能实现目标的动作模拟，”作者解释道。由于GenVLM是一个大型生成式AI模型，它在训练过程中已经见过大量PDDL的示例，并学会了这种形式化语言如何解决广泛的问题。这种已有知识使模型能够生成准确的PDDL文件。

灵活的方法

VLMFP生成两个独立的PDDL文件。第一个是领域文件，定义了环境、有效动作和领域规则。它还生成一个问题文件，定义了当前特定问题的初始状态和目标。

“PDDL的一个优点是，在同一环境下，领域文件对于所有实例都是相同的。这使得我们的框架能够很好地泛化到同一领域下的未见实例，”作者解释道。

为了使系统能够有效泛化，研究人员需要精心设计足够多的训练数据供SimVLM学习，使模型学会理解问题和目标，而不是记住场景中的模式。在测试中，SimVLM在大约85%的实验中成功描述了场景、模拟了动作并检测到目标是否达成。

总体而言，VLMFP框架在六个2D规划任务上达到了约60%的成功率，在两个3D任务（包括多机器人协作和机器人装配）上成功率超过80%。它还在超过50%的未见场景中生成了有效计划，远远超过了基线方法。

“我们的框架可以在不同情况下的规则发生变化时进行泛化。这赋予我们的系统解决多种类型的基于视觉的规划问题的灵活性，”研究人员补充道。

未来，研究人员希望让VLMFP能够处理更复杂的场景，并探索识别和减轻视觉语言模型幻觉的方法。

“从长远来看，生成式AI模型可以作为智能体，利用合适的工具来解决更复杂的问题。但什么是合适的工具？以及如何整合这些工具？仍有很长的路要走。但通过将基于视觉的规划纳入考量，这项工作是拼图中重要的一块，”研究人员表示。

这项工作部分由某机构下属的人工智能实验室资助。FINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。