一种改进的复杂视觉任务规划方法
一种新的混合系统可以帮助机器人在变化的环境中导航,或提高多机器人装配团队的效率。
某机构的研究人员开发了一种基于生成式人工智能驱动的方法,用于规划长期视觉任务(如机器人导航),其有效性约为某些现有技术的两倍。
该方法使用一个专门的视觉语言模型来感知图像中的场景,并模拟达成目标所需的动作。然后,第二个模型将这些模拟结果转换为用于规划问题的标准编程语言,并对解决方案进行细化。最终,系统会自动生成一组文件,这些文件可以输入到经典的规划软件中,由该软件计算出实现目标的计划。
这一两步法系统生成的计划平均成功率约为70%,优于最佳基线方法(仅能达到约30%)。重要的是,该系统可以解决其未曾遇到过的新问题,因此非常适合条件瞬息万变的真实环境。
“我们的框架结合了视觉语言模型的优势(例如理解图像的能力)与形式化求解器的强大规划能力,”该方法论文的第一作者表示,“它可以接收一张图像,通过模拟将其转化为可靠、长时程的计划,这在许多现实应用中都有用处。”
处理视觉任务
在过去几年中,研究人员及其同事一直在研究使用生成式AI模型来执行复杂的推理和规划,通常利用大型语言模型处理文本输入。许多现实世界的规划问题(如机器人装配和自动驾驶)具有视觉输入,而大型语言模型自身难以良好处理。研究人员试图通过利用视觉语言模型(能够处理图像和文本的强大AI系统)来扩展到视觉领域。
但视觉语言模型难以理解场景中物体之间的空间关系,并且常常无法在多步骤中正确推理。这使得视觉语言模型难以用于长程规划。另一方面,科学家们已经开发出稳健的形式化规划器,可以为复杂情况生成有效的长时程计划。然而,这些软件系统无法处理视觉输入,并且需要专家知识将问题编码为求解器能理解的语言。
研究团队构建了一个自动规划系统,融合了两种方法的最佳特性。该系统名为“视觉语言模型引导的形式化规划”,它利用两个专门的视觉语言模型协同工作,将视觉规划问题转化为可供形式化规划软件直接使用的文件。
研究人员首先仔细训练了一个他们称之为SimVLM的小型模型,使其专门用自然语言描述图像中的场景,并在该场景中模拟一系列动作。然后,一个更大的模型(他们称之为GenVLM)使用SimVLM的描述,以一种称为“规划领域定义语言”的形式化规划语言生成一组初始文件。这些文件已准备好输入到经典的PDDL求解器中,由求解器计算出逐步解决任务的计划。GenVLM将求解器的结果与模拟器的结果进行比较,并迭代地细化PDDL文件。
“生成器和模拟器协同工作,以达成完全相同的结果,即一个能实现目标的动作模拟,”作者解释道。由于GenVLM是一个大型生成式AI模型,它在训练过程中已经见过大量PDDL的示例,并学会了这种形式化语言如何解决广泛的问题。这种已有知识使模型能够生成准确的PDDL文件。
灵活的方法
VLMFP生成两个独立的PDDL文件。第一个是领域文件,定义了环境、有效动作和领域规则。它还生成一个问题文件,定义了当前特定问题的初始状态和目标。
“PDDL的一个优点是,在同一环境下,领域文件对于所有实例都是相同的。这使得我们的框架能够很好地泛化到同一领域下的未见实例,”作者解释道。
为了使系统能够有效泛化,研究人员需要精心设计足够多的训练数据供SimVLM学习,使模型学会理解问题和目标,而不是记住场景中的模式。在测试中,SimVLM在大约85%的实验中成功描述了场景、模拟了动作并检测到目标是否达成。
总体而言,VLMFP框架在六个2D规划任务上达到了约60%的成功率,在两个3D任务(包括多机器人协作和机器人装配)上成功率超过80%。它还在超过50%的未见场景中生成了有效计划,远远超过了基线方法。
“我们的框架可以在不同情况下的规则发生变化时进行泛化。这赋予我们的系统解决多种类型的基于视觉的规划问题的灵活性,”研究人员补充道。
未来,研究人员希望让VLMFP能够处理更复杂的场景,并探索识别和减轻视觉语言模型幻觉的方法。
“从长远来看,生成式AI模型可以作为智能体,利用合适的工具来解决更复杂的问题。但什么是合适的工具?以及如何整合这些工具?仍有很长的路要走。但通过将基于视觉的规划纳入考量,这项工作是拼图中重要的一块,”研究人员表示。
这项工作部分由某机构下属的人工智能实验室资助。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。