首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

视觉语言导航研究进展

近年来,越来越多研究人员意识到单模态分析技术在现实中处理信息的局限性,对于自然语言、音频信息以及视觉等多模态融合方面的研究投入日益增加。视觉语言导航[1]是智能体在第一视角下,基于真实环境下的全景图,综合处理指令和视觉信息并进行推理的多模态任务,也是智能管家等应用的核心技术之一。视觉语言导航尝试使用多模态融合的方式,为室内导航任务的研究提供了一个新的方向。如图1所示,智能体需要结合指令信息和视觉信息,在模拟器中完成一系列的决策,最终到达目标位置。其中主要难点在于如何学习理解指令和视觉的信息,从而完成导航过程中的每一步决策。

03
您找到你想要的搜索结果了吗?
是的
没有找到

强化学习大牛Sergey Levine新作:三个大模型教会机器人认路

机器之心报道 机器之心编辑部 内置大模型的机器人,在不看地图的情况下,学会了按照语言指令到达目的地,这项成果来自强化学习大牛 Sergey Levine 的新作。 给定一个目的地,在没有导航轨迹的情况下顺利到达,有多难? 对于方向感不好的人类来说,这个任务也是很有挑战性。但在最近的一项研究中,几位学者只用三个预训练模型就把机器人「教会了」。 我们都知道,机器人学习的核心挑战之一是使机器人能够按照人类的高级指令执行各种各样的任务。这就要求机器人能够理解人类的指令,并配备大量不同的动作,以便在现实世界中执行这

01
领券