首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

视觉语言导航研究进展

近年来,越来越多研究人员意识到单模态分析技术在现实中处理信息的局限性,对于自然语言、音频信息以及视觉等多模态融合方面的研究投入日益增加。视觉语言导航[1]是智能体在第一视角下,基于真实环境下的全景图,综合处理指令和视觉信息并进行推理的多模态任务,也是智能管家等应用的核心技术之一。视觉语言导航尝试使用多模态融合的方式,为室内导航任务的研究提供了一个新的方向。如图1所示,智能体需要结合指令信息和视觉信息,在模拟器中完成一系列的决策,最终到达目标位置。其中主要难点在于如何学习理解指令和视觉的信息,从而完成导航过程中的每一步决策。

03
领券