首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

国内多所高校共建开源社区LAMM,加入多模态语言模型大家庭的时候到了

为了让具身智能体在开放世界复杂环境中更好地感知环境,我们提出了以MLLM驱动的具身智能体MP5,其特点在于具备视觉感知和主动感知能力。...视觉感知模块(模型主要架构为LAMM)允许MP5解决以前从未见过的任务,主动感知可以主动获取环境信息,以执行合适动作。...最终 MP5 具有开放感知能力,并能根据不同的目的提供量身定制的感知结果,可以完成长时序及复杂环境信息任务。...下面是 MP5 在 Minecraft 这一开放世界中完成「在晴天且光线充足的情况下,找到一头在平原且靠近水附近有草的猪」这一需要复杂环境信息的任务的演示过程。

18710
领券