首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

活动报名:复杂环境下控制机器人,揭秘GPT-4V在视觉和语言规划中的强大力量

报告主题:揭秘GPT-4V在机器人视觉-语言规划中的强大力量

报告日期:12月22日(周五)11:00-12:00

主题简介:

ViLa 全称是 Robotic Vision-Language Planning,它利用 GPT-4V 在视觉和语言两个模态上做联合推理的能力,把抽象的语言指令分解为一系列可执行的步骤。ViLa 最让人惊喜的是它展现出对物理世界中常识的理解,而这是很多之前基于大语言模型(LLM)的机器人任务规划算法所欠缺的。

在此次演讲中,我们将分享如何赋予机器人根据物理世界做任务规划的能力。最近的很多研究表明,大型语言模型(LLMs)具有对机器人任务非常有用的知识,尤其是在推理和规划方面。然而,LLMs缺乏物理世界的grounding,同时LLMs也依赖于外部affordance模型来感知环境信息,并且这些affordance模型不能与LLMs共同进行推理。

我们认为,任务规划器应该是一个统一的多模态系统。为此,我们介绍了机器人视觉-语言规划算法(ViLa),这是一种新颖的长程机器人规划方法,它利用视觉-语言模型(VLMs)生成一系列可操作的步骤。ViLa直接将感知数据整合到其推理和规划过程中,使其能够深刻理解视觉世界中的常识知识,包括空间布局和对象属性。

它还支持灵活的多模态目标定义,并自然地结合视觉反馈。我们在真实机器人和模拟环境中进行的广泛评估表明,ViLa相比现在基于LLM的任务规划算法具有明显的优势,并在众多的开放世界操纵任务中取得很好的表现。

论文地址:https://arxiv.org/pdf/2311.17842.pdf

论文主页:https://robot-vila.github.io/

论文视频:https://www.youtube.com/watch?v=t8pPZ46xtuc

报告嘉宾:

胡英东,清华大学交叉信息研究院三年级博士生,导师为高阳教授。在此之前,他在北京邮电大学获得智能科学与技术学士学位。他的研究兴趣主要包括计算机视觉,强化学习,具身智能和机器人学习。目前专注于利用基础模型中的先验知识,构建能在开放世界泛化的通用机器人。他在ECCV,ICML,CoRL等多个机器学习和机器人会议上发表论文,担任ICLR,CVPR等国际学术会议审稿人。

林凡淇,清华大学计算机系大四本科生,未来将在清华大学交叉信息研究院高阳教授组攻读博士学位。他的研究兴趣主要包括具身人工智能和机器人。他专注于将大模型的先验知识融合到机器人任务中,帮助机器人完成日常生活中的复杂任务;同时他希望利用已有的机器人算法、视觉语言大模型,探索机器人落地的可能性。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O_KvEjoY3d0qXQ8O09QNinKQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券