首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Meta和纽约大学推出新型机器人框架OK-Robot:无需训练就可以做家务!

你是否曾经希望有一个机器人能够帮你收拾房间,把杂乱的物品放到指定的位置?

如果你有这样的梦想,那么你可能会对Meta和纽约大学合作开发的机器人框架OK-Robot感兴趣。

这一新型开放知识型机器人框架,不需要预训练,就可以在真实家庭环境中运行,执行拾取和放置的任务,让我们离实现机器人收拾房间的目标又近了一步。

OK-Robot是什么?

OK-Robot是一个开放知识型机器人框架,它将视觉语言模型(用于物体检测)、导航和抓取的基础模块整合到一个系统中,为机器人的高效拾放操作提供了解决方案。

OK-Robot的核心是一个视觉语言模型(VLM),它可以根据语言查询识别物体,例如“把桌子上的Takis放到垃圾桶里”。VLM的优势是它可以处理开放词汇的查询,而不需要预先定义物体的类别或标签。VLM还可以利用开放知识的数据源,例如维基百科或互联网图片,来提高物体识别的准确性和鲁棒性。

OK-Robot还集成了预先训练好的机器人抓取模型,例如AnyGrasp,它可以根据物体的形状和姿态,生成适合的抓取姿势。此外,OK-Robot还使用了经过实战考验的算法,例如1968年的A*算法,用于机器人的导航和路径规划。这些模块的组合,使得OK-Robot可以在复杂的家庭环境中,完成拾取和放置的任务,而不需要任何额外的训练或调整。

OK-Robot有多厉害?

为了测试OK-Robot的性能,Meta和纽约大学的研究者在10个真实的家庭环境中运行了OK-Robot,让它执行开放式的拾取和放置任务,例如“把紫色的洗发水放到红色的袋子里”或“把白色的药盒扔到垃圾桶里”。结果显示,OK-Robot在这些任务中达到了58.5%的成功率,如果是干净整洁的环境,性能能提升到82%。这一成绩为机器人在家庭环境中执行日常任务提供了新的可能性。

OK-Robot的成功率,也远远超过了之前的工作,例如Open Vocabulary Mobile Manipulation (OVMM),它只能达到32.6%的成功率。OK-Robot的优势在于它使用了更先进的视觉语言模型,例如GPT-4V,来识别物体,以及更灵活的机器人抓取模型,例如AnyGrasp,来生成抓取姿势。此外,OK-Robot还利用了开放知识的数据源,例如维基百科或互联网图片,来提高物体识别的准确性和鲁棒性。

OK-Robot有什么意义?

OK-Robot的出现,不仅展示了机器人在家庭环境中的应用潜力,也为机器人的开放知识型系统提供了一个新的范例。通过将视觉语言模型、导航和抓取的基础模块整合到一个框架中,OK-Robot实现了一个无需预训练,就可以在真实环境中运行的机器人系统。这一框架的灵活性和通用性,为机器人的跨领域和跨场景的迁移提供了新的思路。

OK-Robot的研究者表示,他们的目标是让机器人能够理解和执行人类的语言指令,从而实现人机协作的愿景。他们认为,开放知识型机器人框架是实现这一目标的关键,因为它可以让机器人利用海量的公开数据,来提高自己的认知能力和适应能力。他们希望,OK-Robot能够激发更多的研究者和开发者,来探索和创造更多的开放知识型机器人系统,让机器人成为我们生活中的好帮手。

项目地址:

https://ok-robot.github.io/

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OGWAYRVatlabcEj4y9yKUKBQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券