Meta和纽约大学推出新型机器人框架OK-Robot：无需训练就可以做家务！

文章来源：企鹅号 - AI变革指南

你是否曾经希望有一个机器人能够帮你收拾房间，把杂乱的物品放到指定的位置？

如果你有这样的梦想，那么你可能会对Meta和纽约大学合作开发的机器人框架OK-Robot感兴趣。

这一新型开放知识型机器人框架，不需要预训练，就可以在真实家庭环境中运行，执行拾取和放置的任务，让我们离实现机器人收拾房间的目标又近了一步。

OK-Robot是什么？

OK-Robot是一个开放知识型机器人框架，它将视觉语言模型（用于物体检测）、导航和抓取的基础模块整合到一个系统中，为机器人的高效拾放操作提供了解决方案。

OK-Robot的核心是一个视觉语言模型（VLM），它可以根据语言查询识别物体，例如“把桌子上的Takis放到垃圾桶里”。VLM的优势是它可以处理开放词汇的查询，而不需要预先定义物体的类别或标签。VLM还可以利用开放知识的数据源，例如维基百科或互联网图片，来提高物体识别的准确性和鲁棒性。

OK-Robot还集成了预先训练好的机器人抓取模型，例如AnyGrasp，它可以根据物体的形状和姿态，生成适合的抓取姿势。此外，OK-Robot还使用了经过实战考验的算法，例如1968年的A*算法，用于机器人的导航和路径规划。这些模块的组合，使得OK-Robot可以在复杂的家庭环境中，完成拾取和放置的任务，而不需要任何额外的训练或调整。

OK-Robot有多厉害？

为了测试OK-Robot的性能，Meta和纽约大学的研究者在10个真实的家庭环境中运行了OK-Robot，让它执行开放式的拾取和放置任务，例如“把紫色的洗发水放到红色的袋子里”或“把白色的药盒扔到垃圾桶里”。结果显示，OK-Robot在这些任务中达到了58.5%的成功率，如果是干净整洁的环境，性能能提升到82%。这一成绩为机器人在家庭环境中执行日常任务提供了新的可能性。

OK-Robot的成功率，也远远超过了之前的工作，例如Open Vocabulary Mobile Manipulation (OVMM)，它只能达到32.6%的成功率。OK-Robot的优势在于它使用了更先进的视觉语言模型，例如GPT-4V，来识别物体，以及更灵活的机器人抓取模型，例如AnyGrasp，来生成抓取姿势。此外，OK-Robot还利用了开放知识的数据源，例如维基百科或互联网图片，来提高物体识别的准确性和鲁棒性。

OK-Robot有什么意义？

OK-Robot的出现，不仅展示了机器人在家庭环境中的应用潜力，也为机器人的开放知识型系统提供了一个新的范例。通过将视觉语言模型、导航和抓取的基础模块整合到一个框架中，OK-Robot实现了一个无需预训练，就可以在真实环境中运行的机器人系统。这一框架的灵活性和通用性，为机器人的跨领域和跨场景的迁移提供了新的思路。

OK-Robot的研究者表示，他们的目标是让机器人能够理解和执行人类的语言指令，从而实现人机协作的愿景。他们认为，开放知识型机器人框架是实现这一目标的关键，因为它可以让机器人利用海量的公开数据，来提高自己的认知能力和适应能力。他们希望，OK-Robot能够激发更多的研究者和开发者，来探索和创造更多的开放知识型机器人系统，让机器人成为我们生活中的好帮手。

项目地址：

https://ok-robot.github.io/

发表于: 2024-01-252024-01-25 06:44:00
原文链接：https://page.om.qq.com/page/OGWAYRVatlabcEj4y9yKUKBQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Meta和纽约大学推出新型机器人框架OK-Robot：无需训练就可以做家务！

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐