人形机器人领域有一个价值百万美元问题,就是如何利用互联网上已有的视频进行训练,OKAMI 就一个能使人形机器人通过单一人类视频模仿操控任务的项目。
OKAMI 算法从单个RGB-D视频生成参考计划,并推导出遵循该计划完成任务的策略,OKAMI 包括了两阶段方法,使人形机器人能够从单个人类视频中模仿操作任务。
第一阶段帮助人形机器人理解无动作视频中发生的事情:
使用VLM识别任务相关物体
跟踪整个视频中的物体运动
使用人体重建模型获取SMPL-H轨迹
基于物体关键点速度识别子目标
将所有信息整合形成参考计划
第二阶段通过物体感知重定向合成人形机器人动作:
定位任务相关物体并检索子目标
使用逆运动学和精确重定向将SMPL-H轨迹重定向到人形机器人
根据测试时物体位置调整轨迹
将轨迹发送到真实机器人执行
OKAMI 为在日常环境中部署人形机器人提供了新思路,使人形机器人能够通过单个人类视频快速适应新任务。我们的实验表明,OKAMI 比基准方法的性能提高了 58.33%,同时展示了在不同视觉和空间条件下的系统性泛化能力。
领取专属 10元无门槛券
私享最新 技术干货