关注被科技重塑的生活
能对周遭变化做出实时反应的机器人已经越来越常见——发生事情,则作出回应。现在,加州大学伯克利分校的研究人员正在开发一套“视觉预见 (Visual Foresight) ”系统,试图让机器人Vestri拥有想象动作结果的能力——根据自身的一系列动作,预测其摄像头即将拍摄到的影像,与它们从未见过的事物实现互动。
据伯克利新闻报道,视觉预见系统的核心是一项基于卷积递归视频预测 (Convolutional Recurrent Video Prediction) 的深度学习技术。基于动态神经平流 (Dynamic Neural Advection) 搭建的模型可以根据机器人的动作,来预测图像中的像素点在帧与帧之间如何移动。这就表示,系统可以在机器人接触或移动物体之前播放出相应场景。研究人员表示,目前机器人想象力还停留在初级阶段——只能预测未来几秒之内发生的事——不过这样的能力至少足够帮助机器人在桌子上移动物体并避开障碍。更重要的是,机器人可以自主学习并掌握此类任务的执行方式,无需人类帮助,也无需事先获取有关物理、所处环境以及目标物体的背景知识。
不需要额外辅助,是因为机器人视觉想象力的形成完全基于无人值守无人监管的探索过程。不像传统计算机视觉方案需要手动标注百万计的图像,视频预测模型只需要未加标注的视频,且机器人可以自主获取视频素材——首先让Vestri与桌子上的物体自由互动,从而熟悉环境;这一阶段结束之后,它会为周围的世界建立起一个预测模型——并利用模型对从未见过的新对象执行任务。它不需要搭载任何特殊传感器,有一部摄像头用于分析场景,机器人便可以根据分析结果作出行动。
“儿童可以在摆弄玩具的过程中了解周围的世界——我们也可以用同样的方法训练机器人将行为对周遭的影响可视化。这项技术可能为复杂现实场景中的高度灵活技能实现智能规划;”伯克利的电机工程与计算机科学系助理教授Sergey Levine说, “虽然Vestri的能力还非常有限,但它所有的技能都是自主习得。而这些技能可以让它在看到物体之前,通过以往观察中积累的交互规律,预测自身与物体之间的复杂物理交互。”
伯克利的科研人员还在继续研究基于预测的控制,并研发更为复杂的运算方式,让机器人能够收集更加专精的视频数据来应对复杂的任务——如抓取并放置物体,操控柔软可变形的物体 ,以及组装工作等等。
领取专属 10元无门槛券
私享最新 技术干货