让机器学习抓东西,50小时后机械手竟然能自己转方块了

本文由人工智能观察编译

译者:Sandy

对婴儿来说,用手抓东西是他来到这个世界要学习的第一件事,但这远非一项简单的任务,而且随着成长还会变得越来越复杂,越来越多变。也正是因为这种复杂性的存在,使得机器很难自学这一动作。不过,现在事情有了新的进展:由Elon Musk和Sam Altman支持的OpenAI的研究人员创建了一个系统,不仅可以像人类一样握住、操纵一个物体,还可以自主学习完成这些动作。

现在,许多机器人或机械手已经熟练掌握了某些握法或完成某些动作,比如,工厂里的机器人可以比一个人更加灵巧地使用螺栓枪。但是让机器人能很好地完成这项任务的软件,大多要归功于人类完成的代码,并且要与具体的应用程序一一对应。举个例子,即使是在同一生产线上的某些东西,像焊接,也需要一个全新的系统。

然而对于一个人而言,拿起一个苹果与抓取一个杯子并没有太大的不同。虽然存在差异,但我们的大脑会自动填补空白,即兴发挥来安全地握住一个不熟悉的物体。在这个方面,机器人要严重落后于人类。更重要的是,研究人员不能只训练机器人去完成人类要做的事情,而是必须提供数以百万计的案例来充分展示人类对成千上万的特定物体会做什么。

对此,OpenAI的研究人员认为,解决方案的根本不是使用人类数据。相反,他们让计算机在模拟中进行反复尝试,慢慢学习如何移动手指,才能让它握住的物体按需移动。

这一系统被称为Dactyl。我们可以将一个木块放在Dactyl的手掌中,并让它将其重新定位至不同的方向。而网络仅负责观察指尖的坐标以及来自三个普通RGB相机的图像。此外,该系统完全在模拟的环境下进行训练,将其在虚拟世界中学到的知识转化为现实,并适应于现实世界的物理学。换句话说,这一研究结果表明,在纯模拟环境中训练智能体,不需要对现实世界进行精确的物理建模(一项极端复杂且浩大的工程),就能让智能体完成实际任务。

比如,它可以在几秒钟内尝试抓住一个对象的几千种不同方式,分析结果并将数据提供给下一次尝试。当然,所有的这些行为都是该系统自主发现的。除了需要学习的不同物体和姿势外,还存在其他随机参数,比如指尖的摩擦量,场景的颜色和光照等。

据了解,OpenAI的研究员在这个研究上投入很大,包括6144个CPU内核和8个GPU进行策略训练,并“在50个小时内收集了大约一百年的经验”。之后,当他们首次将系统用于现实世界中时便完成了一些让人惊讶的似人类行为。

通常我们在用手做事情时都不会很在意,比如转动一个苹果看有没有坏掉或者将一杯咖啡递给朋友,在这个过程中我们通常会使用一些小技巧来稳住或移动物体。Dactyl重建了其中的几个,举个例子,用拇指和单个手指握住物体,同时使用其余部分旋转到想要的方向。

可以说,该系统的优点不仅在于其运动的自然性,还因为它们是通过反复试验独立完成的,与任何特定形状或类型的物体无关。就像人类一样,Dactyl在合理的范围内也可以抓住并操纵放在手中的任何东西。

这种灵活性被称为“泛化”(Generalization),对于必须与现实世界互动的机器人来说非常重要。对程序员来说,要为世界上的每一个物体和每种情况进行手动编码,是一项不可能完成的任务,但现在依靠一套核心理解系统的机器人似乎可以填补这个空白了。

(文中图片来自网络)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180731A1S2CP00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券