首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器手虽好但成本高昂,大范围推广仰赖大规模仿真和RaaS

多伦多大学、NVIDIA和其他组织的研究人员提出了一个新系统,有望使机器人及机器手的研究向更多的机构和公司下沉。

一直以来,制造一只像人类的手一样的“机器手”都是人工智能和机器人研究人员高度追求的目标之一。这样具有高度灵活性和操纵性的机器手一旦实现,将在工厂、仓库、办公室和家庭等场景中发挥巨大的作用。

然而,尽管该领域在过往已经取得了巨大的进展,但机器手的研究仍然非常昂贵,而且仅限于少数财力非常雄厚的公司和研究实验室。

现在,新的研究有望使机器人及机器手的研究向更多的机构和公司下沉。在arXiv上发表的一篇论文中,多伦多大学、NVIDIA和其他组织的研究人员提出了一个新系统,该系统利用高效的深度强化学习(Deep Reinforcement Learning)技术和优化的模拟环境来训练机器手,而成本只是通常的一小部分。

▍机器手训练成本高昂

就现状而言,创造类人机器人的技术还没有出现。即便是大名鼎鼎的波士顿动力(Boston Dynamics)和马斯克的Tesla bot也仍然不具备在短期内实现重大突破的可能性。

然而,如果有足够的资源和时间,我们依旧可以在特定的任务上取得重大进展,比如用机器手操纵物体。

2019年,OpenAI 推出了Dactyl 机器手,它可以以令人印象深刻的灵活性操纵魔方(尽管仍然明显不如人类灵活)。但你有所不知的是,它可是已经训练了超过“13,000年”了!

Dactyl 机器手

你可能会好奇它是怎么在短时间内完成1.3万年的训练的呢?事实上,OpenAI的研究人员使用64台NVIDIA V100 GPU和920台带有32个CPU核心的机器来训练Dactyl。另外,许多软件任务也可以被并行化处理,你可以同时训练多个强化学习智能体,并合并它们学到的参数。

如此一来,并行化可以帮助减少训练控制机器手的人工智能所需的时间,要不了多久就可以积攒相当于13,000年工作量级的AI模型训练经验。

然而,速度是有代价的。目前训练AI的方案有两个,一个解决方案是生产成千上万的物理机器手并同时训练它们,这条道路即使对最富有的科技公司来说也是经济上不可行的。

另一个解决方案是使用模拟环境,通过模拟环境,研究人员可以同时训练数百个人工智能,然后在真正的物理机器人上微调模型。模拟和物理训练的结合已经成为机器人学、自动驾驶和其他需要与现实世界互动的研究领域的规范。

然而,模拟有其自身的挑战,而且对于小公司来说,计算成本仍然太高。

OpenAI拥有一些最富有的公司和投资者的资金支持,所以它可以毫无顾忌的使用昂贵的机器手和由大约3万个CPU核心组成的更昂贵的计算集群来开发Dactyl。

▍降低机器人研究的成本

2020年,马克斯·普朗克智能系统研究所(Max Planck Institute for Intelligent Systems)和纽约大学的一组研究人员提出了一个开源的机器人研究平台,该平台是动态的,使用的硬件价格低廉。

这个名为 TriFinger 的系统使用 PyBullet 物理引擎进行模拟学习,并使用了一个三指六自由度(6DoF)的低成本机器手。研究人员后来发起了真实机器人挑战赛(RRC),这是一个总部位于欧洲的平台,研究人员可以远程访问物理机器人,并在上面测试他们的强化学习模型。

TriFinger机器手

虽然TriFinger平台降低了机器人研究的成本,但仍然面临一些挑战。PyBullet是一个基于CPU的环境,噪音大,速度慢,很难有效地训练强化学习模型。

糟糕的模拟学习造成了复杂的情况,并扩大了“模拟与现实的差距”(sim2real gap),即训练好的RL模型在转移到物理机器人上时会遇到性能下降。因此,机器人研究人员需要在模拟训练和物理测试之间进行多次切换,以调整他们的RL模型。

“以前的操作工作需要在大型CPU集群上运行。此外,对大多数研究团队来说,扩展强化学习方法所需的工程努力是令人望而却步的,”论文的主要作者、NVIDIA的模拟和机器人学实习生Arthur Allshire说。“这意味着,尽管在扩展深度RL方面取得了进展,但进一步的算法或系统进展却很困难。而与Shadow Hand(用于OpenAI Dactyl)等系统相关的硬件成本和维护时间限制了在硬件上测试学习算法的可能性。”

于是,在TriFinger团队的工作基础上,这个新的研究小组提出了提高模拟学习的质量,同时保持低成本的目标。

▍用单GPU模拟训练RL智能体

首先,研究人员用NVIDIA的Isaac Gym取代了PyBullet,这是一个可以在桌面级GPU上高效运行的模拟环境。Isaac Gym利用NVIDIA的PhysX GPU加速引擎,允许在单个GPU上进行数千次并行模拟。它可以在RTX 3090 GPU上提供每秒约10万个样本。

“我们的任务适用于资源有限的研究实验室。我们的方法在单个桌面级GPU和CPU上花了一天时间进行训练,而每个从事机器学习的学术实验室都能获得这种水平的资源。”Allshire说。

根据这篇论文的介绍,一整套运行该系统的设备,包括训练、推理和物理机器人硬件,花不到1万美元就可以搞定。

高效的GPU驱动虚拟环境使研究人员能够在高保真模拟中训练他们的强化学习模型,而不会降低训练过程的速度。更高的保真度使训练环境更加真实,减少了sim2 real的差距和用物理机器人微调模型的需要。

在训练中,研究人员使用一个物体操纵任务样本来测试他们的强化学习系统。作为输入,RL模型接收来自模拟机器人的本体感觉数据以及8个关键点,这些关键点代表了目标物体在三维空间中的位姿。该模型的输出是应用于机器人九个关节的电机的扭矩。

该系统使用近端策略优化(PPO),一种无模型的RL算法。无模型算法避免了计算环境的所有细节需要,这在计算上是非常昂贵的,特别是当你在处理物理世界的时候。人工智能研究人员经常为他们的强化学习问题寻求成本效益高、无模型的解决方案。

值得注意的是,研究人员将机器手RL的奖励设计为手指与物体的距离、物体的目的地位置和预定姿势之间的平衡。

为了进一步提高模型的鲁棒性,研究人员在训练期间向环境的不同元素添加了随机噪音。

▍在真实机器人上测试

强化学习系统在模拟环境中训练完成后,研究人员通过远程访问真实机器人挑战赛提供的TriFinger机器人,在现实世界中对其进行了测试。他们用远程机器人实验室提供的传感器和摄像头信息取代了模拟器的本体感觉和图像输入。

经过训练的系统将其能力转移到真正的机器人上,虽然准确率下降了7%,但与以前的方法相比,模拟与现实的差距已然大大改善。

不仅如此,基于关键点的物体跟踪在确保机器人的物体处理能力在不同的规模、姿势、条件和物体之间通用方面特别有用。

研究人员说,同样的技术可以用在自由度更大的机械手上。

另外,这个系统可以与解决机器人技术其他方面的强化学习系统整合,如导航和寻路,以形成一个更完整的解决方案来训练移动机器人。“例如,你可以用我们的方法控制抓手的低层次控制,而更高层次的规划甚至基于学习的算法能够在更高的抽象层次上运行。”Allshire说。

不难看出,这类工作为机器人技术的普及化提供了一条道路,并通过大规模仿真和机器人即服务(RaaS)提供了一种可行的解决方案。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20211006A094QQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券