英伟达将于2019年ICRA发布新的强化学习研究

GPUS Lady

发布于 2019-05-22 00:07:41

6540

发布于 2019-05-22 00:07:41

文章被收录于专栏：GPUS开发者

本周，来自华盛顿西雅图新成立的机器人研究实验室的英伟达(NVIDIA)研究人员展示了一种新的概念强化学习方法，旨在增强在模拟环境中训练的机器人在现实世界中的表现。这项工作将在加拿大蒙特利尔举行的国际机器人和自动化会议(ICRA)上发表。

这项研究是深度学习和机器人领域日益增长的趋势的一部分，该领域依赖于模拟训练。由于该方法是虚拟的，因此不会有损伤或受伤的风险，因此在部署到现实世界之前，机器人可以进行无限次的训练。描述模拟训练的一种方法是将其与宇航员在地球上执行关键太空任务时的训练方式进行比较。他们学会了承受太空旅行带来的巨大压力，演练和实践任务的各个方面，以及如何执行关键任务，以便在太空中完美地执行任务。对机器人来说，在模拟中强化学习的目的是做同样的事情。

“在机器人技术中，你通常希望在模拟中训练东西，因为你可以涵盖在现实世界中难以获取数据的广泛场景，”该项目的主要研究人员之一安库尔汉达(Ankur Handa)说。他解释说:“这项工作背后的想法是训练机器人在模拟器中做一些在现实生活中会很单调、耗时的事情。”

Handa说，加强学习机器人领域的研究人员面临的挑战之一是现实世界和模拟器之间的差异。研究人员在论文中指出:“由于仿真模型的不精确以及对真实场景缺乏高保真度的复制，在仿真中学习到的策略往往不能直接应用于真实世界的系统中，这一现象也被称为现实差距。” “在这项工作中，我们专注于通过学习策略来缩小现实差距，这些策略针对的是为更好的策略转移而优化的模拟场景的分布。”

Handa说:“我们没有手动调整模拟的随机性，而是使用一些与策略训练交织的真实世界的推出来调整模拟参数分布。”“我们实际上是在模拟器中创建一个真实世界的副本。” 研究人员使用64台NVIDIA Tesla V100 gpu集群，使用cudn -accelerated TensorFlow深度学习框架，训练机器人完成两项任务:把一个钉子插进洞里和打开抽屉。在模拟过程中，团队使用NVIDIA FleX物理引擎模拟并开发了本研究工作中描述的SimOpt算法。

这两项任务中，机器人都要在1.5-2个小时的时间里学习9600多个模拟程序，这样它就可以把一个钉子插进一个洞里，准确地打开一个抽屉。

在目标抽屉开启环境中，针对SimOpt不同迭代的随机仿真参数训练策略性能。随着源环境分布的调整，策略转移得到改善，直到机器人在第四次SimOpt迭代中成功地完成任务。

研究人员表示:“关闭仿真到现实传输回路是机器人策略鲁棒传输的一个重要组成部分。”“在这项工作中，我们证明了使用真实世界的数据来适应模拟随机化可以帮助学习模拟参数分布，这些参数分布特别适合于成功的策略转移，而不需要真实世界环境的精确复制。”

在SimOpt的不同迭代中运行在仿真中训练的策略，以执行真实世界的swing-peg-in-hole和drawer opening任务。左:SimOpt调整软绳、peg和机器人的物理参数分布，经过两次SimOpt迭代，使任务在真实机器人上成功执行。右图:SimOpt调整机器人和抽屉的物理参数分布。在更新参数之前，机器人用一只手指在抽屉把手上用力过猛，导致手爪打开。经过一次SimOpt迭代，机器人可以更好地控制抓取器的方向，从而实现任务的准确执行。

更多信息点击阅读原文

更多关于NVIDIA 机器人实验室

原来对于机器人开发，NVIDIA想得更多的是....

现在可以下载NVIDIA Isaac SDK来启动机器人开发

NVIDIA的新机器人研究实验室都干了些啥？

一分钟看尽各行各业如何利用NVIDIA Jetson打造智能机器