探索受自然启发的机器人敏捷性

文章来源：企鹅号 - 雨夜的博客

无论是追逐球的狗还是跳过障碍物的马，动物都可以毫不费力地执行极其丰富的敏捷技能。开发能够复制这些敏捷行为的机器人可以为在现实世界中部署机器人执行复杂任务提供机会。但是设计使腿式机器人能够执行这些敏捷行为的控制器可能是一项非常具有挑战性的任务。虽然强化学习(RL) 是一种经常用于自动化机器人技能开发的方法，仍然存在许多技术障碍，并且在实践中，仍然存在大量的人工开销。设计产生有效技能的奖励函数本身就需要大量的专家洞察力，并且通常需要针对每个所需技能进行冗长的奖励调整过程。此外，将强化学习应用于腿式机器人不仅需要高效的算法，还需要使机器人在跌倒后保持安全和恢复的机制，而无需频繁的人工协助。

在这篇文章中，我们将讨论我们最近的两个旨在应对这些挑战的项目。首先，我们描述了机器人如何通过模仿真实动物的动作来学习敏捷行为，产生快速流畅的动作，如小跑和跳跃。然后，我们讨论了一种用于在现实世界中自动训练运动技能的系统，该系统允许机器人在最少的人工帮助下学会自行行走。

通过模仿动物学习敏捷机器人运动技能

在“通过模仿动物学习敏捷机器人运动技能”，我们提出了一个框架，该框架采用从动物（在本例中为狗）记录的参考运动剪辑，并使用 RL 来训练控制策略，使机器人能够模仿现实世界中的运动。通过为系统提供不同的参考运动，我们能够训练四足机器人执行各种敏捷行为，从快速步行步态到动态跳跃和转弯。策略主要在模拟中训练，然后使用潜在空间适应技术转移到现实世界，该技术可以仅使用来自真实机器人的几分钟数据来有效地适应策略。

运动模仿

我们首先收集执行各种运动技能的真狗的动作捕捉剪辑。然后，我们使用 RL 来训练控制策略来模仿狗的动作。这些策略在物理模拟中进行训练，以在每个时间步跟踪参考运动的姿态。然后，通过在奖励函数中使用不同的参考动作，我们可以训练一个模拟机器人来模仿各种不同的技能。

然而，由于模拟器通常只提供对现实世界的粗略近似，因此在模拟中训练的策略在部署在真实机器人上时通常表现不佳。因此，我们使用样本高效的潜在空间适应技术将在模拟中训练的策略转移到现实世界。

首先，为了鼓励策略学习对动力学变化具有鲁棒性的行为，我们通过改变物理量（例如机器人的质量和摩擦力）来随机化模拟的动力学。由于我们可以在模拟训练期间访问这些参数的值，因此我们还可以使用学习的编码器将它们映射到低维表示。然后，此编码在训练期间作为附加输入传递给策略。由于真实机器人的物理参数未知先验地，当将策略部署到真实机器人时，我们移除编码器并直接在潜在空间中搜索一组参数，使机器人能够在现实世界中成功执行所需的技能。这种技术通常能够使用少于 8 分钟的真实世界数据使策略适应真实世界。

结果

使用这种方法，机器人学习模仿狗的各种运动技能，包括不同的步行步态，例如踱步和小跑，以及敏捷的旋转运动。

除了模仿真狗的动作外，还可以模仿艺术家动画的关键帧动作，包括动态跳跃转弯：

以最少的人力学习在现实世界中行走

上述方法能够在模拟中训练策略，然后使它们适应现实世界。但是，当任务涉及复杂多样的物理现象时，还需要直接从现实世界的经验中学习。尽管在真实机器人上学习已经在操作任务（例如QT-Opt）上取得了最先进的性能，但将相同的方法应用于有腿的机器人是很困难的，因为机器人可能会摔倒并损坏自己，或者离开训练区域，然后可能需要人工干预。

在“ Learn to Walk in the Real World with Minimal Human Effort ”中，我们开发了一个由软件和硬件组件组成的自动化学习系统，使用多任务学习程序、安全约束学习器和几个精心设计的硬件和软件组件。多任务学习通过生成将机器人驱动到工作区中心的学习计划来防止机器人离开训练区域。我们还通过设计一个安全约束来减少跌倒的次数，我们用双梯度下降来解决这个问题。

对于每次推出，调度程序选择一个任务，其中所需的步行方向指向中心。例如，假设我们有两个任务，向前和向后行走，如果机器人在工作区的后面，调度程序将选择向前的任务，反之亦然。在这一集的中间，学习者采取双重梯度下降步骤来迭代优化任务目标和安全约束，而不是将它们视为单一目标。如果机器人摔倒了，我们会调用一个自动起身控制器并继续下一集。

结果

该框架成功地从头开始训练策略以在没有任何人为干预的情况下朝不同方向行走。

训练完成后，就可以用遥控器控制机器人。请注意如何使用控制器命令机器人原地转动。由于机器人的平面腿结构，这个动作很难手动设计，但可以使用我们的自动多实例学习器自动发现。

该系统还使机器人能够导航更具挑战性的表面，例如记忆泡沫床垫和带有缝隙的门垫。

结论

在这两篇论文中，我们提出了用四足机器人重现各种行为的方法。扩展这方面的工作以从视频中学习技能也是一个令人兴奋的方向，它可以大大增加机器人可以学习的数据量。我们也有兴趣将自动化训练系统应用于更复杂的现实世界环境和任务。

发表于: 2021-12-302021-12-30 18:43:40
原文链接：https://kuaibao.qq.com/s/20211230A09YQU00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

探索受自然启发的机器人敏捷性

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐