首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器人运动控制之学习方法:模仿学习和强化学习

“机器人”一词首次出现于1920年捷克作家卡雷尔·恰佩克(Karel Capek)创作的科幻剧本《万能机器人》中。随着科技的进步,机器人已经逐渐走进人们的真实生活,各种不同功能的机器人被先后创造出来。自主运动作为机器人区别于其他机器的重要标志,一直是机器人研究领域最重要的主题。经过学者们多年努力,机器人的运动往往通过建模辨识、规划或控制这几个步骤来实现,也就是说机器人的运动依靠机器人专家手动编程实现。手动编程的方式能使机器人在结构化的环境下快速获得稳定可靠的运动,目前大部分实用的机器人尤其是工业机器人都是靠这种方式获得运动能力的。然而,随着机器人与人类的关系越来越紧密,机器人将脱离原来简单的结构化环境而进入到人们实际生活的非结构化环境中,原来基于手动编程的方式将不再适用。因此,如何使得机器人在复杂的非结构化环境中灵活自如地运动成为机器人研究领域最重要的课题。自然界中的动物和人类能在实际的非结构化环境下进行灵活的运动是由于他们从小到大不断地学习。受此启发,通过学习的方式使得机器人获得运动能力是替代传统手动编程方式的一个很有前景的研究方向。目前,机器人通过学习获得运动能力的方法主要包括模仿学习和强化学习。

模仿学习是指给定专家示例数据,机器人通过学习,复现专家轨迹"。在该类学习中,专家示例动作被认为是最优的,机器人通过模仿专家的动作实现最优运动。在机械臂的轨迹规划运动中,复杂的轨迹很难用编程的方法来实现,但可以很容易地从人类的试教中获得。模仿学习在该领域得到广泛应用。

在很多时候,机器人无法获得专家数据,因此无法进行模仿学习。这种情况下,机器人可以利用强化学习的方法通过与环境不断交互进行学习。学习过程大致如下:机器人感知当前的环境状态,利用运动策略采样动作并执行该动作,环境则返回给机器人新的状态和回报,机器人根据当前反馈的回报及后继反馈的回报不断调整运动策略,直到学到最优运动策略。

与需要事先对环境和自身建模的手动编程方法相比,模仿学习和强化学习无须事先对机器人和环境进行建模,只要有数据(对于模仿学习是专家示例数据,对于强化学习是机器人与环境的交互数据)就能进行运动策略的学习。当环境发生变化时,手动编程的方法完全失效;而基于学习的方法,只要有足够的数据,即使环境发生变化也能继续学习。另外,两种学习方法之间也存在着很大的差别:模仿学习是向专家示例学习,在学习的过程中专家示例提供正确的动作;而强化学习没有正确的动作信号,只能通过与环境交互,从环境给予的奖励中推测更优的动作。因此强化学习所能利用的信息比模仿学习要少,这就导致了强化学习需要大量的数据样本,学习效率低,而模仿学习一般能快速收敛。但是,模仿学习的学习效果不会超过专家水平;强化学习则没有上限,可以达到甚至超过专家水平。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190826A0P3VI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券