探索未知：利用内在奖励改善机器人在拥挤空间的导航能力

文章来源：企鹅号 - 牛顿造

尽管机器人技术在不断进步，但在公共区域和城市道路等拥挤的空间中导航仍然是一个挑战。为了大规模地在智能城市中部署机器人，它们必须能够安全有效地在这些环境中导航而不造成任何伤害或损害。

为了应对这一挑战，萨拉戈萨大学和西班牙阿拉贡工程研究所的研究人员开发了一种基于机器学习的新方法，使用内在奖励，这基本上是人工智能代理在执行与它要完成的任务没有直接关系的行为时获得的奖励。

参与这项研究的研究人员之一迭戈-马丁内斯-巴塞尔加解释说，自主机器人导航是一个尚未解决的问题，特别是在非结构化的动态环境中，机器人必须避免与动态障碍物发生碰撞并到达目的地。虽然深度强化学习算法在成功率和到达目标的时间方面已被证明是成功的，但仍有改进的空间。

新方法使用内在奖励来鼓励机器人探索其环境中的未知区域，并随着时间的推移更有效地进行导航。研究人员评估了两种整合内在奖励的方法：第一种方法使用了 "内在好奇心模块"（ICM），而第二种方法是基于一系列被称为高效探索随机编码器（RE3）的算法。

研究人员在CrowdNav模拟器上进行了模拟，发现他们提出的两种整合内在奖励的方法都超过了以前开发的用于机器人在拥挤空间中导航的最先进方法。这项研究的结果可以鼓励其他机器人学家在训练他们的机器人时使用内在奖励，以提高他们应对不可预见的情况和在高度动态环境中安全移动的能力。

马丁内斯-巴塞尔加计划继续改进机器人导航中的深度强化学习，使其在现实世界的应用中更加安全和可靠。研究人员测试的两个基于内在奖励的模型很快就可以在真正的机器人中进行整合和测试，以进一步验证其潜力。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货