王晓静｜采用强化学习的机器人导航方法

文章来源：企鹅号 - 蓝海星智库

美国加州理工学院的研究人员利用强化学习算法研发出高效的机器人导航方法，可引导其通过二维非定常流场。

不稳定流场中的导航，对机器人执行任务至关重要。研究人员采用深度强化学习算法，仅利用二维非定常流场的局部信息即可规划高效、鲁棒的导航路径。这种导航方法采用一个128×128的深度神经网络，以机器人所处流场信息和相对位置信息为输入，以航行方向为连续变量输出；为获得快速通过流场的最优路径，先利用随机树算法获得一组输入，使机器人从初始位置到达目标位置，再利用带约束的梯度下降法最小化时间步长，以获得最优路径。研究发现：这种导航方法的有效性取决于局部流场信息的类型，能保证机器人以最短时间、最优路径通过流场，且到达目标位置的成功率接近100%。