我正在实现连续强化学习(用深度强化学习的连续控制),但在优化策略-神经网络时遇到了一些问题。
按照本文的建议,通过计算和跟踪梯度(梯度上升),使策略的q值最大化:最大Q(状态,action=policy(状态))。然而,由于Q-神经网络(最初)不是Q(状态,动作)的完全逼近,当政策的作用变得很大/无限时,我遇到了问题。当行动->无限时,Q->无穷大,这意味着策略的权重被优化到非常大或无限大的值。Morover,当政策开始输出接近无穷大的值时,这意味着q-值变得太大,而增强值变得不相关,因为"r + gamma*Q“被非常大的q-值所主导。
您推荐的解决方案是什么?我计划将策略的输出限制在0,1,而不是线性输出层,但这似乎严重阻碍了优化过程,而且算法无法再学习好的策略。
发布于 2017-05-06 12:13:28
正如您所说,策略输出必须受到限制。本文采用深度强化学习的连续控制方法,利用tanh激活层对动作进行约束。只需将实际操作空间重新划分为-1到1之间的值,并为策略网络使用tanh即可。
https://stackoverflow.com/questions/43697641
复制相似问题