问连续强化学习优化
EN

Stack Overflow用户

提问于 2017-04-29 15:52:55

回答 1查看 258关注 0票数 2

我正在实现连续强化学习(用深度强化学习的连续控制)，但在优化策略-神经网络时遇到了一些问题。

按照本文的建议，通过计算和跟踪梯度(梯度上升)，使策略的q值最大化:最大Q(状态，action=policy(状态))。然而，由于Q-神经网络(最初)不是Q(状态，动作)的完全逼近，当政策的作用变得很大/无限时，我遇到了问题。当行动->无限时，Q->无穷大，这意味着策略的权重被优化到非常大或无限大的值。Morover，当政策开始输出接近无穷大的值时，这意味着q-值变得太大，而增强值变得不相关，因为"r + gamma*Q“被非常大的q-值所主导。

您推荐的解决方案是什么？我计划将策略的输出限制在0,1，而不是线性输出层，但这似乎严重阻碍了优化过程，而且算法无法再学习好的策略。

reinforcement-learning

回答 1

Stack Overflow用户

发布于 2017-05-06 12:13:28

正如您所说，策略输出必须受到限制。本文采用深度强化学习的连续控制方法，利用tanh激活层对动作进行约束。只需将实际操作空间重新划分为-1到1之间的值，并为策略网络使用tanh即可。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43697641

复制

相似问题

问连续强化学习优化
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问连续强化学习优化EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问连续强化学习优化
EN