首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >连续强化学习优化

连续强化学习优化
EN

Stack Overflow用户
提问于 2017-04-29 15:52:55
回答 1查看 258关注 0票数 2

我正在实现连续强化学习(用深度强化学习的连续控制),但在优化策略-神经网络时遇到了一些问题。

按照本文的建议,通过计算和跟踪梯度(梯度上升),使策略的q值最大化:最大Q(状态,action=policy(状态))。然而,由于Q-神经网络(最初)不是Q(状态,动作)的完全逼近,当政策的作用变得很大/无限时,我遇到了问题。当行动->无限时,Q->无穷大,这意味着策略的权重被优化到非常大或无限大的值。Morover,当政策开始输出接近无穷大的值时,这意味着q-值变得太大,而增强值变得不相关,因为"r + gamma*Q“被非常大的q-值所主导。

您推荐的解决方案是什么?我计划将策略的输出限制在0,1,而不是线性输出层,但这似乎严重阻碍了优化过程,而且算法无法再学习好的策略。

EN

回答 1

Stack Overflow用户

发布于 2017-05-06 12:13:28

正如您所说,策略输出必须受到限制。本文采用深度强化学习的连续控制方法,利用tanh激活层对动作进行约束。只需将实际操作空间重新划分为-1到1之间的值,并为策略网络使用tanh即可。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43697641

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档