首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Rainbow:整合DQN六种改进的深度强化学习方法!

将动作选择和价值估计分开,避免价值过高估计 Dueling-DQN:将Q值分解为状态价值和优势函数,得到更多有用信息 Prioritized Replay Buffer:将经验池中的经验按照优先级进行采样 Multi-Step...5、Multi-Step Learning 原始的DQN使用的是当前的即时奖励r和下一时刻的价值估计作为目标价值,这种方法在前期策略差即网络参数偏差较大的情况下,得到的目标价值偏差也较大,因此学习速度可能相对较慢...因此我们可以通过Multi-Step Learning来解决这个问题,这样在训练前期目标价值可以得到更准确的估计(因为即时奖励是我们可以通过与环境的交互准确得到的),从而加快训练速度。...在Multi-Step Learning中,我们的损失函数变为: ? ? 6、Distributional DQN 在DQN中,网络输出的都是状态-动作价值Q的期望预估值。这个期望值其实忽略很多信息。

2.7K10
领券