我刚接触深度强化学习,DQN模型。我使用Open AI gym分别重现了一些名为CartPole-v0和MountainCar-v0的实验。它还在这里解释了How does DQN work in an environment where reward is always -1。 所以这让我感到困惑,如何确定动作或状态的奖励?以及如何避免“自杀本身”的情况,在这种情况下,智能体自杀而不是试图到达目标,因为“活惩罚”(智能体每一步都会收到惩罚,以加速开发阶段的探索)。
我有问题在使用DQN作为对角线和正弦波作为价格波动。当价格上涨时,就会有奖励,并在图表中被涂成绿色。当价格下跌,并被标记为红色,奖励就会上升。请看这个链接的DQN是非常好的学习比稳定基线的DQN。我有一个困难,甚至使用对角线的DQN。罪恶波:如果结果正好相反,那就太好了。绿色代表上升,红色代表下降。我所做的就是把学习率从.01改为10.Epsilon到1。只需对测试PPO2和DQN所需的内容进行评论和注释即可。numpy as np
imp