我有一个DQN代理,它在一个特定的网络上被训练来执行一个任务。然而,在训练代理时,我注意到,在初始的几个时期之后,当代理的得分显示出总体增长后,代理的性能突然出现了急剧下降,就好像它正在重新开始一样。这种情况经常发生。
i代理显示性能从差到好的波动,对于DQN代理来说是正常的。我应该做什么诊断才能消除这种波动?我曾为代理商使用过经验回放和探索-开发。我对这个领域还比较陌生,所以这个问题可能是相当微不足道的。
发布于 2019-01-14 12:10:09
这些波动在达到最佳水平之前是正常的。在大多数的加固试验和文献中,用window size of 15-30
加权平均法对结果进行了分析。下面是我的dqn
实现的图表。
https://stackoverflow.com/questions/54171713
复制相似问题