我的问题是在我对PyTorch DQN教程中的代码进行检查后提出的,但随后又提到了强化学习:强化学习中最佳探索/利用的最佳实践是什么?
在DQN教程中,steps_done变量是一个全局变量,EPS_DECAY = 200。这意味着:在128步之后,ε阈值= 0.500;在889步之后,ε阈值= 0.0600;以及在1500步之后,ε阈值= 0.05047。
这可能适用于本教程中介绍的CartPole问题-早期的片段可能非常短,任务相当简单-但对于需要更多探索的更复杂的问题呢?例如,如果我们有一个40,000集的问题,每个集都有10,000个时间步,我们如何设置epsilon贪婪探索策略?在RL工作中有什么经验法则吗?
提前感谢您的帮助。
发布于 2019-02-06 22:55:12
好吧,我想最好是使用线性退火epsilon-greedy策略,它根据步骤更新epsilon:
EXPLORE = 3000000 #how many time steps to play
FINAL_EPSILON = 0.001 # final value of epsilon
INITIAL_EPSILON = 1.0# # starting value of epsilon
if epsilon > FINAL_EPSILON:
epsilon -= (INITIAL_EPSILON - FINAL_EPSILON) / EXPLORE
https://stackoverflow.com/questions/54519830
复制相似问题