问强化学习中探索/利用的最佳实践
EN

Stack Overflow用户

提问于 2019-02-04 23:57:57

回答 1查看 262关注 0票数 0

我的问题是在我对PyTorch DQN教程中的代码进行检查后提出的，但随后又提到了强化学习:强化学习中最佳探索/利用的最佳实践是什么？

在DQN教程中，steps_done变量是一个全局变量，EPS_DECAY = 200。这意味着:在128步之后，ε阈值= 0.500；在889步之后，ε阈值= 0.0600；以及在1500步之后，ε阈值= 0.05047。

这可能适用于本教程中介绍的CartPole问题-早期的片段可能非常短，任务相当简单-但对于需要更多探索的更复杂的问题呢？例如，如果我们有一个40,000集的问题，每个集都有10,000个时间步，我们如何设置epsilon贪婪探索策略？在RL工作中有什么经验法则吗？

提前感谢您的帮助。

pytorch

reinforcement-learning

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-02-06 22:55:12

好吧，我想最好是使用线性退火epsilon-greedy策略，它根据步骤更新epsilon：

EXPLORE = 3000000   #how many time steps to play
FINAL_EPSILON = 0.001 # final value of epsilon
INITIAL_EPSILON = 1.0# # starting value of epsilon

if epsilon > FINAL_EPSILON:
            epsilon -= (INITIAL_EPSILON - FINAL_EPSILON) / EXPLORE

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54519830

复制

相似问题

问强化学习中探索/利用的最佳实践
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问强化学习中探索/利用的最佳实践EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问强化学习中探索/利用的最佳实践
EN