我正在学习强化学习,正在为一门大学课程阅读萨顿的书。除了经典的PD、MC、TD和Q-Learning算法外,我还在阅读策略梯度方法和用于解决决策问题的遗传算法。我以前从未在这个主题中有过经验,我在理解一种技术应该优先于另一种技术时遇到了问题。我有一些想法,但我不是很确定。有没有人可以简要地解释一下或者告诉我一个来源,在那里我可以找到一些关于应该使用某种方法的典型情况的信息?据我所知:
更准确地说,我认为要选择一种学习方法,程序员应该问自己以下问题:
但我不知道问题的这些细节如何影响学习方法的选择。我希望一些程序员已经有了一些关于RL方法的经验,可以帮助我更好地理解他们的应用。
https://stackoverflow.com/questions/22723830
复制相似问题