首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >什么时候使用某种强化学习算法?

什么时候使用某种强化学习算法?
EN

Stack Overflow用户
提问于 2014-03-29 05:53:48
回答 1查看 3.8K关注 0票数 23

我正在学习强化学习,正在为一门大学课程阅读萨顿的书。除了经典的PD、MC、TD和Q-Learning算法外,我还在阅读策略梯度方法和用于解决决策问题的遗传算法。我以前从未在这个主题中有过经验,我在理解一种技术应该优先于另一种技术时遇到了问题。我有一些想法,但我不是很确定。有没有人可以简要地解释一下或者告诉我一个来源,在那里我可以找到一些关于应该使用某种方法的典型情况的信息?据我所知:

  • 动态编程和线性规划应该只在MDP具有很少的动作和状态并且模型已知的情况下使用,因为它非常昂贵。但是,当DP比LP更好时,当我没有问题的模型,但我可以生成样本时,可以使用
  • 蒙特卡罗方法。它没有偏差,但具有较高的variance.
  • Temporal,当MC方法需要太多样本而方差较低时,应使用差分法。但是什么时候我应该使用TD,什么时候Q-Learning?
  • Policy梯度和遗传算法对于连续的MDP是好的。但是当其中一个比另一个更好的时候呢?

更准确地说,我认为要选择一种学习方法,程序员应该问自己以下问题:

  • 是在线学习还是离线学习?
  • 我们能否将探索和利用阶段分开?
  • 我们能否在MDP有限或连续状态和操作的范围内执行足够的操作?

但我不知道问题的这些细节如何影响学习方法的选择。我希望一些程序员已经有了一些关于RL方法的经验,可以帮助我更好地理解他们的应用。

EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22723830

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档