开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >强化学习笔记5：无模型控制 Model-free control

强化学习笔记5：无模型控制 Model-free control

作者头像

列夫托尔斯昊

发布于 2020-08-31 14:29:16

8100

发布于 2020-08-31 14:29:16

举报

文章被收录于专栏：探物及理

适用于：

MDP model 未知：经验的采样可以获取
MDP model 已知：无法使用（e.g.原子级动力学），采样可以使用

策略、非策略学习：

On-policy MC control

贪婪策略梯度法如果用V(s)，需要MDP已知对于已知MDP，可以通过策略迭代的方法，DP到最优策略

要实现不基于模型的控制，需要满足两个条件：

引入q(s,a)函数，而不是v(s)
探索，避免局部最优，引入\(\epsilon\)，使\(\pi\)以小概率随机选择剩余动作，避免每次都选择已知较优动作

model-free policy using action-value function

用Q（s，a），不需要已知MDP

每个箭头对应一个段，Prediction一次，Control一次

GLIE MC control（Greedy in the Limit with Infinite Exploration）

保证试验进行一定次数是，所有a-s状态都被访问到很多次

ON-policy TD learning

TD与MC control 区别，希望引入TD的特性到on-policy learning

Sasra

Sasra（one-step）

由贝尔曼公式推导

算法实现过程

要保证Q值收敛，需要服从下列2个条件

策略符合GLIE特性
计算步长满足如图：

n-step Sarsa

与TD（λ）类似，扩展q的视野

Forward view Sarsa(λ)

Backward view Sarsa(λ)

在正向视角中，迭代一次Q值，需要完整的一次episode 为了解决这个问题，引入迹的概念，实现incremental update

算法流程

Attention：迹E是属于episode的，切换episode后，E要归零

Off-policy learning

off-policy MC learning

引入了概率缩放系数，判断两个策略动作概率函数

缺点：
- 方差会增加

off-policy TD learning

利用期望分布的概念，在更新目标前x一个系数，对当前策略的置信度

优点：
- 低方差
- 单步策略需要相似

Q-learning

特点

off-policy control with Q-learning

在学习过程中：

算法流程

总结

DP TD的关系

Q-learning 和 SARSA区别

区别在于：

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2020-08-27 ，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

On-policy MC control
- model-free policy using action-value function
- GLIE MC control（Greedy in the Limit with Infinite Exploration）
ON-policy TD learning
- Sasra
  - Sasra（one-step）
  - 算法实现过程
  - n-step Sarsa
- Forward view Sarsa(λ)
- Backward view Sarsa(λ)
  - 算法流程
Off-policy learning
- off-policy MC learning
- off-policy TD learning
- Q-learning
  - 特点
- off-policy control with Q-learning
  - 算法流程
总结
- DP TD的关系
- Q-learning 和 SARSA区别