前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习-5:Model-free control

强化学习-5:Model-free control

作者头像
列夫托尔斯昊
发布2020-08-25 17:18:02
6600
发布2020-08-25 17:18:02
举报
文章被收录于专栏:探物及理探物及理

适用于:

  • MDP model 未知:经验的采样可以获取
  • MDP model 已知:无法使用(e.g.原子级动力学),采样可以使用

策略、非策略学习:

  • On-policy:采样来自policy \(\pi\)
  • Off-policy:采样来自μ \(\pi\)

On-policy MC control

model-free policy using action-value function

贪婪策略梯度法如果用V(s),需要MDP已知 用Q(s,a),不需要已知MDP

为了避免局部最优,引入\(\epsilon\),使\(\pi\)以小概率随机选择剩余动作,避免每次都选择已知较优动作

GLIE MC control

保证试验进行一定次数是,所有a-s状态都被访问到很多次

TD与MC control 区别

ON-policy TD learning

Sasra(one-step)

由贝尔曼公式推导

算法实现过程

要保证Q值收敛,需要服从下列定理

n-step Sarsa

Forward view Sarsa(\(\lambda\))

Backward view Sarsa(\(\lambda\))

在正向视角中,迭代一次Q值,需要完整的一次episode 为了解决这个问题,每次s改变时,就能迭代一次,引入迹的概念

算法流程

Off-policy learning

需求

  • 从人类和其他agents的表现中学习
  • 从old policies \(\pi_1, \pi_2...\)中学习
  • 从随机策略中,学习到最优策略
  • 从一个策略中,学习到多个策略

采样不同分布

\[ \begin{aligned} \mathbb{E}_{X \sim P}[f(X)] &=\sum P(X) f(X) \\ &=\sum Q(X) \frac{P(X)}{Q(X)} f(X) \\ &=\mathbb{E}_{X \sim Q}\left[\frac{P(X)}{Q(X)} f(X)\right] \end{aligned} \]

off-policy MC learning

缺点:

  • 方差会增加
  • \(\mu =0\)无法计算

off-policy TD learning

利用期望分布的概念,在更新目标前x一个系数,对当前策略的置信度

优点:

  • 低方差
  • 单步策略需要相似

Q-learning

特点

  • 采用Q(s,a) instead of V(s)
  • 不需要重要性采样 系数
  • 下次动作用 \(A_{t+1} ∼ μ(·|S_t)\)
  • 动作服从策略 as \(A′ ∼ π(·|S_t)\)

更新方程如下 \[ Q\left(S_{t}, A_{t}\right) \leftarrow Q\left(S_{t}, A_{t}\right)+\alpha\left(R_{t+1}+\gamma Q\left(S_{t+1}, A^{\prime}\right)-Q\left(S_{t}, A_{t}\right)\right) \]

off-policy control with Q-learning

  • 同时优化 behaviour 和 target policies
  • 目标策略\(\pi\) is greedy : \[ \pi\left(S_{t+1}\right)=\underset{a^{\prime}}{\operatorname{argmax}} Q\left(S_{t+1}, a^{\prime}\right) \]

Q-learning target 简化为: \[ \begin{aligned} & R_{t+1}+\gamma Q\left(S_{t+1}, A^{\prime}\right) \\ =& R_{t+1}+\gamma Q\left(S_{t+1}, \underset{a^{\prime}}{\operatorname{argmax}} Q\left(S_{t+1}, a^{\prime}\right)\right) \\ =& R_{t+1}+\max _{a^{\prime}} \gamma Q\left(S_{t+1}, a^{\prime}\right) \end{aligned} \]

迭代使\(Q(s,a) \rightarrow q_* (s,a)\)

算法流程

总结

DP TD的关系

Q-learning 和 SARSA区别

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-08-04 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • On-policy MC control
    • model-free policy using action-value function
      • GLIE MC control
        • TD与MC control 区别
    • ON-policy TD learning
      • Sasra(one-step)
        • 算法实现过程
      • n-step Sarsa
        • Forward view Sarsa(\(\lambda\))
          • Backward view Sarsa(\(\lambda\))
            • 算法流程
        • Off-policy learning
          • 需求
            • 采样不同分布
              • off-policy MC learning
                • 缺点:
              • off-policy TD learning
                • 优点:
              • Q-learning
                • 特点
              • off-policy control with Q-learning
                • 算法流程
                • 总结
                  • DP TD的关系
                    • Q-learning 和 SARSA区别
                    领券
                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档