前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习笔记5:无模型控制 Model-free control

强化学习笔记5:无模型控制 Model-free control

作者头像
列夫托尔斯昊
发布2020-08-31 14:29:16
7760
发布2020-08-31 14:29:16
举报
文章被收录于专栏:探物及理探物及理探物及理

适用于:

  • MDP model 未知:经验的采样可以获取
  • MDP model 已知:无法使用(e.g.原子级动力学),采样可以使用

策略、非策略学习:

On-policy MC control

贪婪策略梯度法如果用V(s),需要MDP已知 对于已知MDP,可以通过策略迭代的方法,DP到最优策略

要实现不基于模型的控制,需要满足两个条件:

  • 引入q(s,a)函数,而不是v(s)
  • 探索,避免局部最优,引入\(\epsilon\),使\(\pi\)以小概率随机选择剩余动作,避免每次都选择已知较优动作

model-free policy using action-value function

用Q(s,a),不需要已知MDP

每个箭头对应一个段,Prediction一次,Control一次

GLIE MC control(Greedy in the Limit with Infinite Exploration)

保证试验进行一定次数是,所有a-s状态都被访问到很多次

ON-policy TD learning

  • TD与MC control 区别,希望引入TD的特性到on-policy learning

Sasra

Sasra(one-step)

由贝尔曼公式推导

算法实现过程

要保证Q值收敛,需要服从下列2个条件

  • 策略符合GLIE特性
  • 计算步长满足如图:

n-step Sarsa

与TD(λ)类似,扩展q的视野

Forward view Sarsa(λ)

Backward view Sarsa(λ)

在正向视角中,迭代一次Q值,需要完整的一次episode 为了解决这个问题,引入迹的概念,实现incremental update

算法流程

Attention:迹E是属于episode的,切换episode后,E要归零

Off-policy learning

off-policy MC learning

引入了概率缩放系数,判断两个策略动作概率函数

  • 缺点:
    • 方差会增加

off-policy TD learning

利用期望分布的概念,在更新目标前x一个系数,对当前策略的置信度

  • 优点:
    • 低方差
    • 单步策略需要相似

Q-learning

特点

off-policy control with Q-learning

在学习过程中:

算法流程

总结

DP TD的关系

Q-learning 和 SARSA区别

区别在于:

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-08-27 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • On-policy MC control
    • model-free policy using action-value function
      • GLIE MC control(Greedy in the Limit with Infinite Exploration)
      • ON-policy TD learning
        • Sasra
          • Sasra(one-step)
          • 算法实现过程
          • n-step Sarsa
        • Forward view Sarsa(λ)
          • Backward view Sarsa(λ)
            • 算法流程
        • Off-policy learning
          • off-policy MC learning
            • off-policy TD learning
              • Q-learning
                • 特点
              • off-policy control with Q-learning
                • 算法流程
            • 总结
              • DP TD的关系
                • Q-learning 和 SARSA区别
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档