前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度强化学习(DRL)专栏(二):有模型的强化学习

深度强化学习(DRL)专栏(二):有模型的强化学习

作者头像
磐创AI
发布2019-09-09 17:18:05
2.3K0
发布2019-09-09 17:18:05
举报
文章被收录于专栏:磐创AI技术团队的专栏

作者 | 小猴锅

编辑 | 安可

出品 | 磐创AI团队出品

【磐创AI导读】:本篇文章是深度强化学习专栏的第二篇,讲了第三节有模型的强化学习,希望对大家有所帮助。查看上篇关于本专栏的介绍:深度强化学习(DRL)专栏开篇。想要获取更多的机器学习、深度学习资源,欢迎大家点击上方蓝字关注我们的公众号:磐创AI。

目录:

1. 引言

  • 专栏知识结构
  • 从AlphaGo看深度强化学习

2. 强化学习基础知识

  • 强化学习问题
  • 马尔科夫决策过程
  • 最优价值函数和贝尔曼方程

3. 有模型的强化学习方法

  • 价值迭代
  • 策略迭代

4. 无模型的强化学习方法

  • 蒙特卡洛方法
  • 时序差分学习
  • 值函数近似
  • 策略搜索

5. 实战强化学习算法

  • Q-learning 算法
  • Monte Carlo Policy Gradient 算法
  • Actor Critic 算法

6. 深度强化学习算法

  • Deep Q-Networks(DQN)
  • Deep Deterministic Policy Gradient(DDPG)

7. 专栏小结

3 有模型的强化学习方法

在一些强化学习问题中,我们知道环境的具体信息(例如所有的环境状态、状态转移概率矩阵以及关于动作(或状态)的奖励等),这种情况下我们可以利用这些信息构建一个MDP模型来对环境进行描述。一旦有了这个模型, 我们就可以使用动态规划的方法来对最优价值函数和策略进行求解,而一旦获得了最优价值函数,最优策略就是选择能够最大化下一状态价值的动作。

3.1 价值迭代

价值迭代(Value Iteration)算法是一种求解最优策略的方法,价值迭代的算法思想是:遍历环境中的每一个状态,在每一个状态下,依次执行每一个可以执行的动作,算出执行每一个动作后获得的奖励,即状态-动作价值,当前状态的价值即为当前状态下的最大状态-动作价值。重复这个过程,直到每个状态的最优价值不再发生变化,则迭代结束。迭代算法如下:

代码语言:javascript
复制
for s in S:
V(s)=0
do:
    delta = 0
for s in S:
    temp = V(s)
    for a in A:
                                                                       
       
         delta = max(delta,|temp-V(s)|)
while(delta≥θ)

3.2 策略迭代

在价值迭代(Value Iteration)中,我们通过价值迭代间接地寻找最优策略,而在策略迭代(Policy Iteration)中,我们直接存储和更新策略。策略迭代算法主要由两部分组成,一部分是策略估计(policy Evaluation),另一部分是策略改进(policy improvement)。

其算法思想是:首先随机初始化策略,将状态价值函数置为0。在策略估计部分,根据当前的策略来计算每一个状态的价值,直到收敛为止。在策略改进部分,根据上一步求得的状态价值来计算新的策略,直到策略收敛为止,否则重新回到策略估计。迭代算法如下:

代码语言:javascript
复制
Initialization:
Initial a polic π
for s in S:
V(s)=0
Policy Evaluation:
do:
delta = 0
for s in S:
        temp = V(s)
        V(s) =
        delta = max(delta,|temp-V(s)|)
while(delta≥θ)
Policy Improvement:
policy-stable = true
for s in S:
    temp =
   
    if temp ≠ :
        then policy-stable = false
if policy-stable:
    then stop and return V and π
else:
    goto Policy Evaluation
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 磐创AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 3 有模型的强化学习方法
  • 3.1 价值迭代
  • 3.2 策略迭代
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档