专栏首页机器学习算法原理与实践强化学习(十四) Actor-Critic

强化学习(十四) Actor-Critic

    在强化学习(十三) 策略梯度(Policy Gradient)中,我们讲到了基于策略(Policy Based)的强化学习方法的基本思路,并讨论了蒙特卡罗策略梯度reinforce算法。但是由于该算法需要完整的状态序列,同时单独对策略函数进行迭代更新,不太容易收敛。

    在本篇我们讨论策略(Policy Based)和价值(Value Based)相结合的方法:Actor-Critic算法。

    本文主要参考了Sutton的强化学习书第13章和UCL强化学习讲义的第7讲。

1. Actor-Critic算法简介

    Actor-Critic从名字上看包括两部分,演员(Actor)和评价者(Critic)。其中Actor使用我们上一节讲到的策略函数,负责生成动作(Action)并和环境交互。而Critic使用我们之前讲到了的价值函数,负责评估Actor的表现,并指导Actor下一阶段的动作。

    回想我们上一篇的策略梯度,策略函数就是我们的Actor,但是那里是没有Critic的,我们当时使用了蒙特卡罗法来计算每一步的价值部分替代了Critic的功能,但是场景比较受限。因此现在我们使用类似DQN中用的价值函数来替代蒙特卡罗法,作为一个比较通用的Critic。

    也就是说在Actor-Critic算法中,我们需要做两组近似,第一组是策略函数的近似:$$\pi_{\theta}(s,a) = P(a|s,\theta)\approx  \pi(a|s)$$

    第二组是价值函数的近似,对于状态价值和动作价值函数分别是:$$\hat{v}(s, w) \approx v_{\pi}(s)$$$$\hat{q}(s,a,w) \approx q_{\pi}(s,a)$$

     对于我们上一节讲到的蒙特卡罗策略梯度reinforce算法,我们需要进行改造才能变成Actor-Critic算法。

    首先,在蒙特卡罗策略梯度reinforce算法中,我们的策略的参数更新公式是:$$\theta = \theta + \alpha \nabla_{\theta}log \pi_{\theta}(s_t,a_t)  v_t$$

    梯度更新部分中,$\nabla_{\theta}log \pi_{\theta}(s_t,a_t) $是我们的分值函数,不用动,要变成Actor的话改动的是$v_t$,这块不能再使用蒙特卡罗法来得到,而应该从Critic得到。

    而对于Critic来说,这块是新的,不过我们完全可以参考之前DQN的做法,即用一个Q网络来做为Critic, 这个Q网络的输入可以是状态,而输出是每个动作的价值或者最优动作的价值。

    现在我们汇总来说,就是Critic通过Q网络计算状态的最优价值$v_t$, 而Actor利用$v_t$这个最优价值迭代更新策略函数的参数$\theta$,进而选择动作,并得到反馈和新的状态,Critic使用反馈和新的状态更新Q网络参数$w$, 在后面Critic会使用新的网络参数$w$来帮Actor计算状态的最优价值$v_t$。

2. Actor-Critic算法可选形式

    在上一节我们已经对Actor-Critic算法的流程做了一个初步的总结,不过有一个可以注意的点就是,我们对于Critic评估的点选择是和上一篇策略梯度一样的状态价值$v_t$,实际上,我们还可以选择很多其他的指标来做为Critic的评估点。而目前可以使用的Actor-Critic评估点主要有:

    a) 基于状态价值:这是我们上一节使用的评估点,这样Actor的策略函数参数更新的法公式是:$$\theta = \theta + \alpha \nabla_{\theta}log \pi_{\theta}(s_t,a_t)  V(s,w)$$

    b) 基于动作价值:在DQN中,我们一般使用的都是动作价值函数Q来做价值评估,这样Actor的策略函数参数更新的法公式是:$$\theta = \theta + \alpha \nabla_{\theta}log \pi_{\theta}(s_t,a_t)  Q(s,a,w)$$

    c) 基于TD误差:在强化学习(五)用时序差分法(TD)求解中,我们讲到了TD误差,它的表达式是$\delta(t) = R_{t+1} + \gamma V(S_{t+1}) -V(S_t)$或者$\delta(t) = R_{t+1} + \gamma Q(S_{t+1},A_{t+1} ) -Q(S_t,A_t)$, 这样Actor的策略函数参数更新的法公式是:$$\theta = \theta + \alpha \nabla_{\theta}log \pi_{\theta}(s_t,a_t)\delta(t)$$

      d) 基于优势函数:在强化学习(十二) Dueling DQN中,我们讲到过优势函数A的定义:$A(S,A,w,\beta) = Q(S,A, w, \alpha, \beta) - V(S,w,\alpha) $,即动作价值函数和状态价值函数的差值。这样Actor的策略函数参数更新的法公式是:$$\theta = \theta + \alpha \nabla_{\theta}log \pi_{\theta}(s_t,a_t)A(S,A,w,\beta)$$

    e) 基于TD($\lambda$)误差:一般都是基于后向TD($\lambda$)误差, 在强化学习(五)用时序差分法(TD)求解中也有讲到,是TD误差和效用迹E的乘积。这样Actor的策略函数参数更新的法公式是:$$\theta = \theta + \alpha \nabla_{\theta}log \pi_{\theta}(s_t,a_t)\delta(t)E_(t)$$

    对于Critic本身的模型参数$w$,一般都是使用均方误差损失函数来做做迭代更新,类似之前DQN系列中所讲的迭代方法. 如果我们使用的是最简单的线性Q函数,比如$Q(s,a ,w) = \phi(s,a)^Tw$,则Critic本身的模型参数$w$的更新公式可以表示为:$$\delta = R_{t+1} + \gamma Q(S_{t+1},A_{t+1} ) -Q(S_t,A_t)$$$$w = w+ \beta\delta\phi(s,a)$$

    通过对均方误差损失函数求导可以很容易的得到上式。当然实际应用中,我们一般不使用线性Q函数,而使用神经网络表示状态和Q值的关系。

3. Actor-Critic算法流程

    这里给一个Actor-Critic算法的流程总结,评估点基于TD误差,Critic使用神经网络来计算TD误差并更新网络参数,Actor也使用神经网络来更新网络参数  

    算法输入:迭代轮数$T$,状态特征维度$n$, 动作集$A$, 步长$\alpha,\beta$,衰减因子$\gamma$, 探索率$\epsilon$, Critic网络结构和Actor网络结构。

    输出:Actor 网络参数$\theta$, Critic网络参数$w$

    1. 随机初始化所有的状态和动作对应的价值$Q$.  随机初始化Critic网络的所有参数$w$。随机初始化Actor网络的所有参数$\theta$。

    2. for i from 1 to T,进行迭代。

      a) 初始化S为当前状态序列的第一个状态, 拿到其特征向量$\phi(S)$

      b) 在Actor网络中使用$\phi(S)$作为输入,输出动作$A$,基于动作$A$得到新的状态$S'$,反馈$R$。

      c) 在Critic网络中分别使用$\phi(S), \phi(S‘’)$作为输入,得到Q值输出$V(S), V(S’)$

      d) 计算TD误差$\delta = R +V(S’) -V(S) $

      e) 使用均方差损失函数$\sum\limits(R +V(S’) -V(S,w))^2$作Critic网络参数$w$的梯度更新

      f)  更新Actor网络参数$\theta$:$$\theta = \theta + \alpha \nabla_{\theta}log \pi_{\theta}(S_t,A)\delta$$

    对于Actor的分值函数$\nabla_{\theta}log \pi_{\theta}(S_t,A)$,可以选择softmax或者高斯分值函数。

    上述Actor-Critic算法已经是一个很好的算法框架,但是离实际应用还比较远。主要原因是这里有两个神经网络,都需要梯度更新,而且互相依赖。但是了解这个算法过程后,其他基于Actor-Critic的算法就好理解了。

4. Actor-Critic算法实例

    下面我们用一个具体的例子来演示上面的Actor-Critic算法。仍然使用了OpenAI Gym中的CartPole-v0游戏来作为我们算法应用。CartPole-v0游戏的介绍参见这里。它比较简单,基本要求就是控制下面的cart移动使连接在上面的pole保持垂直不倒。这个任务只有两个离散动作,要么向左用力,要么向右用力。而state状态就是这个cart的位置和速度, pole的角度和角速度,4维的特征。坚持到200分的奖励则为过关。

    算法流程可以参考上面的第三节,这里的分值函数我们使用的是softmax函数,和上一片的类似。完整的代码参见我的Github:https://github.com/ljpzzz/machinelearning/blob/master/reinforcement-learning/actor_critic.py

    代码主要分为两部分,第一部分是Actor,第二部分是Critic。对于Actor部分,大家可以和上一篇策略梯度的代码对比,改动并不大,主要区别在于梯度更新部分,策略梯度使用是蒙特卡罗法计算出的价值$v(t)$,则我们的actor使用的是TD误差。

    在策略梯度部分,对应的位置如下:

self.loss = tf.reduce_mean(self.neg_log_prob * self.tf_vt)  # reward guided loss

    而我们的Actor对应的位置的代码是:

        self.exp = tf.reduce_mean(self.neg_log_prob * self.td_error)

    此处要注意的是,由于使用的是TD误差,而不是价值$v(t)$,此处需要最大化self.exp,而不是最小化它,这点和策略梯度不同。对应的Actor代码为:

        #这里需要最大化当前策略的价值,因此需要最大化self.exp,即最小化-self.exp
        self.train_op = tf.train.AdamOptimizer(LEARNING_RATE).minimize(-self.exp)

    除此之外,Actor部分的代码和策略梯度的代码区别并不大。

    对于Critic部分,我们使用了类似于DQN的三层神经网络。不过我们简化了这个网络的输出,只有一维输出值,而不是之前DQN使用的有多少个可选动作,就有多少维输出值。网络结构如下:

    def create_Q_network(self):
        # network weights
        W1q = self.weight_variable([self.state_dim, 20])
        b1q = self.bias_variable([20])
        W2q = self.weight_variable([20, 1])
        b2q = self.bias_variable([1])
        self.state_input = tf.placeholder(tf.float32, [1, self.state_dim], "state")
        # hidden layers
        h_layerq = tf.nn.relu(tf.matmul(self.state_input, W1q) + b1q)
        # Q Value layer
        self.Q_value = tf.matmul(h_layerq, W2q) + b2q

     和之前的DQN相比,这里还有一个区别就是我们的critic没有使用DQN的经验回放,只是使用了反馈和当前网络在下一个状态的输出来拟合当前状态。

          对于算法中Actor和Critic交互的逻辑,在main函数中:

    for step in range(STEP):
      action = actor.choose_action(state) # e-greedy action for train
      next_state,reward,done,_ = env.step(action)
      td_error = critic.train_Q_network(state, reward, next_state)  # gradient = grad[r + gamma * V(s_) - V(s)]
      actor.learn(state, action, td_error)  # true_gradient = grad[logPi(s,a) * td_error]
      state = next_state
      if done:
          break

    大家对照第三节的算法流程和代码应该可以比较容易理清这个过程。但是这个程序很难收敛。因此大家跑了后发现分数总是很低的话是可以理解的。我们需要优化这个问题。

5. Actor-Critic算法小结

    基本版的Actor-Critic算法虽然思路很好,但是由于难收敛的原因,还需要做改进。

    目前改进的比较好的有两个经典算法,一个是DDPG算法,使用了双Actor神经网络和双Critic神经网络的方法来改善收敛性。这个方法我们在从DQN到Nature DQN的过程中已经用过一次了。另一个是A3C算法,使用了多线程的方式,一个主线程负责更新Actor和Critic的参数,多个辅线程负责分别和环境交互,得到梯度更新值,汇总更新主线程的参数。而所有的辅线程会定期从主线程更新网络参数。这些辅线程起到了类似DQN中经验回放的作用,但是效果更好。

    在后面的文章中,我们会继续讨论DDPG和A3C。

(欢迎转载,转载请注明出处。欢迎沟通交流: liujianping-ok@163.com)      

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 强化学习(十五) A3C

        在强化学习(十四) Actor-Critic中,我们讨论了Actor-Critic的算法流程,但是由于普通的Actor-Critic算法难以收敛,需要一...

    刘建平Pinard
  • 专栏 | 监督&强化学习模型在金融市场的应用

    机器之心
  • 【深度】监督&强化学习算法在A股中的应用

    量化投资与机器学习微信公众号
  • 用多智能体强化学习算法MADDPG解决"老鹰捉小鸡"问题

    MADDPG算法是强化学习的进阶算法,在读对应论文Multi-Agent Actor-Critic for Mixed Cooperative-Competit...

    用户1386409
  • 探秘多智能体强化学习-MADDPG算法原理及简单实现

    之前接触的强化学习算法都是单个智能体的强化学习算法,但是也有很多重要的应用场景牵涉到多个智能体之间的交互,比如说,多个机器人的控制,语言的交流,多玩家的游戏等等...

    石晓文
  • 【论文复现】一步步详解用TD3算法通关BipedalWalkerHardcore-v2环境

    熟悉强化学习Gym环境的小伙伴应该对 (BWH-v2环境) BipedalWalkerHardcore-v2(如图1)并不陌生。在这个环境里,这个Agent需...

    深度强化学习实验室
  • 推荐系统遇上深度学习(十五)--强化学习在京东推荐中的探索

    强化学习在各个公司的推荐系统中已经有过探索,包括阿里、京东等。之前在美团做过的一个引导语推荐项目,背后也是基于强化学习算法。本文,我们先来看一下强化学习是如何在...

    石晓文
  • 强化学习(十六) 深度确定性策略梯度(DDPG)

        在强化学习(十五) A3C中,我们讨论了使用多线程的方法来解决Actor-Critic难收敛的问题,今天我们不使用多线程,而是使用和DDQN类似的方法:...

    刘建平Pinard
  • 深度强化学习-Actor-Critic算法原理和实现

    在之前的几篇文章中,我们介绍了基于价值Value的强化学习算法Deep Q Network。有关DQN算法以及各种改进算法的原理和实现,可以参考之前的文章: 实...

    石晓文
  • 干货|GAN for NLP (论文笔记及解读)

    GAN 自从被提出以来,就广受大家的关注,尤其是在计算机视觉领域引起了很大的反响。“深度解读:GAN模型及其在2016年度的进展”[1]一文对过去一年GAN的进...

    fishexpert
  • 教AI学习绘画

    画家可以用寥寥数笔创造出迷人的画作,我们试图研究如何让机器掌握这样的能力。通过结合神经网络笔画渲染器和基于模型的深度强化学习,我们的 AI 可以用笔画描绘纹理丰...

    统计学家
  • 详解 GAN 在自然语言处理中的问题:原理、技术及应用

    【新智元导读】本文从 GAN 为什么没有在自然语言处理(NLP)中取得让人惊喜的成果出发,分析了原始 GAN 在 NLP 中的问题。 介绍和分析了近期将 GAN...

    新智元
  • 乘风破浪的马里奥!这个AI带你一口气通29关,你猜连AI都过不去的是哪3关?

    比如,这里有一位马里奥游戏疯狂爱好者uvipen就在GitHub上贡献了两种不同的方法,都能让马里奥轻松游走在障碍之间!去年6月,uvipen从2016年的论文...

    大数据文摘
  • Actor Critic——一个融合基于策略梯度和基于值优点的强化学习算法

    我们有了像Q-learning这么伟大的算法,为什么还要瞎折腾出一个Actor-Critic?原来Actor-Critic的Actor的前生是Policy Gr...

    CristianoC
  • DDPG实战

    1.前言2.代码2.1 主结构2.2 Actor Critic2.3 经验池2.4 每回合算法

    CristianoC
  • matlab倒立摆强化学习训练

    Actor(玩家):为了得到尽量高的reward,实现一个函数:输入state,输出action。用神经网络来近似这个函数。目标任务就是如何训练神经网络,让它的...

    万木逢春
  • 【ICML教程】深度强化学习,决策与控制(117 PPT)

    【新智元导读】本文来自 ICML 2017 的 tutorial,主题是深度学习应用中的决策和控制问题,介绍了与强化学习相关的强化和最优控制的基础理论,以及将深...

    新智元
  • 深度 | OpenAI提出强化学习新方法:让智能体学习合作、竞争与交流

    选自OpenAI 机器之心编译 作者: Ryan Lowe等 参与:吴攀、Smith 让智能体(agent)学会合作一直以来都是人工智能领域内的一项重要研究课...

    机器之心
  • 深度强化学习-DDPG算法原理和实现

    在之前的几篇文章中,我们介绍了基于价值Value的强化学习算法Deep Q Network。有关DQN算法以及各种改进算法的原理和实现,可以参考之前的文章: 实...

    石晓文

扫码关注云+社区

领取腾讯云代金券