DeepMind和剑桥、普朗克研究所共同论文：基于模型加速的连续深度Q-learning方法

AI科技评论

发布于 2018-03-07 11:11:01

1.1K0

发布于 2018-03-07 11:11:01

文章被收录于专栏：AI科技评论

摘要

模型无关的强化学习被成功应用于许多难题，最近还被用于处理大型神经网络策略和价值函数。然而，模型无关的算法的样本复杂度往往限制了它们在硬件系统中的应用，尤其是使用高维函数逼近器时。本文中，我们对算法和表示进行了探索，降低对连续控制任务的深度强化学习的样本复杂度。我们还提出了两个补充技术，用于提高这些算法的效率。首先，我们推导出一个连续变量的Q-learning算法，我们称为归一化优势函数 (NAF), 将它作为更常用的策略梯度和评估-决策 (actor-critic) 方法的替代品. NAF表征允许我们将Q-learning经验性重复应用于连续任务，并大极大地提高了一系列模拟机器人控制任务上的表现. 为了进一步提高我们尝试的效率，我们探索了利用已学会的模型来加速模型无关强化学习。通过实验我们得出，迭代改装局部线性模型对这类问题特别有效，并证明在这样的模型适用领域能表现出更快的学习速度。

1.引言

模型无关的强化学习 (RL)已经被成功地应用于一系列具有挑战性的问题(Kober & Peters, 2012; Deisenroth et al., 2013), 最近还被用于处理大型神经网络策略和价值函数(Mnih et al., 2015; Lillicrap et al., 2016; Wang et al., 2015; Heess et al., 2015; Hausknecht & Stone, 2015; Schulman et al., 2015). 这使得有可能以最小的特征和策略工程为复杂的任务训练策略, 使用原始状态表示直接输入到神经网络. 然而模型无关算法的样本复杂度,特别是使用高维函数逼近器时表现得非常高(Schulman et al., 2015), 这意味着减少了手工工程和普遍适用性的好处在基于依靠物理系统来收集经验的真实世界领域是感受不到的, 比如机器人和无人车领域。在这些领域，选择方式必须是有效的使用合适的、特定任务表征的模型无关算法(Peters et al., 2010; Deisenroth et al., 2013), 以及基于监督学习系统的模型和在该模型下的优化策略算法(Deisenroth & Rasmussen, 2011; Levine et al., 2016). 使用使用特定任务的表示显着地提高了效率，但限制了可以了解到任务的范围内，并且需要更大的领域知识. 使用基于模型的强化学习也提高了效率，但限制只能在已学过的模型中。对于许多现实世界的任务，它可能更容易表现出良好的策略，而不是再学习一个好的模型。例如，一个简单的机械抓取行为可能只需要在适当的时候把手指并拢，而相应的动态模型需要学习摩擦接触的刚性和可变形机构的复杂性。因此，我们希望能通过减少样本的复杂性来实现模型无关深度强化学习在真实世界中的通用性。

在本文中，我们提出了两种补充技术用来改进强化学习在连续控制领域的效率：我们得到可以在连续域中使用的Q-learning的一个变量，并且我们提出了一种这个结合连续Q-learning算法的方法。在保持模型无关强化学习的优点的条件下，通过已学会的模型来加速学习。模型无关强化学习在连续行动领域通常用策略搜索方法来进行处理 (Peters & Schaal, 2006; Peters et al., 2010). 整合价值函数估算的引入这些技术即actor-critic算法(Hafner & Riedmiller, 2011; Lillicrap et al., 2016; Schulman et al., 2016),它结合策略搜索和价值函数预估的好处，但在训练两个单独的函数逼近器时成本太高。我们提出的针对连续领域的Q-learning算法，就是我们称作的归一化优势函数(NAF), 它避免了对第二个行动或策略函数的需要，所以是更简单的算法. 更简单的优化目标和价值功能参数产生了这个算法，当在一系列连续控制域使用大规模神经网络函数逼近器时能大幅度增加样本效率。

除了完善一种模型无关的深度强化学习算法，我们也试图让算法包含基于模型的强化学习要素，从而加速学习，同时不丧失模型无关方法的那些优点。一种方法是，让Q-learning算法等离策略算法包含由基于模型的规划器所产生的离策略经验。然而，尽管这种方案看起来很自然，但经验评估表明它对学习进行加速时缺乏效率。正如我们评价中所探讨的一样, 这部分是因为价值函数估计算法的本性：这种算法为了对价值函数局面精确建模，好的和坏的状态转变都必须经历。我们提出了一种替代方法，把学习到的模型整合到我们的连续行动Q-learning算法中。该方法基于 imagination rollout：类似于 Dyna-Q (Sutton, 1990)方法，从学习到的模型中产生出在策略样本。我们表明，当学到的动态模型与真实模型完美匹配时，这种方法极其有效，但在学习到的不完美的模型情况下则会戏剧性地下跌。不过，我们发现不过，反复让局部线性模型去适应最新的在策略或离策略 rollout 批次，这种方法能提供充分的局部精确性，从而让我们能在真实世界样本的临近区域使用 short imagination rollout 实现实质性的进步。

我们的论文有三个主要贡献：第一，我们取得并评价了一个Q-learning表示，能够在连续领域中进行有效的Q-learning；第二，我们评估了几个能够把学习到的模型包含进模型无关的Q-learning的选项，并表明在我们的连续控制任务中，它们都缺乏效率。第三，我们提出，联合局部线性模型和局部在策略想象推广，加速对模型无关的连续Q-learning，并证明了这能带来样本复杂度方面的显著进步。我们通过一系列的模拟机器任务与其他现有的方法标线对我们的算法表现做了评估。

2.相关工作

深度强化学习这些年来由于它在表示强化学习方面有相当大的潜力，所以受到很大的关注。深度强化学习以及相关方法已经被用来学习玩Atari 游戏 (Mnih et al., 2015; Schaul et al., 2015) 处理大量的模拟或者真实的机器控制任务 (Hafner & Riedmiller, 2011; Lillicrap et al., 2016; Levine & Koltun, 2013; de Bruin et al., 2015; Hafner & Riedmiller, 2011). 大部分的深度强化学习是应用在离散性动作处理方面，比如Atari 游戏是基于价值函数预估以及Q-learning (Mnih et al., 2015), 连续域通常所需要的策略的显式表示，比如在一个策略梯度算法的上下文中(Schulman et al., 2015). 如果我们希望将价值函数估计的优势来连续深度强化学习，我们必须通常使用两个网络：一个代表策略，一个代表的价值函数 (Lillicrap et al., 2016; Schulman et al., 2016). 在本文中，我们描述而不是通过学习它同时输出值函数和策略单一的网络如何Q-learning的简洁和优雅，可以移植到连续领域。我的的Q-function可以联系到竞争网络 (Wang et al., 2015), 虽然我们的方法适用于连续动作领域. 我们的实践评价表明，我们不断的Q-learning算法实现了一套基准的任务相比，连续actor-critic家方法更快，更有效的学习，我们相信，这种方法的简单性将使它更容易在实践中采用。我们的Q-learning方法还涉及Rawlik等人的工作（2013），但我们的Q函数迭代形式更标准。

在标准的加强学习中，基于模型的深度强化学习方法通常都更有效率 (Nguyen & Widrow, 1989; Schmidhuber, 1991; Li & Todorov, 2004; Watter et al., 2015; Li & Todorov, 2004; Wahlstrom et al.,¨ 2015; Levine & Koltun, 2013),而模型无关算法适用性更广但通常较慢 (Koutn´ık et al.,2013; Schulman et al., 2015; Lillicrap et al., 2016). 结合基于模型和模型无关探索在文献中的几种方法。最接近我们想象的rollouts方式是Dyna-Q (Sutton, 1990), 它采用模拟体验中了解到模型来补充真实世界上首次展示策略. 正如在我们的评估中展示的一样, 当已学过模型完全匹配的真实模型时，使用Dyna-Q方法来加速模型无关强化学习是非常有效果的，但模型变差时迅速降解. 近似模型辅助神经Q-迭代(Q-Iteration)(AMA-NFQ) (Lampe & Riedmiller, 2014) 研究对Q-learning的一批变种类似的方法，实现了对简单基准任务的样本复杂显著减少. 然而, AMA-NFQ依赖于经验拟合神经网络，且很难处理更广泛的任务动量. 我们证明，使用迭代改装本地化的线性模型实现了比更复杂的神经网络模型更好的想象力rollouts效果。我们推测，这可能是由于该更具表现模型本身需要基本上更多的数据, 除此之外像Dyna-Q一样高效的算法更易收到低效逼近器的干扰。

3.背景

在强化学习中, 我们的目标是在环境E中学习策略来控制状态x ∈ X和动作u ∈ U的系统, 以便根据收益最大化预期总和函数r(x,u)。该动力系统是由初始状态分布p(x1)和动态分布p(xt+1|xt,ut)定义的。在每一步 t ∈ [1,T], 代理人通过现在的策略π(ut|xt)选择一个行动 ut, 然后获得一个收益r(xt,ut). 代理人经历从动态分布采样的新状态的转变, 同时我们可以将结果状态策略π的频繁变化称之为ρπ(xt). 定义, t目标是收益最大化的预期总和, 来自 R = Eri≥1,xi≥1∼E,ui≥1∼π[R1],其中γ是随着后来者优先早些时候收益的折扣因子. 当 γ < 1时, 我们可以设置 T = ∞, 虽然在我们的实验任务中我们使用的是有限范围。预期回报R能够使用各种基于模型的模型无关算法进行优化。在本节中，我们将在我们在我们的工作基础上回顾这些方法，

模型无关强化学习. 当系统动量p(xt+1|xt,ut) 未知时, 经常是与机器人、策略梯度等有关的硬件系统， (Peters & Schaal, 2006) 这种情况下价值函数或函数逼近Q-function学习往往是首选 (Sutton et al., 1999)。策略梯度提供了一种简单，直接的方法来强化学习，它可以在高维问题上获得成功，但可能需要大量的实验 (Schulman et al., 2015; 2016). 使用无策略或Q-function逼近关策略的算法可以在原则上实现更好的数据处理效率(Lillicrap et al., 2016). 然而, 适应这种方法连续任务特别需要优化在不同的两个目标函数逼近问题. 我们另外做了一个有单一的目标的标准Q-learning。我们将在这一节总结Q-learning. Q 函数Qπ(xt,ut) 对应于策略π，定义为从xt采取行动ut并且跟住以下策略π后的预期收益:

Qπ(xt,ut) = Eri≥t,xi>t∼E,ui>t∼π[Rt|xt,ut] (1)

Q-learning学会需求确定性策略µ(xt) = argmaxu Q(xt,ut), 反应π(ut|xt) = δ(ut = µ(xt)). 让 θQ参数化动作值函数, β是一个任意开放的策略，学习的目的是尽量减少贝尔曼误差, 我们在此修正 yt:

对于连续操作的问题，Q-learning十分困难，因为它要求在每次更新都要最大化一个复杂的非线性函数。出于这个原因，连续领域问题通常使用actor-critic方法来解决(Konda & Tsitsiklis, 1999; Hafner & Riedmiller, 2011; Silver et al., 2014; Lillicrap et al., 2016),一个单独的参数化的“执行人”的策略π是除了Q函数或函数值的经验“critic”，如深度确定性策略渐变算法(DDPG) (Lillicrap et al., 2016).

为了描述我们的方法在以下各节的应用，我们将定义函数值 V π(xt,ut) 和函数 Aπ(xt,ut) 一个给定的策略π:

V π(xt) = Eri≥t,xi>t∼E,ui≥t∼π[Rt|xt,ut]

Aπ(xt,ut) = Qπ(x ,ut) − V π(xt). (3) t

模型相关强化学习. 如果我们知道动量 p(xt+1|xt,ut), 或者，如果我们通过已学模型预判他们pˆ(xt+1|xt,ut), 我们就可以使用模型相关强化学习和进行最优控制。而大部分的基于模型的强化学习和控制方法已在文献中提及(Deisenroth et al., 2013; Kober & Peters, 2012), 有两个尤其重要: 迭代LQG (iLQG) (Li & Todorov, 2004) 和DynaQ (Sutton, 1990). 其中iLQG算法通过动态进行局部线性化下反复构造局部最优的线性反馈控制器优化动量pˆ(xt+1|xt,ut) = N(fxtxt + futut,Ft) 和收益的二次扩张 r(xt,ut) (Tassa et al., 2012). 在非线性动力学和二次收益方面, 行为价值函数 Q(xt,ut) 和行为价值函数 V (xt) 是本地反复，并且可以通过动态规划来计算的。最优策略可以从解析二次函数Q(xt,ut) 和V (xt) 派生, 并对应一个线性反馈控制器g(xt) = uˆt + kt + Kt(xt − xˆt), kt是开环术语, Kt 是闭环反馈矩阵, xˆt 和 uˆt是状态和标称轨迹行为, 这是控制器的平均轨迹. 采用最大熵的目标(Levine & Koltun, 2013), 我们也可以构建一个线性高斯控制器, c是一个标量调整为收益幅度的任意校正:

πtiLQG(ut|xt) = N(uˆt + kt + Kt(xt − xˆt),−cQ−u,1ut) (4)

当不知道动量时，用iLQG一个特别有效的方法是将它与了解到随时间变化的线性模型pˆ(xt+1|xt,ut)结合。在该变化的算法，轨迹从等式控制器采样(4) 以适应随时间变化的非线性动力学与线性回归. 这些动力学然后用iLQG用于获得一个新的控制器，通常使用KL发散约束来一个信任区，以使新的控制器不偏离在其中生成样本的区域太大(Levine & Abbeel, 2014).

除了使iLQG等规划为基础的算法，动态的模型学到可以让模型算法自由通过在了解到模型执行的推出产生的合成经验。这种类型的特别相关法就是 Dyna-Q (Sutton, 1990), 其执行使用策略π实现真实世界的推出, 然后利用从这些样本学到了模型合成的推出. 合成的推出源自通过现实世界的推出访问状态，并作为补充数据对各种可能的强化学习算法.。然而, 大部分之前Dyna-Q 方法集中在相对小、离散的领域. 在第5节中, 我们描述了我们的方法如何能扩展到Dyna-Q的变体，实现在一系列复杂的神经网络策略连续加速学习控制任务,在第6节中，我们凭经验以及不完善的模型了解到动力学模型的灵敏度。

4.连续归一化优势函数Q-Learning

我们首先提出一个简单的允许使用深度神经网络处理连续问题的Q-learning算法，我们称为归一化优势函数 (NAF)。在归一化优势函数后面是概念Q-function Q(xt,ut)，它的最大值 argmaxu Q(xt,ut), 可以很容易在Q-learning更新过程中分析确定。而许多允许最大化分析表现是可能的，我们在实施中使用的一种是基于已经分别输出值函数项神经网络V (x) 和优点术语A(x,u),参数化一体状态的非线性二次函数:

算法 1. Continuous Q-Learning with NAF(此处为代码)

Randomly initialize normalized Q network Q(x,u|θQ).

0 Q0 Q

Initialize target network Q with weight θ ← θ .

Initialize replay buffer R ← ∅.

for episode=1,M do

Initialize a random process N for action exploration Receive initial observation state x1 ∼ p(x1)

for t=1,T do

Select action ut = µ(xt|θµ)+ Nt

Execute ut and observe rt and xt+1 Store transition (xt,ut,rt,xt+1) in R for iteration=1,I do

Sample a random minibatch of m transitions from R

0 Q0

Set yi = ri + γV (xi+1|θ )

Update θQ by minimizing the loss: L = N1 Pi(yi −

Q(xi,ui|θQ))2

Q0 Q Q0

Update the target network: θ ← τθ +(1 − τ)θ

end for

分解Q变成了长期A和状态值项V 最开始是由 Baird III (1993); Harmon & Baird III (1996)提出来的，最近被Wang et al. (2015)扩展到离散行动问题。归一化优势函数被Rawlik et al. (2013) 在可替换的时间差学习算法的文中提出。但是，我们的方法是第一个这样的表示深神经网络结合成可以用来学习的一系列具有挑战性的连续控制任务、策略的算法。一般情况下，A并不是需要二次探索其他参数的形式。附录提供了与实验结果的详细规则与信息。

5. 使用想象推广法加速学习

尽管NAF在连续域actor-critic模型无关深度强化学习方法提供了一定的优势，我们可以通过利用已学到模型大幅度提高其数据处理效率。我们将证明加入特定类型得知模型给归一化优势函数Q-Learning显著提高样本有效性，同时还允许在不受不完善模型的限制下最终策略与模型无关学习进行调整。

5.1. 指导模型类探索

一个自然的方法来整合有学问的模型到了策略的算法，如Q-learning是用学到的模型来生成利用规划或轨迹优化良好的探索行为。要评估这个想法，我们利用iLQG算法生成模式下良好的轨迹，然后由他们追加重复过度这些轨迹以及策略方面的经验进行混合。有趣的是，在我们的评估中即使真正的模型下，用这种方法获得的改善往往是非常小，而且在跨域和探索的噪声的标线显著不同。这一结果表明，非策略iLQG探索是从已学得策略大也不同，为了确定给定行为的最优选择Q-learning也必须考虑进去。也就是说，只是简单说明表明该算法有良好行为是不够的，还必须要有糟糕的行为，这样才能了解哪些行为是更好的，哪些是更糟糕的。

5.2. 想象推广

在前一节中所讨论到，掺入非策略探索、窄分布例如那些由iLQG引导的，往往不会导致对Q-learning显著改善。这些结果表明Q-learning，这学习的基础上最大限度地减少时空差异的策略，本身就要求嘈杂策略行动取得成功。在现实世界的领域，例如机器人和无人车，这是它不可能的两个原因：第一，它表明大量策略行为需要加上非策略的样本实验。第二，它意味着策略必须允许训练，在训练过程中犯 “自己的错误”。这可能涉及到对现实中的硬件造成破坏。

要避免这些问题，同时仍允许大量的策略探索的一种方式是一个学习模式下生成合成的策略轨迹。添加这些合成样本，我们称之为想象推广，重复缓冲有效增强了可用于Q-learning经验的总量。我们使用的特定的方法是从每一个状态访问利用学习模型使用计划iLQG轨迹和符合策略轨迹的混合物，与在我们的实验评估了各种混合系数在现实世界中进行推出，然后生成额外的合成上的策略的推出沿真实世界的推出。我们表明，采用迭代改装线性模型允许我们扩展的方法来深强化学习在一系列连续控制域。在某些情况下，我们可以使用非策略 iLQG控制器，这是在安全领域的评论那里训练不足的策略可能采取危险的动作，甚至希望产生真正的卷展栏全部或大部分。这个算法被定义为算法2，它是在算法1的扩展结合基于模型实现的。

算法 2 Imagination rollouts with Fitted Dynamics and Optional iLQG Exploration (此处为代码)

Randomly initialize normalized Q network Q(x,u|θQ).

0 Q0 Q

Initialize target network Q with weight θ ← θ .

Initialize replay buffer R ← ∅ and fictional buffer Rf ← ∅.

Initialize additional buffers B ← ∅,Bold ← ∅ with size nT.

Initialize fitted dynamics model M ← ∅.

for episode = 1,M do

Initialize a random process N for action exploration Receive initial observation state x1

Select µ0(x,t) from {µ(x|θµ),πtiLQG(ut|xt)} with probabilities {p,1 − p} for t = 1,T do

Select action ut = µ0(xt,t)+ Nt

Execute ut and observe rt and xt+1

Store transition (xt,ut,rt,xt+1,t) in R and B

if mod (episode · T + t,m) = 0 and M 6= ∅ then

Sample m (xi,ui,ri,xi+1,i) from Bold

Use M to simulate l steps from each sample

Store all fictional transitions in Rf end if

Sample a random minibatch of m transitions I · l times

0 from Rf and I times from R, and update θQ,θQ as in

Algorithm 1 per minibatch.

end for if Bf is full then

M ← FitLocalLinearDynamics(Bf) (see Section 5.3)

OneStep(Bf,M) (see appendix)

old ← f f

end if

end for

当模型不准确的时候，想象推出可能发生严重的偏差。例如，我们发现很难训练非线性神经网络模型用于想象推出时实际上会提高Q-learning效率。如在以下部分讨论的，我们发现，使用迭代改装时变线性动力学产生基本上更好的结果。在这两种情况下，我们仍想保留自由模式-强化学习的通用性和最优而推导基于模型的学习的好处。为达到此目的，我们观察到大多数基于模型的学习的益处的推导在学习过程中的早期阶段，当由神经网络Q函数诱导策略较差。作为上述Q函数变得更准确，对策略的行为往往胜过基于模型的控制器。因此，我们建议的迭代的给定数后的想象推广关掉。在此框架下，想象力首次展示可被认为是一种廉价的方式Q函数，例如，使用真实世界体验的微调可以快速收敛到最佳解决方案。

5.3.拟合动力学模型

为了获得良好的想象推广和提高Q-learning效率，我们需要使用有效的和数据有效的模型的学习算法。虽然以前的方法提出了各种模型类，包括神经网络（Heess et al., 2015），高斯过程（Deisenroth & Rasmussen, 2011），并在本地加权回归（Atkeson et al., 1997），我们发现可以通过使用迭代改装随时间变化的线性模型 Levine & Abbeel（2014），取得良好的效果。在这种方法中，不是所有人学习状态和动作一个良好的全球模式，只求获得各地最新的一组样本的一个很好的局部模型。这种方法需要一些额外的假设：即它要求初始状态是确定性或低方差高斯，它需要的状态和操作全部是连续的。为了处理与更多样化的初始状态域，我们可以用与每一个单独的时变线性模型高斯初始状态的混合物。该模型本身是由pt(xt+1|xt,ut) = N(Ft[xt;ut]+ft,Nt)。每个n，我们通过拟合在每个时间步到载体中，其中i表示采样索引高斯分布改装Ft, ft,和Nt，和调理此高斯上[xt;ut]，得到的参数线性动态高斯在这一步。我们使用在我们的实验n = 5。虽然这种方法引入了超越标准模型无关强化学习设置额外的假设，我们显示在我们的评价，它产生在对任务样本效率可观的收益，其中它可以应用。

6.实验

我们评估对使用MuJoCo模拟器一套模拟机器人的任务我们的方法(Todorov et al., 2012)。任务是根据描述的基准Lillicrap et al. (2016). 虽然我们试图尽可能接近在重复以前的工作任务成为可能，在模拟器参数和接触模型的差异产生了不同于以前的工作报道稍有偏差的结果。在所有实验中，将输入到该策略包括该系统的状态，在关节角度和根连杆位置来定义的。通常转换为正弦和余弦编码。我们假设奖励功能，并给出不识字的基于模型的经验。

我们的方法和现有DDPG (Lillicrap et al., 2016) 算法的比较, 我们采用神经网络与200整流线性单位两层(ReLU) 以产生每个输出参数的Q函数和策略在DDPG，并且该值函数V，优点矩阵L，对NAF均值μ。由于Q-learning用重复缓冲完成后，每个应用的经验，每一步Q-learning更新5次，以加快学习（I =5）。为了确保公平的比较，也DDPG更新Q-功能和策略两个参数每步的5倍。

6.1. 标准化的优势函数

在本节中，我们从Lillicrap et al. (2016)10个有代表性的领域比较NAF和DDPG。有另外三个领域：四条腿的3D蚂蚁，六端2D游泳和者2D PEG（参见任务域的说明的附录）。我们发现最敏感的超参数是存在或不存在批规范化，基地学习速率为ADAM（金玛＆BA，2014年）∈{1E-4,1e-3,1e-2}，探索噪音规模∈{0.1， 0.3,1.0}。我们报告每个域的最佳性能。我们无法实现与Rawlik et al. (2013)等人的方法了良好的效果。在我们的领域，有可能是由于在高维神经网络函数逼近的复杂性。

图1b, 图 1c, 和在附录中附加的数字显示在三关节研究，并与移动基站夹持器的性能。而在研究数值间隙可以是小的，定性也有NAF和DDPG之间一个非常明显的差别。 DDPG收敛到一个解决方案，其中所述确定性策略导致的尖端到目标周围连续地波动，并且不准确能实现。 NAF，另一方面，得知平滑策略使尖端减速并在目标稳定。这种差异是在塞销的插入和移动夹持器更明显，如由快得多的收敛速度的最优解。精度是在许多现实世界机器人任务中非常重要的，并且这些结果表明，NAF可以以这样的域是优选的。

运动的任务，这两种方法的性能比较相似。在六联任务的游泳者和四条腿的蚂蚁，NAF略优于DDPG在收敛速度方面;然而，DDPG是猎豹速度更快，在找到一个2d更好的策略。在NAF性能的损失可能会通过模式寻求行为，它是努力探索其他方式，一旦二次优势函数找到一个很好的的缺点来解释。选择一个参数形式，是更有表现比二次可以用来解决未来工作此限制。

左中右分别是a,b,c图：(a) Example task domains. (b) NAF and DDPG on multi-target reacher. (c) NAF and DDPG on peg insertion.

图 1. (a) Task domains: top row from left (manipulation tasks: peg, gripper, mobile gripper), bottom row from left (locomotion tasks: cheetah, swimmer6, ant). (b,c) NAF vs DDPG results on three-joint reacher and peg insertion. On reacher, the DDPG policy continuously fluctuates the tip around the target, while NAF stabilizes well at the target.

表1. Best test rewards of DDPG and NAF policies, and the episodes it requires to reach within 5% of the best value. “-” denotes scores by a random agent.

6.2. 基于真实模型的评估最佳基于模型的改进

为了确定如何最好地将基于模型的组件来加速无模型Q-learning，我们测试使用地面实况动力学，以控制由于模型拟合挑战的若干方法。我们评估两者的第5节中讨论的方法：利用基于模型的规划以生成在现实世界中良好脱策略的推出，并利用该模型，以产生符合策略合成的推出。

图2a示出在三关节研究混合脱策略iLQG经验和想象推广的效果。值得注意的是，混合好关策略经验并不显著提高数据效率，而想象推出总是提高数据效率和最终性能显著。在Q-learning的情况下，这样结果并不令人惊奇: Q-lerning必须以确定哪些行动经验者优先好的和坏的行动, 而良好的基于模型的推出是从策略学习的初期阶段，到目前为止除去它们提供很少的有用。信息图2a还评估了想象推广方法，其中，在现实世界中的首次展示利用学习策略，或者使用基于模型的规划与iLQG执行以下两种不同的变体。在这个任务的情况下，iLQG的推出取得稍微好一点的结果，因为上策略的推出想象力围绕这些离策略规定取样提供关于不采取iLQG规划者交替作用的更多信息Q-learning。一般情况下，我们没有发现，离策略的推出始终高于在所有任务上的推出的策略更好，但他们没有始终如一地产生良好的效果。执行了策略的推出与iLQG可能在现实世界领域，其中部分策略了解到可能采取不良或危险的行为不可取。在附录中提供了这些实验的进一步细节。

6.3.合理动量引导想象推广

在本节中，我们评估了已学得想象推广的性能。正如图2b所示，我们发现，继推出想象力拟合算法时变线性模型实际上比拟合神经网络的动态模型，我们考虑的任务更好。有效率的学习和表现力的模型，如神经网络之间的根本性的紧张关系。我们不能指望学到有用的神经网络模型用少量的样本进行复杂的任务，这使得它很难获得具有较少的样本一个很好的模型。而模型用监督学习，这是典型的多样本有效的训练，它常常需要表示一个更复杂的函数(如: 刚体物理)。然而，有这样的表现模式，因为我们向前来提高模型的准确性是比较关键的。图2b呈现结果时，与想象推广结合了比较真实的动态拟合神经网络模型。这些结果表明，

所学习的神经网络模型否定对我们的网域的想象推广的好处。

图 2. Results on NAF with iLQG-guided exploration and imagination rollouts (a) using true dynamics (b,c) using fitted dynamics. “ImR” denotes using the imagination rollout with l = 10 steps on the reacher and l = 5 steps on the gripper. “iLQG-x” indicates mixing x fraction of iLQG episodes. Fitted dynamics uses time-varying linear models with sample size n = 5, except “-NN” which fits a neural network to global dynamics。

为了评估想象推广与装时变非线性动力学，我们选择了两个操作任务单目标的变种：单一研究和单一目标抓取任务，结果示于图2b和2c。我们发现，想象长度为5〜10的推广足以为这些任务，实现以上NAF的完全模型无关变量显著改善。

添加想象推广在这些领域中提供的数据效率提高2-5因素。为了留住模型无关学习的好处，并让策略继续改善，一旦超过了解到模式下的质量有可能，我们关掉后的夹具域130（20,000步）的想象推广。这就产生了策略的性能小短暂下降，但结果再次迅速提高。切断想象推广也确保Q-learning不发散达到良好的值后，如在夹持器被经常观察。这表明，在上一节中所讨论的偏离策略勘探相比之下，想象推广是引导无模型深强化学习的有效方法。

应当指出的是，虽然随时间变化的线性模型与想象组合推广提供在样本效率大幅提升，这种改善是在一般性的某些成本提供，由于随时间变化的线性模型的有效配合，需要相对较小的初始状态分布。随着越来越多的复杂的初始状态分布，我们可以聚集轨迹来适应多种模型解释不同的模式。延长的时间变化的线性模型来限制较少的设置是一个有前途的方向的利益和建立在以前的工作(Levine et al., 2016; Fu et al., 2015). 这就是说，我们的结果结合正确的那种动力学模型相结合来加速模型无关学习是非常有前途的。

7.讨论

我们在文中探索了几种方法，提高模型无关的深度强化学习的样本使用效率。我们首先提出了一种方法，把标准Q-learning方法应用于高维、连续领域，并使用了归一化优势函数 (NAF) 表示。这让我们能够简化更常见的 actor-critic 式算法，同时保留非线性价值函数逼近器的好处。与近年提出的深度 actor-critic 算法相比，我们的方法常常学得更快，能获得更准确的策略。我们进一步探索了模型无关的强化学习如何能通过整合已学到的模型而获得加速，并不需要在面临不完美模型学习时牺牲策略优化方面的代价。尽管Q-learning能包含离策略经验，（通过基于模型的规划）从离策略探索中学习只在极少情况下提高了算法的总体样本使用率。我们假定原因是为了获取对Q-function的准确估计，需要同时观察成功和不成功的行动。另一种基于综合在策略 rollout 的替代方法能显著改善样本复杂度。我们表明，训练神经网络模型并不能在我们的这一领域中取得实质性改善，而就让随时间变化的线性模型反复再适应，却能在它们所应用的领域中带来显著的提高。

致谢

在此，我们想感谢Nicholas Heess先生提供意见，以及Tom Erez、Yuval Tassa、Vincent Vanhoucke 和Google Brain、DeepMind团队给予的支持。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-07-08，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能

本文分享自 AI科技评论微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

人工智能

登录后参与评论

0 条评论

热度

DeepMind和剑桥、普朗克研究所共同论文：基于模型加速的连续深度Q-learning方法

DeepMind和剑桥、普朗克研究所共同论文：基于模型加速的连续深度Q-learning方法

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐