首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器人思维必将为深度学习带来新的前沿突破

深度学习已经发展到我们看到计算机做几年前被认为是科幻小说的事情。语言翻译、图像字幕、图片生成和面部识别等领域已经展示了由深度学习促进的重大进展。

但是某些人工智能问题与深度学习的传统训练算法不相符,这些领域可能需要新的思维方式。神经网络通过在适当解决方向上采取微小步骤来学习。这意味着神经网络导航的路径 - 称为损失函数 ,需要相对平滑。但是许多现实生活中的情况并没有提供与神经网络所需的连续损失函数相近的任何东西。

例如,自然语言处理(NLP)带来许多挑战,这些挑战无法通过传统的机器学习梯度下降来解决。假设我们希望AI系统将文本重写为更优雅的形式,并且假设"语言有效性分数"衡量句子的清晰,简洁和优美程度。

下图显示了两个传达相同意图的句子,但是一个句子比另一个好得多。我们希望我们的NLP书写系统能够将文本1转换为文本2,从而将我们的语言分数从0.9提高到1.4。

训练神经网络很难实现这一目标,因为从一个文本到另一个文本没有明确的路径:大多数损失函数是不确定的,因为在0.9和1.4的分数之间几乎没有有效的句子 。

如果我们能让我们的系统用语言进行实验并探索人类没有想到的新的可能性呢?这就像机器人这样的智能代理人在强化学习(RL)方面受过训练,机器人最成功的学习技术可以用在像NLP这样的领域。

深度强化学习

深度学习使用大型多层神经网络来分析世界上观察到的复杂模式。强化学习是一种机器学习,其中智能系统通过探索其世界并从其环境接收的反馈来学习完成任务。

深度强化学习(深度RL)将深度神经网络与机器人式冒险结合起来,我们刚刚开始意识到,这可能是一种强有力的组合。

强化学习的基础知识

RL中的“节目明星”是代理人,它在一个状态观察自己并在其环境中采取行动。每当代理人采取行动或拒绝采取行动时,环境都会向代理人提供奖励以及新状态。此过程无限期地重复或直到代理达到终端状态。

这描述了无模型RL,因为代理与其环境直接交互。在基于模型的RL中,存在单独的实体(模型),其从环境接收奖励信号和更新状态。该模型试图尽可能多地了解其世界,以便它能够向代理传达准确的反馈,代理现在正在与模型而不是环境进行交流。

有时模型是事先知道的,例如通过自然法则或游戏中的规则。其他时候,基于模型的RL可能难以实现,因为对复杂,不可预测的世界进行建模并不容易。但是如果使用这样的模型是可行的,它可以减轻RL训练,因为通常模型可以向代理提供比代理直接从其周围环境接收的更易于理解的信息。

做决策

在这个深度学习的时代,神经网络似乎是最强大的竞争者。强化代理不太可能在可能遇到的每种可能情况下进行训练。深度神经网络非常善于从经验推广到他们以前从未见过的情境,这也是他们经常用于强化学习的一个原因。我们假设这里的方法是深度强化技术,因为它们都基于深度神经网络。

价值

代理可以做出决策的一种方式是估计它可能最终处于的每个状态的预期值。然后代理将选择将其置于具有最高预测值的状态的动作。

RL值经常打折权重来接近回报。这是因为我们通常更喜欢尽快得到奖励。此外,这种折扣推动了最不确定的奖励(未来发生的奖励)接近于零,从而抑制了可能阻碍强化学习的奖励的混乱变化。

这种基于价值的方法需要使用动态模型,该模型给出了从一种状态转换到另一种状态的概率。例如,在拥挤的仓库楼层,机器人可能会看到移动到特定位置的高价值,但过渡模型可能会说机器人不可能到达那里。相反,机器人可能会选择较低价值但距离更可靠的更近的目的地。

类似地,RL语言翻译器在编写特定单词时可能会看到很高的价值,但是它的过渡模型可能会说在不破坏语法规则的情况下,单词不能放在那个位置。

质量

Q-learning完成了价值学习之类的东西,但它不需要过渡模型。相反,它学会仅根据它可用的状态/动作组合来评估动作的质量。这些状态和操作已经对代理可见,因此代理只需要了解如何在不同的状态下对其操作进行评分。

此外,Q学习可以存储过去的剧集并重复使用它们来增强其学习效果。这类似于在监督学习中训练多个epoch。

Q学习的一个潜在缺点是它无法解决我们最终关心的目标。Q学习最小化了基于Bellman方程的误差项,并且很难说这与我们理想的训练误差有多么不同,后者将基于折扣奖励。

策略

一种非常直接的决策方法可以避免基于价值的方法的一些复杂性,而是直接关注策略。这消除了诸如值函数和Q函数之类的间接计算,并且它在代理的选择与其环境之间建立了不间断的连接。

策略梯度调整神经网络在正奖励方向上的权重,远离负面奖励。策略梯度法只需要数字作为输入,因此它可以处理不连续的奖励函数甚至奖励不可知的系统。策略梯度学习的每次迭代都是这样的:

1.让RL代理多次尝试其任务。(这些被称为RL中的轨迹而不是深度学习中的样本。)

2.对于每个轨迹,缓存与神经网络梯度一起接收的奖励,这将增加采取该动作的概率。

3.根据每条轨迹收到的奖励,创建步骤2中所有梯度的加权平均值。此加权平均值使用奖励的符号和幅度。例如,积极奖励使用具有原始符号的梯度,因为这是增加将来选择这些动作的机会的方向。相反,具有负奖励的轨迹将使其梯度乘以负数以降低这些动作的可能性。

4.基于步骤3得到的梯度执行神经网络权重的随机梯度更新。

这是一种REINFORCE算法,它增加了正奖励路径的概率,同时降低了负奖励轨迹的几率。这种方法不会改变路径,因此RL代理需要经历许多轨迹来评估它们。

这种方法很有用,因为它可以处理奖励函数无法通过神经网络近似的情况。另一方面,传统的监督学习需要一种可以优化选择采取的任何路径的损失函数。

我们仍然可以使用TensorFlow和PyTorch等深度学习库的自动区分函数。但是在传统的深度学习中,我们对损失函数所反映的结果采取梯度。在这里,我们采取关于行动概率的梯度,然后根据观察到的奖励组合这些梯度。

奖励和优势

强化技术可以为不适合深度学习的基于损失的梯度下降算法的问题创造机会。然而,这种好处是有代价的。强化方法通常非常嘈杂,因为奖励信号可能会波动很大,而真正提供信息的反馈很难获得。

因此,我们有很多想法可以转变奖励以实现更稳定的学习过程。上图的奖励术语通常被描述为优势 - 由A表示- 它包含已经过重新设计的奖励,以反映基线期望所获得的额外奖励。以下部分描述了可以修改奖励以使该学习算法更加健壮的一些方法。

重新缩放

如果奖励信号已经在合理的范围内,我们可以使用原始奖励来构建我们的梯度更新。但通常我们需要扩大奖励,例如除以标准偏差,以使学习过程更顺畅。

中心

除了重新调整奖励外,有些人还建议减去他们的平均值。这将使得高于平均水平的奖励在正方向上贡献他们的梯度,而奖励低于平均供应负梯度。

其他人说,这样做会将一些积极的回报转为负回报(反之亦然),这对训练代理人的决策政策是不利的。例如,如果所有奖励都是积极的,那么最好保持这种方式,并允许神经网络从较高的奖励而不是较低的奖励中学到更多。

时间

我们可以通过照顾奖励的时间结构来提高RL训练的清晰度。这意味着我们经常希望根据在该行动之后收到的奖励而不是整个行动轨迹的总奖励来为行动分配信用。

这是一个例子,说明如果在与奖励匹配的行动中有准确的信用分配,RL训练的工作方式会更好。

基线

我们可以通过创建一个优势函数来平滑观察到的奖励,该函数预测每个奖励与该情况的基线期望的差异。优势特征可以采用多种形式。例如,观察到的奖励的简单平均值可以是基线,而更复杂的方法使用基于贝尔曼方程的值函数。

如果我们确实使用值函数作为基线,则此策略梯度方法将成为一个演员-评论家方法。演员评论家RL系统使用观察到的奖励来训练单独的神经网络(评论家),然后向代理人(演员)提供奖励信号。评论家通过观察演员的决策如何导致环境分配奖励来改进其建模。

演员 - 评论家方法的一个优点是,评论家可以为演员提供奖励的广义估计,而不是让代理人通过实际奖励中的大量随机变化获得批评。

策略优化

策略梯度技术对于深度学习问题具有吸引力,其中损失函数是不连续的,在某些区域中是不确定的,或者是完全未知的。然而,这些方法有一些缺点。例如,一旦观察到的轨迹数据用于更新策略神经网络,则丢弃该数据。这是因为该信息来自先前策略所规定的操作,而不是更新后存在的神经网络。这称为政策学习,即政策是根据自己的行为进行训练的,并且在使用样本数据时效率低下。

策略梯度方法的另一个缺点是可能难以为策略更新选择步长。如果学习率太小,神经网络可能无法从可能罕见的积极结果中学到足够的知识。如果步长太大,则错误更新可能会创建推荐非生产性操作的策略,并且从其上收集的数据将毫无用处。

最近的进展试图保留政策梯度的优势,同时解决一些弱点。

深度强化学习

如果我们只能使用一次政策数据,我们是否有办法从这些信息中获取更多价值?一种选择是将简单策略梯度更新转换为优化。在给定可用信息的情况下,优化器可以更自由地调整神经网络权重以获得最佳解决方案。但是存在一个问题:当优化器看到积极的奖励时,它会尝试无限地向这个方向推动神经网络(而负面奖励则相反)。

信任区域策略优化(TRPO)将策略神经网络的更新更改为受限制的优化,以确保新策略不会偏离旧策略。我们的想法是,在一个接近当前政策的地区,我们会相信优化者会做出它认为必要的任何改变,以达到最佳政策。在此信任区域之外购买,我们希望限制优化器进行重大更改。

TRPO的创建者使用作为约束这种优化的一种方式。但是,实现这种方法所需的KL测量和其他技术为简单的策略梯度更新增加了很多复杂性。

近端策略优化

TRPO的后继者是近端策略优化(PPO),它还使用优化从有限数据中提取尽可能多的实用程序。与TRPO的约束优化相反,PPO使用两个简单的计算机操作 - 最小和剪辑功能 - 来确保新的优化策略与前一个策略没有太大的不同。

对目标函数的这些简单修改通过确保优化器在远离我们几乎可以保证改进策略的区域中看不到任何优势来有效地约束优化。

结果是我们在代理商政策训练方面增加了一些复杂性,但我们避免了TRPO的复杂优化程序。

像PPO这样的创新可以使强化学习的优势——如其强大性和探索性,更适用于不适合标准监督学习的问题。

勘探

RL的核心是探索的概念,它允许RL代理人执行可能无法提供最佳即时奖励的行动,但这可能为未来更高的奖励创造可能性。

基本的勘探政策叫做epsilon-greedy(ε-greedy)。这是当代理人主要采取具有最高期望值的行动时,偶尔(具有ε的概率)探索随机行动。

这种ε-greedy的探索可以逐渐减少,以便当代理人体验到大多数有用的状态时随机动作的概率随着时间而减少。

RL探索的另一个哲学是面对不确定性的乐观主义,它鼓励代理人执行其估计价值具有更多不可预测性的行为。随着代理人对哪些行为导致高回报更加确定,这种探索政策将会减少。

新的前沿

RL研究正在以惊人的速度发展,这里有一些关键趋势值得关注。

层次结构

有史以来最成功的神经网络架构之一是LSTM受到关注。过去,机器学习语言翻译通常是通过首先使用神经网络将句子编码为数字集合来完成的。然后,第二神经网络将这些数字解码为目标语言的句子。

但是,期望1,024个数字的向量可以包含它可能遇到的任何句子的所有语言信息是不现实的。LSTM引起注意的是一个反复出现的神经网络,它能够在文本中通过文本时一次关注几个单词。

RL有一个类似的概念,称为分层强化学习,它将复杂的任务划分为由主策略组织的专用子策略。这可以使RL系统实现过于复杂而无法通过单一策略实现的目标。

从事后学习

训练RL代理的主要挑战之一是,如果代理只是通过随机行为进行自我探索,那么代理可能很少能够成功完成任务。加快学习速度的一种方法是事后体验重播,它会追溯性地改变代理人的目标以匹配实际所做的事情。

例如,如果我们告诉代理人以威廉·莎士比亚的风格创建对话,但是它反而从JK罗琳那里写了一些内容,我们可以通过改变原始指令并将行为评估为积极的轨迹,将此失败变成有价值的训练样本。

这是处理强化学习稀疏奖励的一种方法。这种方法在任何可以找到它的地方取得成功,并训练RL代理从这些例子中学习。

通过模仿学习

代理通过奖励来学习,奖励向智能RL系统提供关于哪些动作在特定设置中最佳的反馈。但是在某种情况下,几乎不可能构建一致的奖励函数。一个例子是前面描述的假设语言评估分数:语言是一门艺术,并且很难创建一个可以对写作风格的所有可能变化进行评分的功能。

一个有趣的选择是逆强化学习,其中RL神经网络通过观察专家示例来学习哪些动作是可取的。通过这种方式,RL系统创建了一个复杂的奖励函数,然后它可以用来评估自己开始行动时的行为。

这方面的例子可能是有人移动机器人的手臂以展示如何堆叠餐具,或者给出RL文本系统高质量书写的例子。

通过实例训练的一种方法可以是将生成对抗网络(GAN)纳入强化学习。

GAN由两个神经网络组成:一个生成逼真信息的生成器和一个鉴别器,它试图区分生成器的假数据和真实数据集。

在GAN模仿学习中:

· 真实数据包括专家行为。

· 生成器是一个RL代理,试图像专家一样行事。

· 鉴别器是学习的奖励函数,其判断代理人的行为是否与专家的行为无法区分。

将GAN纳入强化学习可能是一种在RL代理开始自己的探索之前为其提供大量智能的方法。

通过模拟学习

代理人可能需要数百,数千或数百万次尝试才能创建成功的操作序列。加快此过程的一种方法是让代理探索模拟环境。这方面的一个例子是Unity将其3D游戏引擎应用于自动车辆仿真的努力。

模拟程序允许RL演员在安全的环境中探索新的可能性。而且,这些模拟不必对人类经历的挂钟时间起作用。相反,它们可以在加速的模拟器时间运行,甚至可以通过并行计算来支持。因此,模拟器可以在短时间内为RL代理提供无数的实验轨迹,极大地促进了代理尝试学习困难任务的尝试。

在某些情况下,这些模拟器可以证明与强化学习背后的数学一样有价值,我们可以期待看到大型行业的发展致力于创建真实的学习环境。

进化方法

使深度RL如此吸引人的事情之一是我们不必在输入和损失函数之间有连续的导数。对于一些困难的问题,我们可能希望比政策梯度方法更进一步,并且在没有任何梯度计算的情况下训练RL代理。

无衍生优化和进化方法允许RL代理纯粹通过反复试验来学习,而无需对其策略神经网络进行任何数学评估。例如,在一种方法中,RL代理的策略参数是从多变量分布中随机抽取的,并且最佳执行结果用于调整此分布的属性。多次重复此过程可以导致神经网络权重的分布,从而提供有效的策略。

这种演化方法的一个缺点是,它可能需要比基于梯度的方法更多的样本轨迹,以便代理学习成功的策略。因此,这些演化技术可能最适合具有非常逼真和高效模拟的环境。

结论

人工智能包括一系列领域,如机器学习,深度学习,机器人,自然语言处理和许多其他专业。每个区域都使用自己的技术和术语解决具有挑战性的问题,有时与AI领域的其他活动隔离开来。

寻找合并跨学科的开发技术的方法可以为我们已经看到的更快的AI开发铺平道路。一个有希望的途径是将类似机器人的探索应用于不太适合标准深度学习训练算法的任务。在这样的情况下,强化学习发现方法可以使深度学习系统获得难以用在物体识别等其他领域中有用的技术训练的技能。

强化学习有许多品质可以帮助我们找到解决复杂挑战的方法。机器人学习如何站立,走路,跑步和移动箱子。如果他们能够自己做到这一点,我们当然可以使用机器人式学习来完成人类语言等领域的伟大事业。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190515A04R2U00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券