关于强化学习(1)

来源于Simple statistical gradient-following algorithms for connectionist reinforcement learning

0. 概述

该文章提出了一个关于联合强化学习算法的广泛的类别, 针对包含随机单元的有连接的网络, 这些算法, 称之为强化算法, 看上去像是沿着某个方向对权重进行调整, 依赖于期望强化的梯度, 比如在即时强化的任务中和确定受限的延迟强化形式的任务中, 不用显式地计算梯度估计甚至存储这些计算这种估计的信息. 会给出这种算法的具体例子, 有一些和现存的确定的算法有很近的联系, 有些是新颖的但是却可能由于其正确性比较有趣. 当然也给出了一些展现怎样一个算法能够被自然地和反向传播(Back propagation)集成的结果. 文章以一个由关于这个算法的使用的一系列额外问题组成的简短的讨论而结束, 包括那些是已知的关于受限制的特性以及更远的可能可以用来帮助开发相似的但是潜在更强的强化学习算法的考虑.

1. 介绍

强化学习的一个通用的框架包含许多问题来自许多在一个极端去学习控制其他的函数优化, 在这些独立的领域的研究趋向于去分析不同的独立的问题集合, 这就像是对于自动化agent在现实环境下的操作的一个有效的强化学习技术将不得不联合解决所有的这些问题. 然而仍然存在有用的关注于强化学习问题的受限的形式的研究策略来简化使得问题易于处理. 重要的是对于大多数有挑战的问题的结果将会可能需要集成许多可应用的技术.

在这篇文章中, 我们提出了对于确定的相关任务的算法的分析性结果, 意味着学习者只需要表现输入输出映射, 并且, 有一个额外的限制性, 即, 包含即时的强化, 也就是被提供给学习者的强化只通过大多数输入输出对来进行确定.

当然, 延迟性的强化也是很重要的, 之后受到了应有的关注, 一个广泛使用的来开发应对这样的任务的算法的方法, 即将一个即时强化学习者和一个自适应预测者或者基于Sutton提出来的时间差分法的批评者(critic), 这个"actor-critic"算法, Barto, Sutton和Anderson都有研究, Sutton将其格式变得清晰, 比如Watkins的Q-learning算法

一个更远的假设是学习者的搜索行为, 通常是一个对于任意形式的强化学习算法来说必要的部分, 通过学习者随机性的输入和输出来提供. 这里有一个通用的方法来实现期望的搜索行为, 值得注意的是其他的策略有时候在特定的案例里面有效, 包括系统化搜索(systematic search)或者明显的最优选择的连续选择(consistent selection). 后面的策略当选择动作的女神由估计那些是过度乐观以及哪些在连续的经验下变得更加现实起作用, 比如Nilsson的A*搜索.

另外, 所有的结果将会通过有连接的网络被再次制定, 主要关注点为跟从或者估计相关梯度的算法. 当然这样的算法我们知道通常会有一些限制, 这也是它们的研究是有用的原因. 首先, 作为反向传播的经验, 这个梯度看上去对于生成算法来说提供了一个有力的和富有启发性基础, 并且是易于实现的和在某些情况下效果很好. 其次, 当需要更为复杂的算法的时候, 梯度计算通常作为这样的算法的核心. 当然, 对于已有的确定算法的范围类似产生这样一个梯度分析的算法, 我们对于他们的理解可能增强了.

另一个这里所提出的算法的有区别的特征是, 它们能够被概略地描述为统计意义上的攀爬一个合适的梯度, 它们设法不用显式地计算一个梯度估计或者存储这些能够被直接计算的信息. 这就是为什么它们被称之为simple的原因. 可能一个更具信息化的形容词为无模型基础的(non-model-based), 则会在文章后期进行讨论.

2. 连接形网络的强化学习

这里给出部分符号的解释

: 增强信号

: 是一个输入向量,

: 是一个值, 代表第

个输出单元的值

: 权值矩阵, 类似NN里面的边的权值

: 权值向量, 即

对于每一个

, 我们定义

,

是一个概率质量函数, 所谓概率质量函数即离散的概率密度函数.

质量函数的数学定义为, 假设

是一个定义在可数样本空间

上的离散随机变量

,则其概率质量函数

连续自然就变成概率密度函数,

包含所有的跟第

个单元的相关的输入输出行为的参数, 一个更为准确的定义为

我们知道一来一回类似神经网络的BP训练, 那么强化学习之中, 在新的输入之前, 前一步的输入之后, 称一个时间步, 我们主要关注每个时间步的细节.

我们定义一个随机半线性单元, 即输出是

, 由给定的概率分布得到, 其概率质量函数为

其中

可微的压缩映射, 并且有:

一个特殊的随机半线性单元是一个伯努利半线性单元, 即

是一个随机的伯努利变量, 参数是

, 输出要么是0, 要么是1. 即

以及

, 因此给出该单元的形式

玻尔兹曼机就是用的上述类型的单元

关于压缩映射, 可以使用我们熟悉的logistics函数

与上述单元结合起来, 称之为伯努利-逻辑斯蒂单元

特别地, 假设一个单元这样来计算它的输出:

其中

是依据给定的分布

随机产生 利用伯努利半线性单元的定义, 我们发现

image

如果

可微, 则其压缩映射可以为

3. 期望的强化性能标准

这里给出了一些衡量强化的指标, 对于一个强化学习网络来说, 我们的性能测量为

, 其中

是期望,

是强化信号,

是网络的权值矩阵.

我们需要使用期望值是因为潜在的随机性:

  • 对于网络来说, 输入的环境的选择
  • 输出的网络的选择对应任意特定的输入
  • 环境的强化值的选择, 对于特定的输入输出对

注意到,

独立于时间的才有意义, 我们的目标就是找到

, 使得

最大化.

4. 强化算法

我们定义权值在强化学习里面的改变如下所示:

其中

学习率因子,

强化的基准(baseline), 并且有

假设

条件独立于

以及非负的

, 主要依赖于

, 任何具有上述形式的算法都称之为一个强化算法(REINFORCE Algorithm)

其实这个名字是缩写, 即"REward Increment = Nonnegative Factor times Offset Reinforcement times Characteristic Eligibility"

定理1

对于任意的REINFORCE算法,

的内积是非负的, 更进一步, 如果

, 那么当仅当

, 内积才为0, 如果

是和

独立的话, 有

,

我们上面所提及的

是性能度量在权值空间上的梯度,

为权值空间的平均更新向量, 对于任意的REINFORCE算法来说.

特别地, 这意味着对于任意的这样的算法, 在权值空间上的平均更新向量在这个性能指标增长的方向上, 该定理的最后一句, 等价于对于每一个权值

, 有

这个是对

的无偏估计

我们利用伯努利单元来试着计算, 对于伯努利单元呢, 参数只有

, 我们可以算出

进而得到

我们取

得到

伯努利单元十分简单, 现在我们考虑伯努利半线性单元 利用链式法则, 可以得到

如果是logistic函数, 注意到其性质:

故上式可以转化为

可以得到

我们可以和关联反馈-处罚算法(associative reward-penalty)比较一下, 这里给出他们的格式

其中

, 如果

, 则变为关联反馈迟钝算法(associative reward-inaction)

Sutton提出了另一种策略

其中

类似指数平滑的策略

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

当我们说数据挖掘的时候我们在说什么

现在市面上谈论到的数据挖掘基本上都是基于统计学习的监督学习或非监督学习问题。尤其以监督学习应用面更广。

882
来自专栏AI科技评论

学界 | 清华大学计算机系朱军教授:机器学习里的贝叶斯基本理论、模型和算法

AI科技评论按: 3月3日,中国人工智能学会AIDL第二期【人工智能前沿讲习班】在北京中科院自动化所举行,本期讲习班的主题为【机器学习前沿】。周志华教授担任学术...

54014
来自专栏机器之心

学界 | Adobe提出深度抠图:利用卷积网络分离图像前景与背景

选自arXiv 机器之心编译 参与:蒋思源 抠图,一直是一件体力活,它需要大量的操作与时间。而传统抠图算法主要是以色彩为特征分离前景与背景,并在小数据集上完成,...

42411
来自专栏AI科技评论

微软IJCAI2016演讲PPT:深度学习在语音识别上不再难有用武之地

微软研究院在IJCAI2016第一天的Tutorial上讲述了自己将深度学习、深度神经网络应用于语义理解上的一些经验和收获。作为小娜和小冰的开发者,微软在自然预...

45212
来自专栏机器之心

观点 | 增加深度,加速神经网络优化?这是一份反直觉的实验结果

选自offconvex 作者:Nadav Cohen 机器之心编译 参与:晏奇、黄小天 深度学习的根本理论问题之一是「深度有何作用」?虽然增加神经网络的层数可...

3498
来自专栏人工智能头条

特征选择算法在微博应用中的演进历程

1853
来自专栏企鹅号快讯

如何利用深度学习识别千万张图片?

首先我们来谈一下什么是卷积神经网络,相信在深度学习中这是最重要的概念,首先你可以把卷积想象成一种混合信息的手段。想象一下装满信息的两个桶,我们把它们倒入一个桶中...

2425
来自专栏机器之心

盘点 | 机器学习入门算法:从线性模型到神经网络

选自Dataconomy 机器之心编译 参与:王宇欣、吴攀、蒋思源 近段时间以来,我们频频听到「机器学习(machine learning)」这个词(通常在预测...

36412
来自专栏专知

【深度学习最精炼详实干货中文讲义】复旦邱锡鹏老师《神经网络与深度学习》讲义报告分享01(附报告pdf下载)

【导读】复旦大学副教授、博士生导师、开源自然语言处理工具FudanNLP的主要开发者邱锡鹏(http://nlp.fudan.edu.cn/xpqiu/)老师撰...

4555
来自专栏新智元

MIT 研究“看见”神经网络形成概念过程,神经网络不全是黑箱

【新智元导读】MIT 新研究为解开深度神经网络黑箱迈出重要一步:今年的CVPR上,研究者提交一份新的研究,全自动分析了 ResNet,VGG-16,GoogLe...

3315

扫码关注云+社区

领取腾讯云代金券