【学术】强化学习系列(上):关于强化学习,你需要知道的重要知识点

强化学习是一个非常有用的工具,可以在任何机器学习工具包中使用。为了能使你能够尽可能快地实现最新的模型,本系列的两篇文章是作为基础知识来设计的。这两篇文章中将分享强化学习中最重要的知识点。在文章的最后,你将了解所有的基本理论,以理解强化学习算法是如何工作的。首先我们看看本系列的上半部分内容。

监督学习 VS 评估学习 对于许多感兴趣的问题,监督学习的范例并没有给我们带来我们所需要的灵活性。监督学习与强化学习之间的主要区别在于,所获得的反馈是否具有评估性(evaluative)或启发性(instructive)。有启发意义的反馈告诉你如何实现你的目标,而评估反馈则告诉你你的目标有多好。监督学习是基于有启发意义的反馈来解决问题的,而强化学习则是基于评估的反馈来解决问题的。图像分类是一个有启发反馈的监督问题;当算法试图对某一数据进行分类时,它会被告知真正的类是什么。另一方面,评估反馈只是告诉你你在实现目标方面做得多好。如果你用评估反馈训练一个分类器,你的分类器可能会说“我认为这是一只仓鼠”,作为回报,分类器将得到50分的反馈分数。我们也不清楚50分算是怎样程度,也许10000分是一个更棒的分数,但直到我们尝试对其他数据点进行分类之前,我们都不知道是否如此。

在许多问题中,评估反馈的想法更直观,更容易理解。例如,想象一个控制数据中心温度的系统。有启发性的反馈似乎没有多大意义,任何给定的时间步长中,你如何告诉你的算法在每个组件的正确设置是什么? 评估的反馈更有意义。因为你可以很容易地反馈数据,比如在某个时间段内使用了多少电,或者平均温度是多少。这实际上就是谷歌如何使用强化学习解决问题的办法。因此,让我们看看到底什么是强化学习。

马尔可夫决策过程 假定我们知道状态s,如果未来的状态条件不依赖于过去的状态,那么状态s符合马尔可夫属性。这意味着状态s描述了所有过去直至当前的状态。如果你还是不理解这个决策过程的话,那么通过一个示例就可以更容易地理解它:考虑一个球在空中飞行。如果它的状态s是由它的位置p和速度v决定的,那就足以描述它目前的位置和它将要去的地方(假设给定条件是一个物理模型,并且没有外部影响)。然而,如果我们只知道球的位置,而不知道它的速度,它的状态就不再是具有马尔可夫性。目前的状态并没有总结过去所有的状态,我们需要从之前的步骤中得到的信息来开始构建一个正确的球的模型。

强化学习通常被建模为马尔可夫决策过程,即MDP。MDP是一种有向图,它的节点和边缘描述了马尔可夫状态之间的过渡。这里有一个简单的例子:

上面这张图解释了马尔可夫决策的学习过程:一开始,你在“不理解”的状态中。从那里,你有两种可能的行为,“学习”或“不学习”。如果你选择“不学习”,你有100%的可能会回到“不理解”的状态。然而,如果你选择“学习”,你有20%的可能性回到你最初的“不理解”状态,但是有80%的机会最终进入“理解”状态。

实际上,我相信过渡到“理解”状态的几率要比80%高很多,马尔可夫决策的核心部分真的非常简单。从一个状态开始,你可以采取一系列的行动。在你采取行动之后,你可以决定在哪些状态下过渡到你的状态。在“不学习”行为的情况下,这种转变也很有可能是决定性的。

强化学习的目标是学习如何在更有价值的状态中花费更多的时间。要有一个有价值的状态,我们需要在马尔可夫决策中有更多的信息。

你不需要用一个马尔可夫决策教你“不吃东西”会让你“挨饿”。不过,强化学习agent可能会需要。

这个马尔可夫决策有附加的回报r。每次你向一个状态过渡时,你都会得到回报。在这个例子中,你会因为“饥饿”的状态而得到负面的回报,而对于“饿死”的人来说,这是一个巨大的负面回报。然而,如果你是“吃饱”的状态的话,你就会得到一个正面的回报。既然我们的马尔可夫决策已经完全成形了,我们就可以开始考虑如何采取行动来获得最大的回报!

因为马尔可夫决策很简单,我们很容易就能看到,当我们饿的时候,我们就可以在更高回报的地方吃东西。我们没有太多的选择,当我们在模型中的状态为“吃饱”的时候,我们就会有更多的选择,但是我们将不可避免地再次“挨饿”,并且接下来立即选择“吃东西”这种行为。

将强化学习问题正式化 现在我们有了许多我们需要的构建块,然后我们应该看看强化学习中使用的术语。最重要的组成是agent和环境。一个agent存在于某些有间接控制的环境中。通过回顾我们的马尔可夫决策,agent可以选择在给定状态下采取哪些操作,这对所看到的状态有很大的影响。但是,agent并不能完全控制环境的动态。因为环境在接收到这些动作后,会返回到新的状态和回报中。

上面这张图片是来自Sutton和Barto的“强化学习:介绍”这本书(强烈推荐),它解释了agent和环境的相互作用。在某一时时间步长中,agent在状态st中,并采取行动at。然后环境以新的状态st+1和回报rt+1进行响应。回报在t+1上的原因是因为它是在状态st+1的环境中返回的,所以让它们保持一致是有意义的(就像图像中显示的那样)。

结论 我们现在有了一个关于强化学习问题的框架,并且准备好开始考虑如何最大化我们的回报。在下一篇文章中,我们将学习状态值函数和动作值函数,以及贝尔曼方程,它为解决强化学习问题的算法奠定了基础。我们还将探索一些简单而有效的动态规划解决方案。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2017-11-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

如何区分数据科学家、数据工程师、统计学家和软件工程师

作者 Ronald van Loon 编译 Mika 本文为 CDA 数据分析师原创作品,转载需授权 观看更多国外公开课,点击"阅读原文" 谈到数据科学家、...

2768
来自专栏灯塔大数据

每周学点大数据 | No.59协同过滤模型(下)

NO.58 协同过滤模型(下) Mr. 王:是的,前面的那种加权平均的形式,我们是可以直接利用的,其中的量稍作修改即可: ? 此时式中,Sij 表示的是i 和...

3255
来自专栏数据科学与人工智能

【方向】开启您的数据科学方向

如果您对数据科学感兴趣,但不知道从何处开始,这边文章适合您。 ? 本文对数据科学众多方向进行简要描述,您不需要全部学习,只需要选择一个,从第一步开始执行,您将会...

3404
来自专栏PPV课数据科学社区

机器学习的必备条件不是数学而是...

编者按:2012年10月《哈佛商业周刊》上面发表了一篇专栏,文章称“数据科学家”是21世纪最最性感的工作。在美国,数据科学家的年收入已超过律师和医生,无怪乎有人...

3237
来自专栏鸿的学习笔记

Machine Learning at Quora(简要版)

自从我一年前加入Quora,我一直在谈论在这里的所有的非常有趣的关于机器学习的挑战。然而,当我上周参加并在MLConf发言时,我很惊讶,许多和我谈过的人仍然没有...

652
来自专栏机器之心

CVPR2018 | 直接建模视觉智能体?让「小狗」动起来~

选自arXiv 作者:Kiana Ehsani 等 机器之心编译 参与:Pedro、路 近日,来自华盛顿大学和艾伦人工智能研究所的研究者在 arXiv 上发布论...

3336
来自专栏量子位

在终端设备上实现语音识别:ARM开源了TensorFlow预训练模型

林鳞 编译整理 量子位 出品 | 公众号 QbitAI 关键词识别(Keyword Spotting,KWS)是语音识别领域的一个子领域,在用户在智能设备上进行...

3268
来自专栏新智元

【创造人类水平AI】Bengio 纵览深度学习前沿:从 GAN 到极深网络

【新智元导读】深度学习大牛 Yoshua Bengio 日前在 Beneficial AI 大会上发表题为《创造人类水平AI》的演讲,总结深度学习技术发展及问题...

3288
来自专栏人工智能头条

微软亚洲研究院:计算机看懂视频的步骤及未来努力方向

1142
来自专栏AI科技评论

大会 | 腾讯优图CVPR 2018论文:图片去模糊及快速肖像处理等多项技术解读

AI 科技评论按:CVPR 2018 将在美国盐湖城举行。腾讯优图实验室继在 ICCV 有 12 篇论文被收录(含 3 篇口头报告)后,在今年的 CVPR 20...

992

扫描关注云+社区