在开始强化学习前,你所需要了解的知识。

本译文自JOSHGREAVES发表在https://joshgreaves.com/Everything You Need to Know to Get Started in Reinforcement Learning。文中版权、图像代码等数据均归作者所有。为了本土化,翻译内容略作修改。

在这个由两部分组成的系列文章的最后,您将会了解理解强化学习算法如何工作所需的所有基本理论。

在两篇文章中,我将分享约85页强化学习教科书中最重要的内容。RL是任何机器学习从业人员工具包中非常有用的工具,这些帖子被设计为强化学习的基础,以便尽快实现最新的模型。当然,为了更彻底地处理这个问题,我建议你拿起Sutton和Barto的“强化学习:介绍”这本教科书,但是这篇文章会试图给强化学习背后的理论提供一个快速,直观的基础。

监督与评估学习

对于许多感兴趣的问题,监督式学习的范式并不能带给我们所需要的灵活性。监督学习与强化学习的主要区别在于所收到的反馈是  评价性还是  指导性的。 教学反馈告诉你  如何实现你的目标,而评估反馈告诉你如何你达到了你的目标。监督学习基于指导反馈解决问题,强化学习基于评估反馈解决问题。图像分类是带有指导性反馈的监督问题的例子; 当算法试图分类某一段数据时,会告诉它真正的类是什么。另一方面,评价反馈仅仅告诉你你在实现目标方面做得如何。如果您使用评估性反馈训练分类器,您的分类器可能会说“我认为这是一只仓鼠”,作为回报,它将得到50分。没有更多的背景,我们真的不知道50分是什么意思。我们需要做其他的分类和探索  找出我们的50分是否意味着我们是否准确。也许10,000是一个更可敬的分数,但我们只是不知道,直到我们试图分类一些其他的数据点。

两个金色的星星和一个笑脸猜测仓鼠。如果你猜沙鼠,你可以拥有一颗银星,半个竖起大拇指

在许多感兴趣的问题中,评估反馈的想法更加直观和易于理解。例如,设想一个控制数据中心温度的系统。有指导意义的反馈在这里似乎没有什么意义,你怎么告诉你的算法每个组件在任何给定时间步的正确设置?评估反馈更有意义。您可以轻松地反馈数据,例如某个时间段内使用了多少电量,或平均温度是多少,甚至有多少台机器过热。这实际上是谷歌如何解决这个问题,强化学习。所以让我们直接跳到它。

马尔可夫决策过程

一个状态s 据说是马尔可夫,如果来自该状态的未来在条件上独立于过去,那么我们知道  s。这意味着  s 描述直到当前状态的所有过去的状态。如果这样做没有多大意义,通过实例来看就容易多了。考虑一个飞行在空中的球。如果它的状态是它的位置和速度,那么足以描述它已经存在的位置和将要到达的位置(给定一个物理模型,并且没有外部影响)。因此,就具有了马尔可夫的属性。但是,如果我们只知道球的位置而不知道它的速度,那么它的状态就不再是马尔可夫了。目前的状态并不总结所有过去的状态,我们需要从上一个时间步骤的信息开始建立一个合适的球的模型。

强化学习通常被建模为马尔可夫决策过程(MDP)。MDP是一个有向图,它的节点和边描述了马尔可夫状态之间的转换。这是一个简单的例子:

用于学习MDP的简单MDP。

这个MDP显示了学习MDP的过程。起初你在国家  不明白。从那里,你有两个可能的行动,学习 或 不学习。如果你选择不学习,那么你有100%的机会回到  不了解 状态。但是,如果你学习,那么你有20%的机会最终回到你开始的地方,但有80%的机会结束了 理解 状态。

真的,我相信有一个转换到理解状态的概率高于80%的概率,MDP的核心是非常简单的。从一个州有一套你可以采取的行动。在你采取行动之后,你可以转换到什么状态。就像“ 不要研究” 行动一样,过渡也可能是确定性的。

强化学习的目标是学习如何在更有价值的状态上花费更多的时间。为了有一个有价值的状态,我们需要更多的信息在我们的MDP。

你不需要一个MDP教你不吃东西会使你饿死。不过,强化学习代理可能会。

这MDP有另外的  增加奖励。每次你进入一个状态,你都会得到奖励。在这个例子中,你会因饥饿而获得负面报酬,并会因为饥饿而获得巨大的负面报酬。如果你满了,你会得到一个积极的回报。现在我们的MDP已经完全形成了,我们就可以开始思考如何使行动获得最大的回报!

由于这个MDP非常简单,很容易看到,留在更高奖励区域的方式是每当我们饥饿的时候吃东西。我们没有太多的选择,当我们满足这个模式时,我们将不得不再次饿肚子,可以立即选择吃饭。与强化学习有关的问题有更多更复杂的MDP,而且我们往往不了解它们,而是需要从探索中学习  。

形式化强化学习问题

现在我们有很多我们需要的构件,我们应该看看RL中使用的术语。最重要的组成部分是  代理人和  环境。代理存在于间接控制的某个环境中。通过回顾我们的MDP,代理人可以选择在给定状态下采取哪种行动,这对其所看到的状态具有显着的影响。然而,代理并不完全控制环境的动态。环境在收到这些行动后,将返回新的状态和奖励

萨顿与巴托的形象 - 强化学习:引言

从萨顿和巴托的“强化学习:介绍”(强烈推荐)这本书中,我们可以很好地解释这种情况。 在某个时间步骤t,代理处于状态st,并采取行动。 环境然后以新的状态st + 1和奖励rt + 1作出响应。 奖励是在t + 1的原因是因为它是随着t + 1状态的环境而返回的,所以把它们保持在一起是有意义的(如图中所示)。

结论

我们现在有一个强化学习问题的框架,并准备开始考虑如何最大化我们的奖励。在下一篇文章中,我们将学习状态值函数和动作值函数,以及为解决强化学习问题的算法奠定基础的Bellman方程。我们还将探索一些简单而有效的动态编程解决方案。如果你想听到不同的解释,或想深入探讨这个问题,我建议David Silver的Youtube系列强化学习系列,以及Sutton和Barto的“强化学习:一个介绍”一书。谢谢阅读!在这里查看第二部分。

原文链接:https://joshgreaves.com/reinforcement-learning/introduction-to-reinforcement-learning/

原文作者:JOSHGREAVES

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

纽约大学《机器学习入门》课程讲义(附PDF下载)

允中 编译整理 量子位 出品 | 公众号 QbitAI 今年春天,Kyunghyun Cho开始在纽约大学教授本科生《机器学习入门》课程。今天,他把这门课程的讲...

3476
来自专栏机器人网

智能机器人语音识别技术

语音控制的基础就是语音识别技术,可以是特定人或者非特定人的。非特定人的应用更为广泛,对于用户而言不用训练,因此也更加方便。语音识别可以分为孤立词识别,连接词识别...

4605
来自专栏鸿的学习笔记

深度神经网络的实践效果分析

由于深度神经网络(DNN)作为计算机视觉领域的突出技术的出现,ImageNet分类在推进最新技术方面发挥了重要作用。 虽然准确度在稳定增加,但获胜模型的资源利用...

641
来自专栏机器之心

懒人福利:不写代码调优深度模型,谷歌开源的「What-If」了解一下

构建有效的机器学习系统意味着要问许多问题。仅仅训练一个模型放在那儿是不够的。优秀的从业者就像侦探一样,总是试图更好地理解自己的模型:对数据点的改动对模型的预测能...

633
来自专栏AI科技大本营的专栏

资源 | MIT开放最新课程:深度学习导论

【AI科技大本营编者按】假期到来,还在想如何给自己充电吗?麻省理工学院开放了1月29日-2月2日关于“深度学习算法及其应用的入门课程”。据课程描述显示:深度学习...

3977
来自专栏机器之心

学界 | UCSB提出变分知识图谱推理:在KG中引入变分推理框架

选自arXiv 作者:Wenhu Chen等 机器之心编译 参与:张楚、思源 推理知识图谱中缺失的连接已经吸引了研究界的广泛关注。在本论文中,加州大学圣塔芭芭拉...

3796
来自专栏AI科技大本营的专栏

周末漫谈 | 如何评价 DeepMind 新提出的关系网络(Relation Network)?

本周话题 过去两周,Google旗下的DeepMind颇为引人瞩目,开发出了适用于关系推理的人工神经网络,从而让机器具备推理、理解不同物体之间错综复杂关系的能力...

4936
来自专栏AI科技大本营的专栏

“史上最强”BigGAN公开TensorFlow Hub demo!

还记得前些日子轰动一时的 BigGAN 模型吗?生成对抗网络(GAN)作为当前最热门的技术之一,最近在图像生成方面的成果颇受人关注。近日,由 DeepMind ...

712
来自专栏QQ大数据团队的专栏

神盾推荐——MAB算法应用总结

3354
来自专栏机器之心

资源 | 《深度学习》中译版读书笔记:GitHub项目等你来Fork&Commit

3585

扫码关注云+社区