在开始强化学习前,你所需要了解的知识。

本译文自JOSHGREAVES发表在https://joshgreaves.com/Everything You Need to Know to Get Started in Reinforcement Learning。文中版权、图像代码等数据均归作者所有。为了本土化,翻译内容略作修改。

在这个由两部分组成的系列文章的最后,您将会了解理解强化学习算法如何工作所需的所有基本理论。

在两篇文章中,我将分享约85页强化学习教科书中最重要的内容。RL是任何机器学习从业人员工具包中非常有用的工具,这些帖子被设计为强化学习的基础,以便尽快实现最新的模型。当然,为了更彻底地处理这个问题,我建议你拿起Sutton和Barto的“强化学习:介绍”这本教科书,但是这篇文章会试图给强化学习背后的理论提供一个快速,直观的基础。

监督与评估学习

对于许多感兴趣的问题,监督式学习的范式并不能带给我们所需要的灵活性。监督学习与强化学习的主要区别在于所收到的反馈是  评价性还是  指导性的。 教学反馈告诉你  如何实现你的目标,而评估反馈告诉你如何你达到了你的目标。监督学习基于指导反馈解决问题,强化学习基于评估反馈解决问题。图像分类是带有指导性反馈的监督问题的例子; 当算法试图分类某一段数据时,会告诉它真正的类是什么。另一方面,评价反馈仅仅告诉你你在实现目标方面做得如何。如果您使用评估性反馈训练分类器,您的分类器可能会说“我认为这是一只仓鼠”,作为回报,它将得到50分。没有更多的背景,我们真的不知道50分是什么意思。我们需要做其他的分类和探索  找出我们的50分是否意味着我们是否准确。也许10,000是一个更可敬的分数,但我们只是不知道,直到我们试图分类一些其他的数据点。

两个金色的星星和一个笑脸猜测仓鼠。如果你猜沙鼠,你可以拥有一颗银星,半个竖起大拇指

在许多感兴趣的问题中,评估反馈的想法更加直观和易于理解。例如,设想一个控制数据中心温度的系统。有指导意义的反馈在这里似乎没有什么意义,你怎么告诉你的算法每个组件在任何给定时间步的正确设置?评估反馈更有意义。您可以轻松地反馈数据,例如某个时间段内使用了多少电量,或平均温度是多少,甚至有多少台机器过热。这实际上是谷歌如何解决这个问题,强化学习。所以让我们直接跳到它。

马尔可夫决策过程

一个状态s 据说是马尔可夫,如果来自该状态的未来在条件上独立于过去,那么我们知道  s。这意味着  s 描述直到当前状态的所有过去的状态。如果这样做没有多大意义,通过实例来看就容易多了。考虑一个飞行在空中的球。如果它的状态是它的位置和速度,那么足以描述它已经存在的位置和将要到达的位置(给定一个物理模型,并且没有外部影响)。因此,就具有了马尔可夫的属性。但是,如果我们只知道球的位置而不知道它的速度,那么它的状态就不再是马尔可夫了。目前的状态并不总结所有过去的状态,我们需要从上一个时间步骤的信息开始建立一个合适的球的模型。

强化学习通常被建模为马尔可夫决策过程(MDP)。MDP是一个有向图,它的节点和边描述了马尔可夫状态之间的转换。这是一个简单的例子:

用于学习MDP的简单MDP。

这个MDP显示了学习MDP的过程。起初你在国家  不明白。从那里,你有两个可能的行动,学习 或 不学习。如果你选择不学习,那么你有100%的机会回到  不了解 状态。但是,如果你学习,那么你有20%的机会最终回到你开始的地方,但有80%的机会结束了 理解 状态。

真的,我相信有一个转换到理解状态的概率高于80%的概率,MDP的核心是非常简单的。从一个州有一套你可以采取的行动。在你采取行动之后,你可以转换到什么状态。就像“ 不要研究” 行动一样,过渡也可能是确定性的。

强化学习的目标是学习如何在更有价值的状态上花费更多的时间。为了有一个有价值的状态,我们需要更多的信息在我们的MDP。

你不需要一个MDP教你不吃东西会使你饿死。不过,强化学习代理可能会。

这MDP有另外的  增加奖励。每次你进入一个状态,你都会得到奖励。在这个例子中,你会因饥饿而获得负面报酬,并会因为饥饿而获得巨大的负面报酬。如果你满了,你会得到一个积极的回报。现在我们的MDP已经完全形成了,我们就可以开始思考如何使行动获得最大的回报!

由于这个MDP非常简单,很容易看到,留在更高奖励区域的方式是每当我们饥饿的时候吃东西。我们没有太多的选择,当我们满足这个模式时,我们将不得不再次饿肚子,可以立即选择吃饭。与强化学习有关的问题有更多更复杂的MDP,而且我们往往不了解它们,而是需要从探索中学习  。

形式化强化学习问题

现在我们有很多我们需要的构件,我们应该看看RL中使用的术语。最重要的组成部分是  代理人和  环境。代理存在于间接控制的某个环境中。通过回顾我们的MDP,代理人可以选择在给定状态下采取哪种行动,这对其所看到的状态具有显着的影响。然而,代理并不完全控制环境的动态。环境在收到这些行动后,将返回新的状态和奖励

萨顿与巴托的形象 - 强化学习:引言

从萨顿和巴托的“强化学习:介绍”(强烈推荐)这本书中,我们可以很好地解释这种情况。 在某个时间步骤t,代理处于状态st,并采取行动。 环境然后以新的状态st + 1和奖励rt + 1作出响应。 奖励是在t + 1的原因是因为它是随着t + 1状态的环境而返回的,所以把它们保持在一起是有意义的(如图中所示)。

结论

我们现在有一个强化学习问题的框架,并准备开始考虑如何最大化我们的奖励。在下一篇文章中,我们将学习状态值函数和动作值函数,以及为解决强化学习问题的算法奠定基础的Bellman方程。我们还将探索一些简单而有效的动态编程解决方案。如果你想听到不同的解释,或想深入探讨这个问题,我建议David Silver的Youtube系列强化学习系列,以及Sutton和Barto的“强化学习:一个介绍”一书。谢谢阅读!在这里查看第二部分。

原文链接:https://joshgreaves.com/reinforcement-learning/introduction-to-reinforcement-learning/

原文作者:JOSHGREAVES

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

WSDM 2017精选论文解读

人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文,即便是亲临现场也很难追踪到所有的前沿信息。在时间精力有限的情况下,选择精读...

2636
来自专栏机器之心

ACL 2018 | 百度提出交互式语言学习新方法:让智能体具备单次概念学习能力

1764
来自专栏大数据挖掘DT机器学习

上海联通大数据与机器学习驱动的离网预测模型

大数据的V特性Volume、Variety、Velocity可以使我们更容易捕捉到用户的离网倾向,从而作出相应的维挽措施挽留用户。上海联通部署大数据驱动的离网预...

3927
来自专栏CreateAMind

暑期课程八、推理、注意力和记忆(Reasoning, Attention 和 Memory)

903
来自专栏AI科技大本营的专栏

AI技术讲座精选:强化学习入门以及代码实现

介绍 目前,对于全球的科学家而言,“如何去学习一种新技能”已经成为最基本的研究课题之一。解决这个问题的意愿显而易见——如果能够解决这个问题,那么人类就有望做到...

28311
来自专栏灯塔大数据

每周学点大数据 | No.6算法的分析之易解问题和难解问题

No.6期 算法的分析之易解问题和难解问题 小可:嗯,我懂了。可是您前面说现在的计算机在模型上都可以称作图灵机,这个要如何理解呢? Mr. 王:你能思考这个问...

2637
来自专栏人工智能头条

上海联通大数据与机器学习驱动的离网预测模型

1394
来自专栏机器学习之旅

应用:推荐系统-威尔逊区间法

理论上讲,p越大应该越好,但是n的不同,导致p的可信性有差异。100个人投票,50个人投喜欢;10个人投票,6个人喜欢,我们不能说后者比前者要好。

1014
来自专栏磐创AI技术团队的专栏

热点 | github近期热点项目汇总

【磐创AI导读】:我们总结了过去一年近8000个开源机器学习项目,从中选择了前30个最热点的项目推荐给大家。想要获取更多的机器学习、深度学习资源。欢迎大家点击上...

911
来自专栏人工智能快报

人工智能训练使用视网膜扫描发现心脏病风险

谷歌及其子公司Verily的科学家们发现了一种利用机器学习来评估一个人患心脏病风险的新方法。通过分析病人眼睛后部的扫描结果,该公司的软件能够准确地推断出数据,包...

3425

扫码关注云+社区