版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Solo95/article/details/100133088
How can an intelligent agent learn to make good sequences of decisions?.
这一句英文可以概括所有强化学习的关注点:
强化学习旨在学习去做出一系列好的决策。因此我们的关注点在一系列决策(sequence of decisions, 英文的sequence含有连续的意思)上。
相对于机器学习,强化学习的主体是智能体,可能是生物或者非生物。
我们的关注点还包括如何做出一系列决策而不是一个决策。
我们关心决策的好坏程度。为了衡量好坏我们有最优性这个概念。
最后的关键部分是学习,agent预先不知道它的决策会对环境做出怎样的影响,也不知道好的结果和什么样的决策相关联,它需要通过经验来获取这些信息。
强化学习重要的方面可以概括为以下四个:
这四个方面将强化学习与其他机器学习区分开来。
所以在强化学习里,我们学习在不确定性的条件下做出好的决策,基本上囊括了最优性,延迟影响,探索,泛化。
很自然的,最优性是因为我们关心好的决策,从而提出了这个概念。
这引入了两大挑战:
How do you figure out the causal relationship between the decisions you made in the past and the outcomes in the future?
这与我们在大多数机器学习情景下遇到的问题是非常不同的。
通过决策来学习这个世界(环境)
设限数据
决策会影响到我们学习到的东西
策略是从过去的经验到动作的映射。
为什么我们不预先编写好一个策略而是通过学习得到一个策略呢?
在Atari游戏中,可能会有(256100∗200)3(256^{100*200})^3(256100∗200)3张图片,这个例子是不可追溯的,无法编程在这么多张图片里作决策。
这也是为什么我们需要一些形式的泛化,以及为什么直接从数据中学习会更好,并且拥有一些任务的高层次表示(representation)。
模仿学习从别人的经验中学习,它将强化学习缩减到了监督学习。
好处:
受限之处:
但结合模仿学习和强化学习非常有前景。