强化学习简介

Steve Wang

发布于 2019-08-31 19:06:06

5140

发布于 2019-08-31 19:06:06

文章被收录于专栏：从流域到海域

本文链接：https://blog.csdn.net/Solo95/article/details/100133088

强化学习

How can an intelligent agent learn to make good sequences of decisions?.

这一句英文可以概括所有强化学习的关注点：

强化学习旨在学习去做出一系列好的决策。因此我们的关注点在一系列决策(sequence of decisions, 英文的sequence含有连续的意思)上。

相对于机器学习，强化学习的主体是智能体，可能是生物或者非生物。

我们的关注点还包括如何做出一系列决策而不是一个决策。

我们关心决策的好坏程度。为了衡量好坏我们有最优性这个概念。

最后的关键部分是学习，agent预先不知道它的决策会对环境做出怎样的影响，也不知道好的结果和什么样的决策相关联，它需要通过经验来获取这些信息。

强化学习重要的方面可以概括为以下四个：

Optimization(最优性)
Delayed consequences(延迟影响)
Exploration(探索)
Generalization(泛化)

这四个方面将强化学习与其他机器学习区分开来。

所以在强化学习里，我们学习在不确定性的条件下做出好的决策，基本上囊括了最优性，延迟影响，探索，泛化。

Optimization

Goal is to find an optimal way to make decisions
- Yielding best outcomes
Or at least a very good strategy

很自然的，最优性是因为我们关心好的决策，从而提出了这个概念。

Delayed Consequence

当前决策会在很晚的时候对事物产生影响
- 为退休而进行的储蓄活动
- 在游戏montezuma’s revenge中你必须先拿起一把钥(在很久之后你才知道钥匙是有用的)

这引入了两大挑战：

决策时：需要对决策作出的推理不仅包括即时收益，也要包括该决策可能产生的长期的复杂结果。
学习时：时序性奖励分配是困难的(什么会导致后面的回报高或者回报低)。

How do you figure out the causal relationship between the decisions you made in the past and the outcomes in the future?

这与我们在大多数机器学习情景下遇到的问题是非常不同的。

Exploration

通过决策来学习这个世界(环境)

Agent像是一个科学家
通过尝试来学习骑自行车(不断跌倒)
在游戏montezuma’s revenge中找到一把钥匙

设限数据

做出决策之后仅得到一个奖励(标签)
吃下红色药片之后不知道如果吃下蓝色药片结果会怎样(Matrix movie reference)

决策会影响到我们学习到的东西

如果我们选择去Stanford而不是MIT，我们会有不同的人生体验

Policy

策略是从过去的经验到动作的映射。

为什么我们不预先编写好一个策略而是通过学习得到一个策略呢？

在Atari游戏中，可能会有(256100∗200)3(256^{100*200})^3(256100∗200)3张图片，这个例子是不可追溯的，无法编程在这么多张图片里作决策。

这也是为什么我们需要一些形式的泛化，以及为什么直接从数据中学习会更好，并且拥有一些任务的高层次表示(representation)。

Imitation Learing

模仿学习从别人的经验中学习，它将强化学习缩减到了监督学习。

好处：

已经成熟的用于监督学习的好的工具
避免了探索的问题
拥有决策结果的大数据

受限之处：

实现起来可能代价很高
受限于被收集到的数据

但结合模仿学习和强化学习非常有前景。

强化学习如何进行？

探索这个世界(环境)
使用所得经验来指导未来决策

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2019年08月29日，如有侵权请联系 cloudcommunity@tencent.com 删除

强化学习

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度