前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习简介

强化学习简介

作者头像
Steve Wang
发布2019-08-31 19:06:06
4990
发布2019-08-31 19:06:06
举报
文章被收录于专栏:从流域到海域从流域到海域

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/Solo95/article/details/100133088

强化学习

How can an intelligent agent learn to make good sequences of decisions?.

这一句英文可以概括所有强化学习的关注点:

强化学习旨在学习去做出一系列好的决策。因此我们的关注点在一系列决策(sequence of decisions, 英文的sequence含有连续的意思)上。

相对于机器学习,强化学习的主体是智能体,可能是生物或者非生物。

我们的关注点还包括如何做出一系列决策而不是一个决策。

我们关心决策的好坏程度。为了衡量好坏我们有最优性这个概念。

最后的关键部分是学习,agent预先不知道它的决策会对环境做出怎样的影响,也不知道好的结果和什么样的决策相关联,它需要通过经验来获取这些信息。

强化学习重要的方面可以概括为以下四个:

  • Optimization(最优性)
  • Delayed consequences(延迟影响)
  • Exploration(探索)
  • Generalization(泛化)

这四个方面将强化学习与其他机器学习区分开来。

所以在强化学习里,我们学习在不确定性的条件下做出好的决策,基本上囊括了最优性,延迟影响,探索,泛化。

Optimization
  • Goal is to find an optimal way to make decisions
    • Yielding best outcomes
  • Or at least a very good strategy

很自然的,最优性是因为我们关心好的决策,从而提出了这个概念。

Delayed Consequence
  • 当前决策会在很晚的时候对事物产生影响
    • 为退休而进行的储蓄活动
    • 在游戏montezuma’s revenge中你必须先拿起一把钥(在很久之后你才知道钥匙是有用的)

这引入了两大挑战:

  1. 决策时:需要对决策作出的推理不仅包括即时收益,也要包括该决策可能产生的长期的复杂结果。
  2. 学习时:时序性奖励分配是困难的(什么会导致后面的回报高或者回报低)。

How do you figure out the causal relationship between the decisions you made in the past and the outcomes in the future?

这与我们在大多数机器学习情景下遇到的问题是非常不同的。

Exploration

通过决策来学习这个世界(环境)

  • Agent像是一个科学家
  • 通过尝试来学习骑自行车(不断跌倒)
  • 在游戏montezuma’s revenge中找到一把钥匙

设限数据

  • 做出决策之后仅得到一个奖励(标签)
  • 吃下红色药片之后不知道如果吃下蓝色药片结果会怎样(Matrix movie reference)

决策会影响到我们学习到的东西

  • 如果我们选择去Stanford而不是MIT,我们会有不同的人生体验

Policy

策略是从过去的经验到动作的映射。

为什么我们不预先编写好一个策略而是通过学习得到一个策略呢?

在Atari游戏中,可能会有(256100∗200)3(256^{100*200})^3(256100∗200)3张图片,这个例子是不可追溯的,无法编程在这么多张图片里作决策。

这也是为什么我们需要一些形式的泛化,以及为什么直接从数据中学习会更好,并且拥有一些任务的高层次表示(representation)。

Imitation Learing

模仿学习从别人的经验中学习,它将强化学习缩减到了监督学习。

好处:

  • 已经成熟的用于监督学习的好的工具
  • 避免了探索的问题
  • 拥有决策结果的大数据

受限之处:

  • 实现起来可能代价很高
  • 受限于被收集到的数据

但结合模仿学习和强化学习非常有前景。

强化学习如何进行?
  • 探索这个世界(环境)
  • 使用所得经验来指导未来决策
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019年08月29日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 强化学习
    • Optimization
      • Delayed Consequence
        • Exploration
        • Policy
        • Imitation Learing
          • 强化学习如何进行?
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档