前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习读书笔记 - 14 - 心理学

强化学习读书笔记 - 14 - 心理学

作者头像
绿巨人
发布2018-05-17 14:28:57
7830
发布2018-05-17 14:28:57
举报
文章被收录于专栏:绿巨人专栏

强化学习读书笔记 - 14 - 心理学

学习笔记: Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

参照

停在这里了

从这一章开始叫做Looking Deeper。 讲的有心理学(Psychology),神经科学(Neuroscience) 和强化学习的联系, 还有强化学习的应用和案例(Applications and case studies)和前沿(Frontiers)。

基本上需要大量的翻译。这不是我的特长。 所以我的笔记先停在这里了。

心理学(Psychology)

术语

  • reinforcement 在心理学中,指动物接收到一个刺激(或者经历一个刺激的消失),行为和另一个刺激(或者反应)的关联模式得到了(强度或者频率上的)加强。
  • reinforcer - 强化刺激
  • reward - 奖赏 让动物认知好行为的事物或者事件。
  • penalty - 惩罚 让动物认知坏行为的事物或者事件。
  • reinforcement signal - 加强信号 加强信号的一个例子:TD error。
  • action
  • control 在强化学习中,控制是指本体影响它的环境,带来期望的状态或者事件。
  • stimulus-response learning - 刺激-反应学习
  • prediction algorithm
  • control algorithm Policy improvement algorithms
  • unconditioned responses
  • unconditioned stimulus
  • conditioned responses
  • conditioned stimulus
  • classical conditioning - 条件反射

算法列表

2 A simple bandit algorithm 4 Iterative policy evaluation Policy iteration (using iterative policy evaluation) Value iteration 5 First-visit MC policy evaluation (returns V  v) Monte Carlo ES (Exploring Starts) On-policy rst-visit MC control (for "-soft policies) Incremental o -policy every-visit MC policy evaluation O -policy every-visit MC control (returns   ) 6 Tabular TD(0) for estimating v Sarsa: An on-policy TD control algorithm Q-learning: An o -policy TD control algorithm Double Q-learning 7 n-step TD for estimating V  v n-step Sarsa for estimating Q  q, or Q  q for a given  O -policy n-step Sarsa for estimating Q  q, or Q  q for a given  n-step Tree Backup for estimating Q  q, or Q  q for a given  O -policy n-step Q() for estimating Q  q, or Q  q for a given  8 Random-sample one-step tabular Q-planning Tabular Dyna-Q Prioritized sweeping for a deterministic environment 9 Gradient Monte Carlo Algorithm for Approximating ^v  v Semi-gradient TD(0) for estimating ^v  v n-step semi-gradient TD for estimating ^v  v LSTD for estimating ^v  v (O(n2) version) 10 Episodic Semi-gradient Sarsa for Control Episodic semi-gradient n-step Sarsa for estimating ^q  q, or ^q  q Di erential Semi-gradient Sarsa for Control Di erential semi-gradient n-step Sarsa for estimating ^q  q, or ^q  q 12 Semi-gradient TD() for estimating ^v  v True Online TD() for estimating >  v 13 REINFORCE, A Monte-Carlo Policy-Gradient Method (episodic) REINFORCE with Baseline (episodic) One-step Actor-Critic (episodic) Actor-Critic with Eligibility Traces (episodic) Actor-Critic with Eligibility Traces (continuing)

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017-03-28 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 强化学习读书笔记 - 14 - 心理学
    • 参照
      • 停在这里了
        • 心理学(Psychology)
          • 术语
          • 算法列表
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档