强化学习的那些事(一)

序言

强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。在机器学习问题中,环境通常被规范为马可夫决策过程(MDP),所以许多强化学习算法在这种情况下使用动态规划技巧。传统的技术和强化学习算法的主要区别是,后者不需要关于MDP的知识,而且针对无法找到确切方法的大规模MDP[1]。

强化学习概念

定义

state:环境的刻画,用于表达环境的状态。

Action:基于当前的环境采取的动作。

Reward:采取动作后,环境给予的反馈

Agent:与环境进行交互并接受环境反馈的物体

Policy:Agent的行为函数

Value Function:Agent对当前环境的评估

Model:Agent对环境的描述

Environment:与Agent交互和反馈的物体

强化学习和监督学习的区别

1. 没有监督标签,只有环境奖励

2. 奖励有延迟性,也就是奖励可能不是立即的

3.时序相关性,也就是奖励是长期折扣的

4. 环境的交互性,动作的选择会影响到下一个状态

5. 需要在探索和利用中找到平衡

适合强化学习的场景

1. 样本和奖励无法直接获取,需要和环境交互

2. 回报无法短期衡量,需要考虑长期回报

3. 动作空间比较大,甚至是连续动作

4. 需要避免局部最优

问题分类

1. 按照policy 和 Value Function:

Policy Based,Value Based,Actor Critic

2. 按照model 是否已知分类

Model based,Model free

MDP定义描述

在机器学习问题中,环境通常被规范为马科夫决策过程(MDP,Markov Descision Process),所以在进行强化学习训练之前,我们必须先定义好环境

MDP特性:给定当前状态及所有过去状态情况下,其未来状态的仅依赖于当前状态,不依赖于过去状态。

贝尔曼优化方程

现在基于DMP环境定义,强化问题通常被转化为贝尔曼优化方程问题。

关于贝尔曼优化方程的求解方法:

1.动态规划(Dynamic Programming)

2.蒙特卡洛(Metro Carlo)

3.时间差分(Temporal Difference)

下篇继续聊强化学习,不说了,搬砖去

参考文献

1. https://zh.wikipedia.org/wiki/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180730G1WR9900?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券