序言
强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。在机器学习问题中,环境通常被规范为马可夫决策过程(MDP),所以许多强化学习算法在这种情况下使用动态规划技巧。传统的技术和强化学习算法的主要区别是,后者不需要关于MDP的知识,而且针对无法找到确切方法的大规模MDP[1]。
强化学习概念
定义
state:环境的刻画,用于表达环境的状态。
Action:基于当前的环境采取的动作。
Reward:采取动作后,环境给予的反馈
Agent:与环境进行交互并接受环境反馈的物体
Policy:Agent的行为函数
Value Function:Agent对当前环境的评估
Model:Agent对环境的描述
Environment:与Agent交互和反馈的物体
强化学习和监督学习的区别:
1. 没有监督标签,只有环境奖励
2. 奖励有延迟性,也就是奖励可能不是立即的
3.时序相关性,也就是奖励是长期折扣的
4. 环境的交互性,动作的选择会影响到下一个状态
5. 需要在探索和利用中找到平衡
适合强化学习的场景:
1. 样本和奖励无法直接获取,需要和环境交互
2. 回报无法短期衡量,需要考虑长期回报
3. 动作空间比较大,甚至是连续动作
4. 需要避免局部最优
问题分类
1. 按照policy 和 Value Function:
Policy Based,Value Based,Actor Critic
2. 按照model 是否已知分类
Model based,Model free
MDP定义描述
在机器学习问题中,环境通常被规范为马科夫决策过程(MDP,Markov Descision Process),所以在进行强化学习训练之前,我们必须先定义好环境
MDP特性:给定当前状态及所有过去状态情况下,其未来状态的仅依赖于当前状态,不依赖于过去状态。
贝尔曼优化方程
现在基于DMP环境定义,强化问题通常被转化为贝尔曼优化方程问题。
关于贝尔曼优化方程的求解方法:
1.动态规划(Dynamic Programming)
2.蒙特卡洛(Metro Carlo)
3.时间差分(Temporal Difference)
下篇继续聊强化学习,不说了,搬砖去
参考文献
1. https://zh.wikipedia.org/wiki/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0
领取 专属20元代金券
Get大咖技术交流圈