文章/答案/技术大牛

发布

强化学习的那些事（一）

文章来源：企鹅号 - 肌肉龙

序言

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究，例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。在机器学习问题中，环境通常被规范为马可夫决策过程（MDP），所以许多强化学习算法在这种情况下使用动态规划技巧。传统的技术和强化学习算法的主要区别是，后者不需要关于MDP的知识，而且针对无法找到确切方法的大规模MDP[1]。

强化学习概念

定义

state：环境的刻画，用于表达环境的状态。

Action：基于当前的环境采取的动作。

Reward：采取动作后，环境给予的反馈

Agent：与环境进行交互并接受环境反馈的物体

Policy：Agent的行为函数

Value Function：Agent对当前环境的评估

Model：Agent对环境的描述

Environment：与Agent交互和反馈的物体

强化学习和监督学习的区别：

1. 没有监督标签，只有环境奖励

2. 奖励有延迟性，也就是奖励可能不是立即的

3.时序相关性，也就是奖励是长期折扣的

4. 环境的交互性，动作的选择会影响到下一个状态

5. 需要在探索和利用中找到平衡

适合强化学习的场景：

1. 样本和奖励无法直接获取，需要和环境交互

2. 回报无法短期衡量，需要考虑长期回报

3. 动作空间比较大，甚至是连续动作

4. 需要避免局部最优

问题分类

1. 按照policy 和 Value Function：

Policy Based，Value Based，Actor Critic

2. 按照model 是否已知分类

Model based，Model free

MDP定义描述

在机器学习问题中，环境通常被规范为马科夫决策过程（MDP，Markov Descision Process），所以在进行强化学习训练之前，我们必须先定义好环境

MDP特性：给定当前状态及所有过去状态情况下，其未来状态的仅依赖于当前状态，不依赖于过去状态。

贝尔曼优化方程

现在基于DMP环境定义，强化问题通常被转化为贝尔曼优化方程问题。

关于贝尔曼优化方程的求解方法：

1.动态规划（Dynamic Programming）

2.蒙特卡洛（Metro Carlo）

3.时间差分（Temporal Difference）

下篇继续聊强化学习，不说了，搬砖去

参考文献

1. https://zh.wikipedia.org/wiki/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0

发表于: 2018-07-302018-07-30 22:20:27
原文链接：https://kuaibao.qq.com/s/20180730G1WR9900?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

强化学习的那些事（一）

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐