人工智能之机器学习篇——强化学习

文章来源：企鹅号 - 人工智能产业研究院

强化学习

机器学习任务可以划分为监督学习、无监督学习、和弱监督学习。监督学习面临的数据样本有完整的标记，即每一项观察都有与之对应的决策，机器从这样的样本中可以直接学习到从观察到决策的映射。无监督学习面临的数据样本完全没有标记，机器需要从数据中发现内部的结构信息。弱监督学习的目的，与监督学习一致，然而其获得的样本并没有完整的标记。从标记缺失的形式和处理方式的不同，又可以分为半监督学习、主动学习、多示例学习／多标记学习、和强化学习。半监督学习中，只有少量的样本具有标记；主动学习中，机器可以询问真实的标记，但需要考虑询问的代价；多示例学习中，一个对象表示为一组样本的包，而标记只在包的层面上，在样本的层面上却没有标记；多标记学习中，一个样本对应一组标记，因此需要处理巨大的标记组合空间问题；强化学习中，机器需要探索环境来获得样本，并且学习的目的是长期的奖赏，因此样本的标记是延迟的，下面我们详细介绍。

强化学习研究学习器在与环境的交互过程中，如何学习到一种行为策略，以最大化得到的累积奖赏。与前面我们提到的其它学习问题的不同在于，强化学习处在一个对学习器的行为进行执行和评判的环境中：环境将执行学习器的输出，发生变化，并且反馈给学习器一个奖赏值；同时学习器的目标并不在于最大化立即获得的奖赏，而是最大化长期累积的奖赏。例如在俄罗斯方块游戏中，学习器所处的环境为游戏规则，学习器根据当前游戏的状态输出动作，以游戏得分作为每一次动作的奖赏，学习器需要最大化最终的奖赏总和。强化学习的设定可用下图来表示。

由于强化学习框架的广泛适用性，已经被应用在自动控制、调度、金融、网络通讯等领域，在认知、神经科学领域，强化学习也有重要研究价值，例如Frank等人以及Samejima等人在Science上发表了相关论文。强化学习也被机器学习领域著名学者、国际机器学习学会创始主席T. G. Dietterich教授列为机器学习的四大的研究方向之一。

强化学习的目标是最大化累积奖赏，这一点与马可夫决策过程（MDP）的目标一致，因此强化学习也常常用MDP来建模。一个MDP定义为四元组，其中S表示环境状态的集合；A为“动作”集合，即学习器的输出值域；T为转移函数，定义了环境的根据动作的转移；R为奖赏函数，定义了动作获得的奖赏。MDP寻找最优动作策略以最大化累计奖赏。当MDP的四元组全部给出且S和A为有限集合时，求解最优策略的问题即转变为求解每一个状态上最优动作这一优化问题，而该优化问题通常可以通过动态规划来求解：在最终时刻，只需要考虑立即获得的奖赏，即可得知每个状态最优动作获得的奖赏；这一时刻状态的最优奖赏，随后用于求解退一时刻状态的最优动作和最优奖赏。这一关系即著名的Bellman等式。因为MDP四元组全部已知，实际上并不需要与环境交互，也没有“学习”的味道，动态规划就可以保证求解最优策略。

强化学习通常要面临的难题是，对于学习器，MDP四元组并非全部已知，即“无模型” (model-free)。最常见的情况是转移函数T未知以及奖赏函数R未知，这时就需要通过在环境中执行动作、观察环境状态的改变和环境给出的奖赏值来学出T和R。我们可以把强化学习方法分为基于值函数估计的方法和直接最大化累计奖赏的直接策略搜索方法。

基于值函数估计的方法试图在与环境交互的过程中估计出每一状态上每一动作对应的累积奖赏，从而得出最佳策略。这一类方法的代表有时序查分学习方法SARSA和Q-Learning。基于值函数估计的方法由于其目标并不是直接求得策略，而是通过值函数的学习来得到策略，即最终的策略是选择值函数大的动作，因此在较复杂的任务上会出现“策略退化”的现象，即虽然值函数估计较准确，但得到的策略却不好。直接最大化累计奖赏的直接策略搜索方法则不依赖于对状态上累积奖赏的估计，而直接优化策略获得的累积奖赏。这一类方法的代表有使用策略梯度方法优化参数化策略的REINFORCE方法，以及使用演化算法等全局优化算法来搜索策略的NEAT+Q方法等。

强化学习在实际问题上的广泛使用还面临诸多挑战，主要包括特征表示、搜索空间、泛化能力等方面的问题。

经典强化学习的研究中，状态和动作空间均为有限集合，每一个状态和动作被分别处理。然而，一方面许多应用问题具有连续的状态和动作空间，例如机械臂的控制；另一方面即使对于有限状态空间，状态之间也并非没有联系，例如棋盘上走棋有位置关系。因此如何将状态赋予合适的特质表示将极大的影响强化学习的性能。这一方面的工作包括使用更好的特征编码方式等，而近期得益于深度学习技术的发展，特征可以更有效的从数据中学习，Google DeepMind的研究者在Nature上发表了基于深度学习和Q-Learning的强化学习方法Deep Q-Network，在Atari 2600游戏机上的多个游戏取得“人类玩家水平”的成绩。一方面可以看到特征的改进可以提高强化学习的性能，另一方面也观察到，Deep Q-Network在考验反应的游戏上表现良好，而对于需要逻辑知识的游戏还远不及人类玩家。

由于强化学习关于累积奖赏的优化目标，涉及多步决策，这使得策略的搜索空间巨大、累积奖赏目标极其复杂，优化非常困难。一方面需要研究更加有效的优化方法，例如使用Cross-Entropy等方法进行优化。另一方面，通过引入模仿学习，可以极大的缓解这一问题。模仿学习中，存在能做到接近最优策略的“教师”，并且由“教师”进行示范，提供一批演示样本，这些样本可用于直接指导每一步的动作，因此可以借助监督学习帮助强化学习。同时模仿学习的另一作用是从演示样本中学习奖赏函数，称为逆强化学习，从而可以在应用问题中免去对奖赏函数的定义，例如IJCAI Computers and Thought Award得主斯坦福大学Andrew Ng教授使用逆强化学习进行运动轨迹规划。

经典的强化学习研究多假设学习器处在稳定环境中，即MDP四元组都是固定不变的，学习器在这样的环境中进行学习，学习到的策略也只在相同的环境中进行使用和评价。经典的强化学习研究在车床控制、工业机器人等稳定环境中取得了成功的应用。然而随着强化学习的应用向更多的领域拓展，面对的环境更加复杂，以往的限定条件下的假设不再成立。例如在自动驾驶中，不同配置的车辆驾驶到各种各样的地形，某一种车辆在某一种地形上学习到的策略可能难以应对。IJCAI Computers and Thought Award得主、AAAI Fellow、美国德克萨斯奥斯丁大学 Peter Stone教授也发文指出限定条件下的强化学习算法面临领域过配问题(domain overfitting)，限定条件下设计的算法只能用于特定领域、而难以通用。对此问题，已出现了一些关于强化学习领域迁移的研究。

总之，强化学习的发展是以满足越来越广泛的应用需求为方向，强化学习是机器学习领域的重要分支。

发表于: 2018-02-212018-02-21 09:49:43
原文链接：http://kuaibao.qq.com/s/20180221G06HSH00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

人工智能之机器学习篇——强化学习

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐