首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI技术词条 强化学习

关注AI君,领略人工智能之美

强化学习

Reinforcement Learning

前言

各位读者,新年好!

欢迎阅读《AI技术词条》系列文章,这一系列文章主要针对人工智能领域的专业词汇和算法,AI君力求用最通俗易懂的话语解释清楚相关概念,不废话不凑字,直达最核心的内容。

概述

在之前的《AI技术词条》中,AI君分别讲了监督式和非监督式学习算法,这篇文章里,AI君就来讲讲机器学习的第三类算法,大名鼎鼎的“强化学习”,强化学习算法介于监督式学习和非监督式学习之间,有着独特的学习系统。强化学习英文全称Reinforcement Learning,简称RL。

强化学习的思想来自于条件反射理论和动物学习理论。它是受到动物学习过程启发而得到的一种仿生算法。打败人类世界冠军的阿尔法围棋(AlphaGo)的技术原理就是强化学习。

原理

强化学习系统的基本结构如上图所示。机器人(agent)选择一个行动(action)作用于环境,环境接收该动作后状态(state)发生变化,同时产生一个奖励信号(reward)给机器人,机器人再根据反馈的奖励信号(r)和环境的当前状态(s)选择下一个行动。

利用不断地试错(trial-and-error),根据反馈的变化逐步改进采取的行动(action),使得到的累积奖励(reward)最大,从而获得最佳行动策略(policy),达到学习的目的。

在强化学习的过程中,所有机器人(agent)和环境的交互都被认为是马可夫决策过程(markov decision process, MDP),即当前的状态只取决于上一时刻的状态和动作。这大大简化了决策过程的复杂性,接下来对马可夫决策过程(MDP)作简要介绍。

马可夫决策过程

马可夫决策过程的模型可以用一个四元组(S, A, T, R),S表示可能的状态集合,A为可能的动作集合,T:S×AT是状态转移函数(state transition function),R:S×AR是奖励函数(reward function)。

在每一个时间步(time step)中,环境处于状态集合中的某一状态s,机器人选择动作集合中的一个动作a,收到奖赏(reward),并转移至下一状态。状态转移函数表示在当前状态执行动作转移到下一特定状态的概率,状态转移函数和奖赏函数都是随机的。

状态转移函数的结构T:S×AT表明了机器人(agent)的下一状态只取决于上一状态和动作,和更早之前的历史状态和动作无关。

以上就是马可夫决策过程的基本结构,强化学习就是建立在马可夫决策过程这一基石之上。

总结

我们对强化学习技术的基本原理进行了解释,实际应用中,使用动态规划和各种搜索算法会产生各种令人惊喜的结果。

阿尔法围棋(AlphaGo)就是应用了蒙特卡洛树搜索算法(Monte Carlo Tree Search)。其他常见的较有影响的强化学习算法有TD算法,Q学习算法,Sarsa算法,Dyan算法,R学习算法,H学习等等。

强化学习已被广泛应用于人工智能、机器人控制和工业控制等系统,具有广阔的应用前景。

后话

强化学习本身是一系列算法的集合,所以读者在上面看到不明白的算法也不必费心了解,所以对于本篇提到的每一个强化学习算法在未来都会有单独的《AI技术词条》文章予以解释。

请在文章末尾留言写出你的想法,告诉AI君你最想了解的人工智能算法,我就会优先写出你想看的文章哦。

最后,AI君请大家帮忙多多转发《AI技术词条》系列文章,感激不尽!

祝好!

AI君

2018年1月2日 于欧洲

前文阅读

AI技术词条 机器学习

AI技术词条 线性判别分析

AI技术词条 受限玻尔兹曼机

THE END

图片来源

Ma L., Zhang W., & Dai C. (2014). A Review of Developments inReinforcement Learning for Multi-robot Systems. Journal of Southwest Jiaotong University, 49(6), 1032-1044. Fig.1

参考文献

Singh S. (1997). Agents and reinforcement learning [M]. San Matco, CA, USA: Miller freeman publish Inc.

Sutton S, Barto G. (2006) Reinforcement Learning: An Introduction [M]. Cambridge, MA, USA: MIT Press.

Huang B., Cao G., & Wang Z. (2006). Reinforcement Learning Theory, Algorithms and Application. Journal of Hebei University of Technology, 35(6), 34-38.

关注AI君,领略人工智能之美

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180103G08P5T00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券