AI技术词条 强化学习

关注AI君,领略人工智能之美

强化学习

Reinforcement Learning

前言

各位读者,新年好!

欢迎阅读《AI技术词条》系列文章,这一系列文章主要针对人工智能领域的专业词汇和算法,AI君力求用最通俗易懂的话语解释清楚相关概念,不废话不凑字,直达最核心的内容。

概述

在之前的《AI技术词条》中,AI君分别讲了监督式和非监督式学习算法,这篇文章里,AI君就来讲讲机器学习的第三类算法,大名鼎鼎的“强化学习”,强化学习算法介于监督式学习和非监督式学习之间,有着独特的学习系统。强化学习英文全称Reinforcement Learning,简称RL。

强化学习的思想来自于条件反射理论和动物学习理论。它是受到动物学习过程启发而得到的一种仿生算法。打败人类世界冠军的阿尔法围棋(AlphaGo)的技术原理就是强化学习。

原理

强化学习系统的基本结构如上图所示。机器人(agent)选择一个行动(action)作用于环境,环境接收该动作后状态(state)发生变化,同时产生一个奖励信号(reward)给机器人,机器人再根据反馈的奖励信号(r)和环境的当前状态(s)选择下一个行动。

利用不断地试错(trial-and-error),根据反馈的变化逐步改进采取的行动(action),使得到的累积奖励(reward)最大,从而获得最佳行动策略(policy),达到学习的目的。

在强化学习的过程中,所有机器人(agent)和环境的交互都被认为是马可夫决策过程(markov decision process, MDP),即当前的状态只取决于上一时刻的状态和动作。这大大简化了决策过程的复杂性,接下来对马可夫决策过程(MDP)作简要介绍。

马可夫决策过程

马可夫决策过程的模型可以用一个四元组(S, A, T, R),S表示可能的状态集合,A为可能的动作集合,T:S×AT是状态转移函数(state transition function),R:S×AR是奖励函数(reward function)。

在每一个时间步(time step)中,环境处于状态集合中的某一状态s,机器人选择动作集合中的一个动作a,收到奖赏(reward),并转移至下一状态。状态转移函数表示在当前状态执行动作转移到下一特定状态的概率,状态转移函数和奖赏函数都是随机的。

状态转移函数的结构T:S×AT表明了机器人(agent)的下一状态只取决于上一状态和动作,和更早之前的历史状态和动作无关。

以上就是马可夫决策过程的基本结构,强化学习就是建立在马可夫决策过程这一基石之上。

总结

我们对强化学习技术的基本原理进行了解释,实际应用中,使用动态规划和各种搜索算法会产生各种令人惊喜的结果。

阿尔法围棋(AlphaGo)就是应用了蒙特卡洛树搜索算法(Monte Carlo Tree Search)。其他常见的较有影响的强化学习算法有TD算法,Q学习算法,Sarsa算法,Dyan算法,R学习算法,H学习等等。

强化学习已被广泛应用于人工智能、机器人控制和工业控制等系统,具有广阔的应用前景。

后话

强化学习本身是一系列算法的集合,所以读者在上面看到不明白的算法也不必费心了解,所以对于本篇提到的每一个强化学习算法在未来都会有单独的《AI技术词条》文章予以解释。

请在文章末尾留言写出你的想法,告诉AI君你最想了解的人工智能算法,我就会优先写出你想看的文章哦。

最后,AI君请大家帮忙多多转发《AI技术词条》系列文章,感激不尽!

祝好!

AI君

2018年1月2日 于欧洲

前文阅读

AI技术词条 机器学习

AI技术词条 线性判别分析

AI技术词条 受限玻尔兹曼机

THE END

图片来源

Ma L., Zhang W., & Dai C. (2014). A Review of Developments inReinforcement Learning for Multi-robot Systems. Journal of Southwest Jiaotong University, 49(6), 1032-1044. Fig.1

参考文献

Singh S. (1997). Agents and reinforcement learning [M]. San Matco, CA, USA: Miller freeman publish Inc.

Sutton S, Barto G. (2006) Reinforcement Learning: An Introduction [M]. Cambridge, MA, USA: MIT Press.

Huang B., Cao G., & Wang Z. (2006). Reinforcement Learning Theory, Algorithms and Application. Journal of Hebei University of Technology, 35(6), 34-38.

关注AI君,领略人工智能之美

本文来自企鹅号 - 全球大搜罗媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数学人生

用强化学习玩文本游戏

随着 DeepMind 成功地使用卷积神经网络(CNN)和强化学习来玩 Atari 游戏,AlphaGo 击败围棋职业选手李世石,强化学习已经成为了机器学习的一...

70210
来自专栏个人分享

机会的度量:概率和分布

  如果一个不出现,则另一个肯定出现的两个事件成为互补事件(complementary events,或者互余事件或对立事件).按照集合的记号,如果一个事件记为...

11040
来自专栏浮生的专栏

机器学习为更好的火灾现场安全

当勇敢的消防员身处险境试图抢救其他人和他们的财产的时候,他们的生命同样受到了威胁。在这篇文章中,我想分享我在AAIA第15届数据挖掘竞赛中的经验和获奖策略:给火...

25840
来自专栏CDA数据分析师

干货 | 机器学习没有你想的那么复杂

人脑是最神奇的。你知道我更感兴趣的是什么吗?是我们的学习能力。我们如何能够适应并学习全新的技能,然后应用到日常生活之中呢?

9740
来自专栏AI科技评论

开发 | One-Page AlphaGo——十分钟看懂 AlphaGo 的核心算法!

AI科技评论按:本文作者夏飞,清华大学与卡内基梅隆大学毕业,现于谷歌从事技术研发工作。本文是对《自然》上发表的知名论文“Mastering the game o...

338100
来自专栏机器之心

教程 | 用生成对抗网络给雪人上色,探索人工智能时代的美学

45670
来自专栏人工智能头条

云从科技资深算法研究员:详解跨镜追踪(ReID)技术实现及难点 | 公开课笔记

47130
来自专栏AI研习社

话题 | 如何看待索尼公司提出一种新的大规模分布式训练方法,在224秒内成功训练 ImageNet?

@ 依耶塔•朱丽 提问:如何看待索尼公司提出一种新的大规模分布式训练方法,在224秒内成功训练 ImageNet?

11720
来自专栏钱塘大数据

理工男图解零维到十维空间,烧脑已过度,受不了啦!

让我们从一个点开始,和我们几何意义上的点一样,它没有大小、没有维度。它只是被想象出来的、作为标志一个位置的点。它什么也没有,空间、时间通通不存在,这就是零维度。

12920
来自专栏新智元

Science重磅!用光速实现深度学习,跟GPU说再见

深度学习对算力的需求没有止境,但受制于能耗和物理极限,基于硅基的电子元件虽然现在还能支撑,但远处那堵几乎不可逾越的高墙已然显现。

29530

扫码关注云+社区

领取腾讯云代金券