易忽略的强化学习知识之基础知识及MDP

推荐阅读时间:8min~12min

主要内容:容易忽略的强化学习知识之基础知识及MDP

由于我对RL的期望挺大,很看好它的前景,故之后应该会写下一个系列的强化学习文章,标题是易忽略的强化学习知识之XX,也就是说,我写下的是我觉得有必要知道比较重要并容易忽略的知识。也许不会所有强化学习的知识都全面的写,但希望可以对大家有所帮助,同时巩固我自己的知识!

强化学习是什么?和监督学习,无监督学习是什么关系?

强化学习的主要应用是什么?在其他如NLP的应用呢?

模仿学习是什么?和强化学习联系?

强化学习的整体运行流程是什么样的呢?

强化学习的分类

什么是马尔可夫(Markov)性?什么是MP?什么是MRP?

动态规划是什么?为什么可以利用动态规划来解决MDP?

1

强化学习是什么?和监督学习,无监督学习是什么关系?

强化学习是什么:是多学科多领域交叉的一个产物,它的本质就是解决“decision making”问题,即学会自动进行决策。

在计算机科学领域体现为机器学习算法。

在工程领域体现在决定操作动作的顺序来得到最好的结果。

在神经科学领域体现在理解人类大脑如何做出决策,主要的研究是奖励机制。

在心理学领域,研究动物如何做出决策,动物的行为是由什么导致的。

在经济学领域体现在博弈论的研究。

.......

它是什么可以是如图所示:

以上所有的问题最终都归结为一个问题,人为什么能够并且如何做出最优决策。是怎么样找到最优决策的

2

然后,它和监督学习,无监督学习是什么关系?

机器学习包括:监督学习、无监督学习、强化学习,故强化学习是机器学习的一个分支,和监督,无监督是并列关系。

无监督学习和强化学习的区别应该容易知道,下面说说监督学习和强化学习的区别,从强化学习的特点出发:

强化学习没有监督数据、只有奖励信号

奖励信号不一定是实时的,而很可能是延后的,有时甚至延后很多。且时间(序列)是一个重要因素。

强化学习面对的输入(状态)总是在变化且不独立,输入不像监督学习是独立同分布的。而每当算法做出一个行为,它影响了下一次决策的输入,我认为这点是最重要的区别。

3

强化学习的主要应用是什么?在其他领域如NLP的应用呢?

首先强化学习现有具有非常广泛的应用:直升机特技飞行、经典游戏、投资管理、发电站控制、让机器人模仿人类行走等等。

强化学习现有在nlp的应用:文本序列生成,对话策略决策,用户目标模拟等等。

强化学习现有在cv的应用:强化学习的Attention方法在图像的应用,强化学习润色照片等等

然后我认为强化学习在nlp或cv领域是有很大前景的!为什么?

比如强化学习是天然可以在NLP上应用的:

在离散空间的文本生成和序列决策,RL有先天的对应,也就是说,通过agent在离散策略空间的搜索生成下一个词或者序列,结合reward的反馈,是可以很好的work的。

先举个例子,在goal oriented的对话系统的,关键步骤就是决策下一轮对话agent该干什么(提问?确认?结束?),那就可以利用RL的方法来决策。而RL的本质无非就是结合环境的观测加上reward的引导做出下一步的决策。

最后是RL的优势:可以克服其他目标函数如MLE的缺陷,可以模拟大量样本,或者借助先前经验进行学习(如DQN)等等。

cv的话我不是很了解,但也有一些应用RL的论文,只要转为状态到决策问题,应该都是可以做的。

4

模仿学习是什么?和强化学习有什么区别和联系?

举个CS249(是门好课)的例子,如果我们想让机器学会开车,一个很直接的想法是观察人类行为,并且模仿人类,在相应观测下做出人类所做行为。将这个想法实现起来也很简单,只需要收集该任务的一些观测(路面的画面),以及每个观测人类会做出的反应(转动方向盘),然后像监督学习一样训练一个神经网络,以观测为输入,人类行为为标签,其中行为是离散时是分类任务,连续时是回归任务:

然而这简单的监督学习理论上并不可行,一个直观的原因是由于现实的随机性或者复杂性,使得机器所采用的动作和人类的动作有偏差或者动作所产生的结果有偏差,这样在有偏差的下一状态,机器还会做出有偏差的动作,使得之后状态的偏差积累,导致机器遇到监督学习时没有碰到过的状态,那机器就完全不知道该怎么做了,也就是如下图所示:

需要人类提供的大量数据(尤其是深度学习,需要大量样本)。

人类对一些任务也做的不太好,对于一些复杂任务,人类能做出的动作有限。

我们希望机器能自动学习,即能不断地在错误中自我完善,而不需要人类的指导。

也就是说,直接用模仿学习来解决实际问题很多时候可能比强化学习弱,但是在有些方面比如解决多步决策(sequential decision)中,因学习器不能频繁地得到奖励,且这种基于累积奖赏及学习方式存在非常巨大的搜索空间,传统的强化学习不能很好的解决问题。

而我们先通过模仿学习学得初始策略模型,然后在通过强化学习改进模型,获得更好的策略,就可以较好地解决多步决策问题。更多关于模仿学习的的知识,比如逆强化学习什么的,之后我也可能会写,这里先推荐一篇文章吧,有兴趣可以了解。

普通程序员转型深度学习指南推荐

欢迎关注公众号学习交流~

欢迎加入交流群交流学习

本文来自企鹅号 - 机器学习算法与自然语言处理媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法工程师

阿里资深 AI 工程师教你逐个击破机器学习核心算法

近年来,随着 Google 的 AlphaGo 打败韩国围棋棋手李世乭之后,机器学习尤其是深度学习的热潮席卷了整个 IT 界。

1613
来自专栏数据科学与人工智能

【算法】机器学习和数据科学最常用到的TOP10算法

数据科学的实践,需要使用算法和数据科学方法,来帮助数据专业人员从数据中提取洞察力和价值。Kaggle最近的一项调查显示,数据专家在2017年比其他数据科学方法更...

3454
来自专栏人工智能头条

入坑机器学习,十个知识点你不得不知

1452
来自专栏AI科技评论

干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结

AI 科技评论按:深度学习在2006年崭露头角后,近几年取得了快速发展,在学术界和工业界均呈现出指数级增长的趋势;伴随着这项技术的不断成熟,深度学习在智能语音领...

4309
来自专栏CSDN技术头条

入坑机器学习,必知必会的十个知识点

这篇文章主要面向的是非专业的读者,简单直白地介绍了机器学习的概念、内涵、以及机器学习的相关问题。对于专业人士而言也可以依据这篇文章对机器学习的概念做更深入的理解...

2317
来自专栏码云1024

入坑机器学习,你首先得知道这十个知识点...

编者按:本文由微信公众号“将门创投”(ID:thejiangmen)编译,来源:Medium,编译:Tom R。

45714
来自专栏机器之心

GMIS 2017 | 第四范式首席研究科学家陈雨强:机器学习模型,宽与深的大战

机器之心原创 机器之心编辑部 5 月 27 日,机器之心主办的为期两天的全球机器智能峰会(GMIS 2017)在北京 898 创新空间顺利开幕。中国科学院自动化...

3406
来自专栏机器学习算法与Python学习

机器学习(36)之协同过滤典型算法概述【精华】

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 前言 推荐算法具有非常多的应用场景和...

4866
来自专栏AI研习社

我们应当如何理解视频中的人类行为?

最近 ICCV 2017 公布了论文录用的情况,我照例扫了一遍论文列表寻找感兴趣的文章。“What Actions are Needed for Underst...

3088
来自专栏机器学习算法原理与实践

协同过滤推荐算法总结

    推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤...

2052

扫码关注云+社区

领取腾讯云代金券