什么时候强化学习未必好用?

作者 Jason Xie

编译 Erica Yi

编辑 Emily

强化学习(reinforcement learning)描述的是个体(agent)必须在环境(environment)中采取行动(action),以最大化设定的奖励(reward)函数的学习问题的集合。

不同于监督式深度学习,强化学习并不会出现大量明确标记好的输入 /输出对数据。大部分的强化学习都在网上进行,也就是说当个体积极地与它的环境进行多次迭代互动时,它最终开始学习采取怎样的行为会使自身奖励最大化的方案(policy)。

强化学习建立问题模型需要满足几个条件:

你可以量化环境描述中所有的变量,并且能够在每个时间步或者状态访问这些变量

上述两个条件,现实世界中几乎无法满足。在大多数的情况下,你往往只能访问部分的信息。而且因为这些信息是以个体为中心的观点(至少在机器人和未知环境互动的情况下)来衡量的,所以你访问的信息可能本身就有误,需要进一步的推断。

你可以定义一个具体的奖励函数(concrete reward function)并计算采取某种行动的奖励

奖励函数可能并不明显。比如,如果我设计了一个个体来为自动驾驶的车辆执行路径规划,我们应该如何从数学上来表达奖励呢?我们又如何知道我们定义的奖励函数是“好的”呢?

一种能解决这个问题的方法是 inverse reinforcement learning(PDF)

你能够承担起犯错的代价

无后顾之忧地去探索的自由不常有。如果我想基于强化学习开发一个自动驾驶车辆,它要撞成千上万次才能做出最简单的演习?

不应忽视的是,尽管如此,在模拟情景下的训练也已经在现实世界中让性能得到了提升,(见 Playing for Data: Ground Truth from Computer Games一文)

你有时间

因为强化学习主要在网上进行,所以为了建立一个有效的模型,你需要进行很多很多次的试验。当手边的任务很简单,行动是离散的,信息已经存在的情况下,这是可以接受的。但是在很多的情况下,问题表达式(problem formulation)要复杂得多,你必须在模拟器的准确度和训练时间以及实时性能的约束之间取得平衡。正是由于这些局限性,所以最近在强化学习方面的成功几乎完全是在模拟的受控环境中取得的(想想 DeepMind对 Atari和 AlphaGo的研究)。我们仍需要大量的研究,来克服这些局限性并使深度强化学习能够更有效的用于实时个体。

作者简介

Jason Xie是一名对 AI和机器人感兴趣的学生。保持好奇,保持学习。

https://www.kdnuggets.com/2017/12/when-reinforcement-learning-not-used.html

本文来自企鹅号 - AI漫游媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

视频教程【第12期】 | 教你用5分钟搭建RNN(循环神经网络)

编译 | AI科技大本营(rgznai100) 循环神经网络或递归神经网络(Recurrent Neural Networks)可以描述动态时间行为,和前馈神经...

34240
来自专栏AI科技大本营的专栏

洪小文:以科学的方式赤裸裸地剖析AI(二)|从寒冬到复兴

近两年来,人工智能掀起的全民热潮可谓前所未有,几乎每行每业都在积极向机器学习、大数据、深度神经网络等这些“网红”技术靠拢。然而,在人工智能遍地生花的今天,更加令...

38460
来自专栏数据科学与人工智能

【数据挖掘】客户价值分析

使用RFM方法(最近购买日Recency, 各期购买频率Frequency, 各期平均单次购买金额Monetary)能够科学地预测老客户(有交易客户)今后的购买...

299100
来自专栏数据派THU

17张思维导图,一网打尽机器学习统计基础(附下载)

来源:大数据文摘 作者:小越酱 原文: https://zhuanlan.zhihu.com/p/25884239?utm_medium=social&utm_...

1.4K90
来自专栏牛客网

头条推荐算法offer面经

51500
来自专栏机器人网

17张思维导图,全面掌握机器学习的统计基础知识

原图下载:https://pan.baidu.com/s/1midnOSC 本文用一系列「思维导图」由浅入深的总结了「统计学」领域的基础知识,是对之前系列文章...

35580
来自专栏深度学习之tensorflow实战篇

textrank算法原理与提取关键词、自动提取摘要PYTHON

首先介绍原理与概念 TextRank 算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 PageRank算法(其原理在本文在下面), 通过把文本分割...

90760
来自专栏专知

基于TensorFlow的机器学习速成课程25讲视频全集(23-25讲)

22040
来自专栏大数据文摘

暑期追剧学AI | 油管网红带你搞定机器学习中数学思维(一)

21770
来自专栏专知

【最新】2018斯坦福cs224n深度学习与NLP课程又开课了(附ppt下载)

Stanford大学在2015年开设了一门深度学习与NLP课程(Deep Learning for Natural Language Processing)的课...

1.6K80

扫码关注云+社区

领取腾讯云代金券