前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Machine Learning哪家强 强化学习So Strong

Machine Learning哪家强 强化学习So Strong

作者头像
用户1682855
发布2018-10-22 14:31:01
5520
发布2018-10-22 14:31:01
举报
文章被收录于专栏:前沿技墅前沿技墅

本文作者 张玉宏

博士毕业于电子科技大学,美国西北大学访问学者,现执教于河南工业大学。中国计算机协会(CCF)会员,CCF YOCSEF郑州2018—2019年度副主席,ACM/IEEE会员。《品味大数据》一书作者。主要研究方向为大数据、人工智能、技术哲学。发表学术论文20余篇,国内外学术作品7部。阿里云云栖社区专栏作家,博文累计阅读逾百万次。

强化学习的背景

在上一篇文章中(阅读请扫描下方二维码),我们感性地认知了机器学习的三大门派:监督学习、非监督学习、半监督学习。在传统的机器学习分类中,并没有包含强化学习。但实际上,在连接主义学习中,还有一类人类学习常用、机器学习也常用的算法—强化学习(Reinforcement Learning,简称RL)。

《“机器学习”三重门 “中庸之道”趋若人 》

机器学习的本质,在于改善机器的“智能”水平。那我们就要问了:什么是智能?关于智能的定义有很多,正所谓“仁者见仁,智者见智”。

比如说,中国另一位先哲孟子说:“是非之心,智也。”孟子认为,能分辨是非得失,就是有智能的表现。而这里的“是非”之别,在西方可用莎士比亚的名句“to be or not to be”来概括。

在智能的世界里,它既包含了逻辑,同时也包含了大量的非逻辑成分,比如说模糊、直觉、非公理等因素。

哈弗大学罗兰科学研究所(Rowland Institute for Science)教授威尔逊(Stewart Willson)对此也有自己独到的见解。他认为,关于对智能的认识,我们应当向大自然学习。

在大自然中,智能的表现与生物体对生存的需求紧密相关。正是生存的压力和动力,不断划清自然界中的不同问题,并逐步习得解决这些问题的能力,从而使得生物表现出多样性,进而也表现出不同层面的智能。

其实,威尔逊教授的核心观点说的是,从环境中交互获得智能。而“强化学习”就是一种从环境交互中改善自己性能的机器学习方式。

什么是强化学习

强化学习也是机器学习里面非常重要的一个流派。“强化学习”亦称“增强学习”,但它与监督学习和非监督学习都有所不同。强化学习强调的是,在一系列的情景之下选择最佳决策,它讲究通过多步恰当的决策来逼近一个最优的目标,因此它是一种序列多步决策的问题。

强化学习的设计灵感,源于心理学中的行为主义理论:有机体如何在环境给予的奖励或惩罚刺激下,逐步形成对刺激的预期,从而产生能获得最大利益的习惯性行为。

上面的论述看起来比较抽象,下面我们举一个生活中的例子来说明这个概念。对于儿童教育,有句话非常流行:“好孩子是表扬出来的”。

这句话很有道理,它反映了生物体以奖励为动机的行为。比如,我们知道,让一个小孩子静下来学习,这是十分困难的。但如果父母在他每复习完一篇课文时就说一句“你真棒”并奖励他一块巧克力,那么他就会明白,只有不断学习才能获得奖励,从而也就更有劲头学习了。

“表扬”本身并不等同于监督学习的“教师信号”(即告诉你行为的正误),却也能逐步引导任务向最优解决方案进发。因此,强化学习也被认为是人类学习的主要模式之一。监督学习、强化学习与非监督学习的区别,如下图所示。

监督学习、强化学习与非监督学习的区别

一个形象的例子

恰如其分地拿捏尺度,显然是智能的外在表现之一。“过犹不及”说得就是这个道理。那么,强化学习是如何让智能体从环境中学习,找到这个“尺度”的呢?下面我们举例来感性认知一下,人类是怎么从环境中学习的。

感性认知强化学习

如上图所示假设,我们还是一个懵懂的孩子,对于一些新事物一无所知。有一天,我们第一次看到了火,然后就爬到了火堆的旁边。在靠近火的过程中,感受到了火的温暖,觉得好舒服啊。这时环境给我们的回报为“+1”分。于是,我们接着爬向火堆,越靠越近,然后伸手尝试摸火,发现好烫啊,这时环境给我们的回报为“-10”分,这是要警告我们需要赶紧把手缩回来,滚远一点,否则小手就变成“烤猪蹄”了。

这样一来二去,我们从“环境”中习得一项智能:距离稍远,火是好东西。靠得太近,火就不是好东西!

这就是人类的学习方式,与环境交互,增强智能。其实,强化学习在理念上和这个例子是一致的,不同的是,主角变成了计算机(智能体)。

经典的“西瓜”

在雅称为“西瓜书”的《机器学习》一书中,南京大学的周志华教授就用种西瓜的例子来说明“强化学习”的含义,也别有意义。

考虑一下种西瓜的场景。西瓜从播种到瓜熟蒂落,中间要经过很多步骤。首先得选种,然后播种、定期浇水、施肥、除草、杀虫等,最后收获西瓜。这个过程要经过好几个月。如果把收获高品质的西瓜作为辛勤劳作奖赏的话,那么在种瓜过程中实施某个操作(如浇水、施肥等)时,我们并不能立即得到相应的回报,甚至也难以判断当前操作对最终回报(收获西瓜)有什么影响,因为浇水或施肥并不是越多越好。

然而,即使我们一下子还不能看到辛勤劳作的最终成果,但还是能得到某些操作的部分反馈。例如,瓜秧是否更加茁壮了?通过多次的种瓜经历,我们终于掌握了播种、浇水、施肥等一系列工序的技巧(相当于参数训练),并最终能够收获高品质的西瓜。如果把这个种瓜的过程抽象出来,它就是我们说到的强化学习,如下图所示。

强化学习示意图

在机器学习问题中,环境通常被规范为一个马可夫决策过程(Markov Decision Processes,MDP),许多强化学习算法就是在这种情况下使用动态规划技巧。

强化学习输出的就是一个由状态、奖励和行动组成的序列。而智能体的目标,就是让预期累积回报最大化。

强化学习“强”在哪里

强化学习并不需要出现正确的“输入/输出对”,也不需要精确校正次优化的行为。深度学习“妙”在不需要做特征工程,而强化学习则“强”在不需要准备大量的训练样本,它重视的是环境给予的反馈。

强化学习更好地体现了人们(高智能动物)的为人处世原则:“这世间,没有对错(非黑即白)之分,只有利害之度量”。

强化学习更专注于在线规划,需要在“探索”(在未知的领域)和“利用”(现有知识)之间找到平衡。强化学习中的“探索-利用”的交换,这在多臂老虎机问题和有限MDP中研究得较多。

与强化学习相关的一则报道是,2017年10月,Google深度思维团队在著名学术期刊Nature(自然)上发表了一篇论文“Mastering the game of Go without humanknowledge(无须人类知识,精通围棋博弈),他们设计了AlphaGo(阿法狗)的升级版AlphaGo Zero(阿法元),阿法元从零开始,不需要人类任何历史围棋棋谱做指导,完全靠强化学习来参悟,自学成才,并以100∶0击败了阿法狗。

论文的第一作者、AlphaGo创始人之一大卫·席尔瓦(David Silver)指出:“阿法元远比阿法狗强大,因为它不再被人类的知识所局限,而是能够发现新知识,发现新策略。”这确实是机器学习进步的一个重要标志!

————

本文节选自博文视点新书《深度学习之美:AI时代的数据处理与最佳实践》,本书深入浅出地介绍了深度学习的相关理论和实践,零入门 | 高可读| 重实战 | 抓前沿!是一本准受用的深度学习入门教程,集各项前沿技术之大成!没赶上上次的新鲜胶囊,千万不可再次错过阅读原文为你开启的任意门,帮你建设四化、学有所强。

  • 内容简介:深度学习是人工智能的前沿技术。本书深入浅出地介绍了深度学习的相关理论和实践,全书共分16章,采用理论和实践双主线写作方式。第1章给出深度学习的大图。第2章和第3章,讲解了机器学习的相关基础理论。第4章和第5章,讲解了Python基础和基于Python的机器学习实战。第6至10章,先后讲解了M-P模型、感知机、多层神经网络、BP神经网络等知识。第11章讲解了被广泛认可的深度学习框架TensorFlow。第12章和第13章详细讲解了卷积神经网络,并给出了相关的实战项目。第14章和第15章,分别讲解了循环递归网络和长短期记忆(LSTM)网络。第16章讲解了神经胶囊网络,并给出了神经胶囊网络设计的详细论述和实践案例分析。
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-09-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 前沿技墅 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 什么是强化学习
  • 一个形象的例子
  • 经典的“西瓜”
  • 强化学习“强”在哪里
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档