【推荐】一文了解强化学习

摘要

转自:极客头条

强化学习非常重要,原因不只在于它可以用来玩游戏,更在于其在制造业、库存、电商、广告、推荐、金融、医疗等与我们生活息息相关的领域也有很好的应用。

本文结构:

  1. 定义
  2. 和监督式学习, 非监督式学习的区别
  3. 主要算法和类别
  4. 应用举例

1. 定义

强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决 decision making 问题,即自动进行决策,并且可以做连续决策。

它主要包含四个元素,agent,环境状态,行动,奖励, 强化学习的目标就是获得最多的累计奖励。

让我们以小孩学习走路来做个形象的例子:

小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。

小孩就是 agent,他试图通过采取行动(即行走)来操纵环境(行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能走路时,就不会给巧克力。

2. 强化学习与监督式、非监督式学习的区别

在机器学习中,我们比较熟知的是监督式学习,非监督学习,此外还有一个大类就是强化学习:

强化学习和监督式学习的区别:

监督式学习就好比你在学习的时候,有一个导师在旁边指点,他知道怎么是对的怎么是错的,但在很多实际问题中,例如 chess,go,这种有成千上万种组合方式的情况,不可能有一个导师知道所有可能的结果。

而这时,强化学习会在没有任何标签的情况下,通过先尝试做出一些行为得到一个结果,通过这个结果是对还是错的反馈,调整之前的行为,就这样不断的调整,算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。

就好比你有一只还没有训练好的小狗,每当它把屋子弄乱后,就减少美味食物的数量(惩罚),每次表现不错时,就加倍美味食物的数量(奖励),那么小狗最终会学到一个知识,就是把客厅弄乱是不好的行为。

两种学习方式都会学习出输入到输出的一个映射,监督式学习出的是之间的关系,可以告诉算法什么样的输入对应着什么样的输出,强化学习出的是给机器的反馈 reward function,即用来判断这个行为是好是坏。

另外强化学习的结果反馈有延时,有时候可能需要走了很多步以后才知道以前的某一步的选择是好还是坏,而监督学习做了比较坏的选择会立刻反馈给算法。

而且强化学习面对的输入总是在变化,每当算法做出一个行为,它影响下一次决策的输入,而监督学习的输入是独立同分布的。

通过强化学习,一个 agent 可以在探索和开发(exploration and exploitation)之间做权衡,并且选择一个最大的回报。 exploration 会尝试很多不同的事情,看它们是否比以前尝试过的更好。 exploitation 会尝试过去经验中最有效的行为。

一般的监督学习算法不考虑这种平衡,就只是是 exploitative。

强化学习和非监督式学习的区别:

非监督式不是学习输入到输出的映射,而是模式。例如在向用户推荐新闻文章的任务中,非监督式会找到用户先前已经阅读过类似的文章并向他们推荐其一,而强化学习将通过向用户先推荐少量的新闻,并不断获得来自用户的反馈,最后构建用户可能会喜欢的文章的“知识图”。

强化学习已经成为人工智能发展的一个重要方向,Alpha Zero的算法也再一次向世人展示了强化学习的强大之处。而它的孪生兄弟——反向强化学习,也同样具有很强的理论与应用价值。

原文链接:

http://geek.csdn.net/news/detail/201928

原文发布于微信公众号 - 顶级程序员(TopCoding)

原文发表时间:2017-11-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

我从吴恩达深度学习课程中学到的21个心得:加拿大银行首席分析师“学霸“笔记分享

1683
来自专栏AI科技大本营的专栏

五个案例,三大心得,Meratix创始人带你进阶深度学习的实践应用之路

不谈理论,只谈实战。 当我们需要用深度学习处理现实问题时,除了相关的技术和数据,你还需要掌握一系列的小诀窍,并将这些技巧用在级联模型、智能增强、合理的评价标...

3719
来自专栏人工智能LeadAI

为什么在实际的 kaggle 比赛中 gbdt 和 random forest 效果非常好?

这是一个非常好,也非常值得思考的问题。换一个方式来问这个问题:为什么基于 tree-ensemble 的机器学习方法,在实际的 kaggle 比赛中效果非常好?...

4303
来自专栏人工智能快报

Nvidia最新AI技术可制作以假乱真的视频

Nvidia人工智能研究人员开发出了一种无人监督的计算机学习方法,允许其对源视频进行彻底的改变,从而出产惊人的内容,如能够制作出如假包换的天气、昼夜效果,甚至改...

2984
来自专栏机器之心

学界 | 为数据集自动生成神经网络:普林斯顿大学提出NeST

3285
来自专栏后端技术探索

白话AI

过去我们用通过编写设定程序来直接让计算机完成某些特定任务,现在,我们还可以训练计算机,就像我们训练宠物一样。这就是用大白话来解释机器学习。当然了,对于一些相对简...

876
来自专栏PPV课数据科学社区

学习攻略 | 机器学习和深度学习技能树、面试宝典

人工智能的浪潮正在席卷全球,这些得益于数据量的上涨、运算力的提升和机器学习新算法(深度学习)的出现。机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习...

4145
来自专栏SIGAI学习与实践平台

【揭秘】我几乎面了所有知名公司的算法岗位

到了6月的时候,找了本科的数学教材开始微积分,线性代数和概率论的复习。主要挑选一些算法学习中常用的知识点进行回顾,如:偏微分、泰勒展开、拉格朗日函数、傅里叶变换...

1532
来自专栏腾讯开源的专栏

腾讯将添 AI 开源项目! 腾讯 AI Lab 开源业内最大规模多标签图像数据集

2018年9月10日,深圳 - 今日,腾讯AI Lab宣布将于9月底开源“Tencent ML-Images”项目,该项目由多标签图像数据集ML-Images...

1182
来自专栏ATYUN订阅号

【学术】欺骗图像识别技术,只需改变一个像素即可将狗变成汽车

日本九州大学的一个团队开发了一种欺骗图像识别技术的新方法。对许多研究人员来说,一般的方法是给图像添加一些功能,这些图像会错误地触发神经网络,并让它识别出它所看到...

4487

扫码关注云+社区

领取腾讯云代金券