前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习(Reinforcement Learning)

强化学习(Reinforcement Learning)

作者头像
double
发布2020-02-21 10:29:18
7130
发布2020-02-21 10:29:18
举报
文章被收录于专栏:算法channel算法channel

强化学习(Reinforcement Learning)是机器学习领域的三大分支之一,另外两种是我们熟知的监督学习,和非监督学习方法。

强化学习也广泛的存在于我们的日常生活工作中。

比如,我们把一只猫放在一个屋子里,这个屋子里也同时放有小猫爱吃的小鱼。这只猫试图去寻找小鱼。刚开始的时候,这只小猫可能会很随机的找来找去,然而随着小猫呆在这个屋子里的时间越长,它再寻找小鱼的时候就越来越不随机了。也就是说小猫之前的寻找经历帮助它会越来越容易的找到它想吃的小鱼。

上面这个例子便是强化学习的思想,也就是说强化学习是一种帮助智能体(agent)从经验中学习的一种机器学习方法。它是一个通过记录在一个环境中的行动,使用尝试错误或者不断的试错法而最大化预计累计奖励(cumulative reward). 在我们上面的那个例子中,这个猫就是智能体agent,屋子就是环境environment,一组可能的小猫的动作actions包括比如向前,向后,向左, 向右等等。这个奖励reward就是小鱼。

强化学习和监督学习是不一样的。在监督学习中,我们用历史已知的数据来训练智能体agent,而且训练的时候,数据是有label的,也就是说我们会告诉什么样的动作action是正确的。这样的话,智能体经过训练之后,就会在新的数据上进行预测了。监督学习可以解决分类问题和回归问题。

然而,强化学习不依赖于有标签label的数据。我们不会告诉智能体什么样的行动是正确的,它是通过奖罚的方式来启示智能体的某个行动是好的还是坏的。也就是我们上面提到的,强化学习是通过延时反馈和错误尝试去获得学习而得到最大奖励的一种方法,这也是它和监督学习的一个区别。

强化学习也不同于非监督学习方法。在非监督学习中,我们会分析没有标签的数据,从而试图找到数据点潜在的联系和关系,从而确定相似性或者不同性。而强化学习却是试图找到最好的行动从而得到最大的长期的奖励,所以它和非监督学习也是不一样的。

在1997年,IBM的Deep Blue 战胜了人类最厉害的象棋冠军。在最近的2016,AlphaGo也打败了最好的Go player。他们都是基于强化训练的模型。强化学习应用于广告业,机器人训练等领域中。

图片来自这里(https://commons.wikimedia.org/wiki/File:Rl_agent.png)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-02-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员郭震zhenguo 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档