首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

什么是强化学习(一)

今天开始我讲连续三天用最简单浅显的语言给大家介绍下什么是强化学习?

首先给大家定位下强化学习在整个机器学习领域是一个什么样的位置。强化学习属于机器学习的一个分支,与其平行的有监督学习、无监督学习等,而近些年AlphaGo Zero、各种游戏AI的兴趣其实就是在强化学习的思想下加上了近些年火热的深度学习,组成强化深度学习(Deep Reinforce Learning, DRL)。

这里先解释一下强化学习这个名字。为什么叫强化学习呢?因为这个过程是不断的重复、不断强化认知,英文Reinforcement Learning 中的 Reinforcement 更准确的中文翻译也是“强化”。

现在智能体处于一个很暗的环境之中,意思是它并不知道这个环境里面到底是什么,这也是我们希望计算机通过强化学习能做到的事——把它扔到一个未知的环境里面,它能够通过和环境打交道来适应这个环境,学习到做什么动作才是最好的。

这里最关键的因素是三个:智能体(Agent)、状态(State)、奖励(Reward)。对于Agent来说,自身具备的选择决策的能力,叫做策略。这个策略意思就是,观测到了环境现在处于什么状态,而选择做出什么动作出来。

这个智能体不是做一次决策就完成了学习的过程。实际上,它要做的是一个序列的决策;我们怎么评判智能体策略的好坏呢?一般评判的形式就是,它能拿到的奖赏会有多大。每一步都可能有奖赏,所以评判的形式是把总的奖赏加起来看看它有多大。

强化学习(RL)和监督学习(Supervised Learning, SL)的不同?

刚才说到强化学习和监督学习有很多相似的地方,比如说模型实际上是一样的。那它们之间有何差异呢?

两者的主要区别,一个是开环学习,一个是闭环学习。首先,在监督学习里,数据是分成观测的特征值和一个标记。这个标记的含义是,看到这样一个观测的值、特征以后,应该做出什么样的预测。

两者最核心的区别,在于强化学习需考虑自身对环境的影响。

明天我将解释强化学习的决策过程和具体应用

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190124G01SPG00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券