首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习方法篇-增强学习入门

➤导语

在小斗去年五月份写的AlphaGo技术剖析:揭开围棋大脑的神秘面纱这篇介绍AlphaGo的文章中讲到,AlphaGo之所以能战胜人类顶尖的围棋手,主要是增强策略网络的功劳。而增强策略网络的核心技术,便是增强学习。那么,增强学习到底是什么?

>>>>

增强学习

增强学习(Reinforcement Learning),又名强化学习,和监督学习、无监督学习一样,也是机器学习的一个分支。

不过,和监督学习、无监督学习相比,增强学习不一定需要大量的训练数据,而更像是一种从零开始通过“左右互搏”的方式提高模型能力的一种学习方式。其主要有以下四个特点:

1.没有标签数据、只有奖励信号;

2.奖励信号不一定实时反馈,有时甚至延迟较大;

3.时间序列是一个重要因素;

4.当前行为影响后续行为。

下面讲讲增强学习的几个主要概念:

时间序列元素每一个时刻t都包含三个元素:Ot、At、Rt。Ot表示对当前t时刻环境的观察;At表示对当前观测所做出的一个行为;Rt表示t-1时刻行为所带来的奖励,是一个标量,也是增强学习的优化目标。

个体和环境在t时刻,个体对于环境有一个观察评估Ot,然后做出一个行为At,并从环境得到一个奖励信号Rt+1;而环境则在t时刻接收个体的动作At,更新环境信息,同时使个体得到下一时刻的观测Ot+1,并给个体一个奖励信号Rt+1。

历史和状态历史是观测、行为、奖励的序列。状态是用于决定将来的已有信息,是关于历史的一个函数:St = f(Ht)。状态又分为个体状态、环境状态和信息状态。

个体一般由以下三个组成部分中的一个或多个组成:

策略函数决定个体行为的方式,是状态到行为的映射。

价值函数对未来奖励的一种预测,用于评价当前状态的好坏程度。

模型个体对环境的建模。模型一般需要解决两个问题:一是状态转化概率,即预测未来可能状态的发生概率;二是预测未来的即时奖励。

增强学习的学习过程可以比作成一种试错学习,个体一方面需要从与环境的交互中发现一个好策略,另一方面又不至于在试错过程中损失太多奖励。

增强学习广泛应用于直升机特技飞行、经典游戏、投资管理、发电站控制、让机器人模仿人类行走等方面。

以上便是增强学习的入门讲解,敬请期待下节内容。

结语

感谢各位的耐心阅读,后续文章于每周日奉上,欢迎大家关注小斗公众号对半独白

每周一言

别让梦想的附属品喧宾夺主。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180304G0T7BQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券