前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【强化学习篇】--强化学习从初识到应用

【强化学习篇】--强化学习从初识到应用

作者头像
LhWorld哥陪你聊算法
发布2018-09-13 15:13:43
5240
发布2018-09-13 15:13:43
举报
文章被收录于专栏:LhWorld哥陪你聊算法

一、前述

强化学习是学习一个最优策略(policy),可以让本体(agent)在特定环境(environment)中,根据当前的状态(state),做出行动(action),从而获得最大回报(G or return)。

通俗点说:学习系统没有像很多其它形式的机器学习方法一样被告知应该做出什么行为,必须在尝试了之后才能发现哪些行为会导致奖励的最大化,当前的行为可能不仅仅会影响即时奖励,还会影响下一步的奖励以及后续的所有奖励。

二、具体

1、相关定义

 智能体 (agent):我们要操控的实物。比如上述中的车。

 状态 (state):当前什么样的环境状态。

 行为 (action):下一步的操作。

 奖励:对不同的操作结果,都有衡量指标,一个奖励值。

 策略:一系列相关行为的组合达到最大的一个奖励值,就是一个策略。

 强化学习的过程:先行动,再观察 再行动 再观测…

 每一个动作(action)都能影响代理将来的状态(state),通过一个标量的奖励(reward)信号来衡量成功,目标:选择一系列行动来最大化未来的奖励。

小车举例:

 马尔科夫决策要求:

1.能够检测到理想的状态 2.可以多次尝试 3.系统的下个状态只与当前状态信息有关,而与更早之前的状态无关 在决策过程中还和当前采取的动作有关

马尔科夫决策过程由5个元素构成:

过程:

1.智能体初始状态为S0 2.选择一个动作a0 3.按概率转移矩阵Psa转移到了下一个状态S1 然后。。。

状态价值函数:

Bellman方程:  当前状态的价值和下一步的价值及当前的奖励(Reward)有关价值函数分解为当前的奖励和下一步的价值两部分,类似递归。

 在某个状态(state)下最优价值函数的值,就是智能体(agent)在该状态下,所能获得的累积期望奖励值(cumulative expective rewards)的最大值.

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-06-30 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档