【强化学习篇】--强化学习从初识到应用

一、前述

强化学习是学习一个最优策略(policy),可以让本体(agent)在特定环境(environment)中,根据当前的状态(state),做出行动(action),从而获得最大回报(G or return)。

通俗点说:学习系统没有像很多其它形式的机器学习方法一样被告知应该做出什么行为,必须在尝试了之后才能发现哪些行为会导致奖励的最大化,当前的行为可能不仅仅会影响即时奖励,还会影响下一步的奖励以及后续的所有奖励。

二、具体

1、相关定义

 智能体 (agent):我们要操控的实物。比如上述中的车。

 状态 (state):当前什么样的环境状态。

 行为 (action):下一步的操作。

 奖励:对不同的操作结果,都有衡量指标,一个奖励值。

 策略:一系列相关行为的组合达到最大的一个奖励值,就是一个策略。

 强化学习的过程:先行动,再观察 再行动 再观测…

 每一个动作(action)都能影响代理将来的状态(state),通过一个标量的奖励(reward)信号来衡量成功,目标:选择一系列行动来最大化未来的奖励。

小车举例:

 马尔科夫决策要求:

1.能够检测到理想的状态 2.可以多次尝试 3.系统的下个状态只与当前状态信息有关,而与更早之前的状态无关 在决策过程中还和当前采取的动作有关

马尔科夫决策过程由5个元素构成:

过程:

1.智能体初始状态为S0 2.选择一个动作a0 3.按概率转移矩阵Psa转移到了下一个状态S1 然后。。。

状态价值函数:

Bellman方程:  当前状态的价值和下一步的价值及当前的奖励(Reward)有关价值函数分解为当前的奖励和下一步的价值两部分,类似递归。

 在某个状态(state)下最优价值函数的值,就是智能体(agent)在该状态下,所能获得的累积期望奖励值(cumulative expective rewards)的最大值.

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI派

吴恩达|机器学习秘籍(Machine Learning Yearning)

人工智能(AI)、机器学习(Machine Learning )和深度学习(Deep Learning )正在改变很多行业,吴恩达(Andrew Ng)老师编写...

1504
来自专栏ATYUN订阅号

NVIDIA新的人工智能技术:机器人观察人类行为,与人类共同完成任务

NVIDIA的研究人员开发了一个基于深度学习的系统,可以教导机器人通过观察人类的行为来完成任务。该方法旨在加强人与机器人之间的沟通,同时进一步研究将使人们能够与...

1275
来自专栏AI研习社

从数据预处理到排序算法,全方位解读 Uber 人工智能客服 COTA

日前,Uber 官网上的一篇文章详细介绍了基于 NLP 和机器学习构建的 COTA 客服系统。利用该系统,Uber 可以快速高效地解决 90% 以上的客服问题,...

3227
来自专栏AI科技大本营的专栏

机器学习的四十三条经验法则——来自谷歌的ML工程最佳实践

本文主要围绕的是谷歌公司(Google)在机器学习方面的经验,旨在为那些具备一定机器学习基础的读者提供最佳的经验法则。文章向读者展现机器学习经验法则的方式,与谷...

3136
来自专栏智能算法

推荐算法概览

原文:Overview of Recommender Algorithms 作者: MAYA.HRISTAKEVA 译者: 孙薇 推荐算法概览(一) 为推...

4177
来自专栏ATYUN订阅号

在视频网站Netflix上进行个性化算法的创新 迎合你的口味排序视频

Netflix是一家美国在线视频网站。Netflix的视频体验是由一系列排名算法(Ranking Algorithm)组成的,每一种算法都针对不同的目的进行优化...

3225
来自专栏ATYUN订阅号

【指南】非技术人员的机器学习指南:如何轻松地进入机器学习

世界末日 首先,我们听说机器人正在做蓝领工作。 ? 然后,我们发现白领工作也不安全。 ? 在我们恐慌我们将要失业,我们发现这些机器人正在背后议论我们。 ? 可能...

3666
来自专栏机器之心

学界 | 北京大学研究者提出注意力通信模型ATOC,助力多智能体协作

2124
来自专栏大数据挖掘DT机器学习

机器学习工程师31门课程(视频):从新手到专业

机器学习不仅仅是模型 产生这个问题的原因就是所有人都以为机器学习的模型就是机器学习本身,以为对那些个算法理解了就是机器学习的大牛了,但实际上完全不是这样的。 ...

38518
来自专栏AI科技评论

深度 | 自动化机器学习将成为下一个AI研究主流?听听数据科学家怎么说

AI科技评论按:在过去的一年当中,自动化机器学习已经成为一个众人感兴趣的话题。KDnuggets举办了一个关于该话题的博客大赛。结果喜人,有很多有意思的想法与项...

3889

扫码关注云+社区