强化学习笔记1：基本概念

列夫托尔斯昊

发布于 2020-08-31 14:18:18

4460

发布于 2020-08-31 14:18:18

文章被收录于专栏：探物及理

概述

强化学习是一门多学科交叉的技术

与传统控制的关系：

相似性：

RL	traditional control
agent	controller
env	plant + enviroment
reward	feedback（error signals）
value	optimize function

不同点：
- 传统的控制：将任务分解成多个任务的串并联，设计（子）控制器
- 机器学习：将控制器压缩成黑盒Black box

强化学习不同于监督、非监督学习（与静态数据交互），与环境产生交互，产生最优结果的动作序列。

基础概念

RL组成要素Agent、Env

Agent

组成要素：Policy、Value function、Model其中至少一个

策略(Policy)：observation to action的映射

价值(value function)：未来奖励的预测（期望）

模型Model：

环境Env

完全可观测环境

个体观测=个体状态=环境状态标准的**MDP **

部分可观测环境

环境不完全可观测

解决办法

概念区分

学习和规划 Learning & Planning

学习：环境初始时是未知的，个体不知道环境如何工作，个体通过与环境进行交互，逐渐改善其行为策略。
规划: 环境如何工作对于个体是已知或近似已知的，个体并不与环境发生实际的交互，而是利用其构建的模型进行计算，在此基础上改善其行为策略。一个常用的强化学习问题解决思路是，先学习环境如何工作，也就是了解环境工作的方式，即学习得到一个模型，然后利用这个模型进行规划。

预测和控制 Prediction & Control

在强化学习里，我们经常需要先解决关于预测（prediction）的问题，而后在此基础上解决关于控制（Control）的问题。

预测：给定一个策略，评价未来。可以看成是求解在给定策略下的价值函数（value function）的过程。How well will I(an agent) do if I(the agent) follow a specific policy?
控制：找到一个好的策略来最大化未来的奖励。

探索和利用 Exploration & Exploitation

试错的学习，个体需要从其与环境的交互中发现并执行一个好的策略，同时又不至于在试错的过程中丢失太多的奖励。探索和利用是个体进行决策时需要平衡的两个方面

其他概念

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2020-08-27 ，如有侵权请联系 cloudcommunity@tencent.com 删除

强化学习

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

强化学习

登录后参与评论

0 条评论

热度

强化学习笔记1：基本概念

强化学习笔记1：基本概念

概述

与传统控制的关系：

基础概念

Agent

策略(Policy)：observation to action的映射

价值(value function)：未来奖励的预测（期望）

模型Model：

环境Env

完全可观测环境

部分可观测环境

解决办法

概念区分

学习和规划 Learning & Planning

预测和控制 Prediction & Control

探索和利用 Exploration & Exploitation

其他概念

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐