前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >强化学习笔记1:基本概念

强化学习笔记1:基本概念

作者头像
列夫托尔斯昊
发布2020-08-31 14:18:18
4110
发布2020-08-31 14:18:18
举报
文章被收录于专栏:探物及理探物及理

概述

强化学习是一门多学科交叉的技术

截屏2020-07-27 下午5.35.46
截屏2020-07-27 下午5.35.46

与传统控制的关系:

  • 相似性:

RL

traditional control

agent

controller

env

plant + enviroment

reward

feedback(error signals)

value

optimize function

  • 不同点:
    • 传统的控制:将任务分解成多个任务的串并联,设计(子)控制器
    • 机器学习:将控制器压缩成黑盒Black box

强化学习不同于 监督、非监督学习(与静态数据交互),与环境产生交互,产生最优结果的动作序列。

基础概念

RL组成要素Agent、Env

Agent

组成要素:Policy、Value function、Model其中至少一个

策略(Policy):observation to action的映射

截屏2020-07-27 下午7.07.57
截屏2020-07-27 下午7.07.57

价值(value function):未来奖励的预测(期望)

模型Model:

环境Env

完全可观测环境

个体观测=个体状态=环境状态 标准的**MDP **

部分可观测环境

环境不完全可观测

解决办法

概念区分

学习和规划 Learning & Planning

  • 学习:环境初始时是未知的,个体不知道环境如何工作,个体通过与环境进行交互,逐渐改善其行为策略。
  • 规划: 环境如何工作对于个体是已知近似已知的,个体并不与环境发生实际的交互,而是利用其构建的模型进行计算,在此基础上改善其行为策略。 一个常用的强化学习问题解决思路是,先学习环境如何工作,也就是了解环境工作的方式,即学习得到一个模型,然后利用这个模型进行规划。

预测和控制 Prediction & Control

在强化学习里,我们经常需要先解决关于预测(prediction)的问题,而后在此基础上解决关于控制(Control)的问题。

  • 预测:给定一个策略,评价未来。可以看成是求解在给定策略下的价值函数(value function)的过程。How well will I(an agent) do if I(the agent) follow a specific policy?
  • 控制:找到一个好的策略来最大化未来的奖励。

探索和利用 Exploration & Exploitation

试错的学习,个体需要从其与环境的交互中发现并执行一个好的策略,同时又不至于在试错的过程中丢失太多的奖励。探索和利用是个体进行决策时需要平衡的两个方面

其他概念

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-08-27 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 概述
    • 与传统控制的关系:
    • 基础概念
      • Agent
        • 策略(Policy):observation to action的映射
        • 价值(value function):未来奖励的预测(期望)
      • 模型Model:
        • 环境Env
          • 完全可观测环境
          • 部分可观测环境
      • 概念区分
        • 学习和规划 Learning & Planning
          • 预测和控制 Prediction & Control
            • 探索和利用 Exploration & Exploitation
              • 其他概念
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档