专栏首页大数据和机器学习深度强化学习入坑笔记一

深度强化学习入坑笔记一

强化学习的定位

总的来说,强化学习属于机器学习的一种,我们都知道机器学习分为有监督与学习和无监督学习,有监督学习通过大量有标记的数据来训练,所以有监督训练是黑白分明的,啥意思呢?一个训练数据你给了他什么标签,它就属于哪一种,无监督学习就是通过一大批未知数据来进行训练得到一个盒子,然后你属于一个未知数据进去预测,看看会输出结果,它属于一种对先验样本的复现过程,而强化学习呢,没有一个明确的规定说你这个行动是绝对的对或者错,只有好与不好之分,好的话给你奖励(Reward),越好的话奖励越高,坏的话给你惩罚(-Reward),越坏的话惩罚越痛,它不是那么的黑白分明,是有灰度的存在。所以我更认同强化学习与监督式学习以及非监督式学习一起组成了机器学习的观点(如图),

强化学习的位置

强化学习的相关概念

强化学习(rl)的几个概念:state(状态),Environment(环境),Agent(智能体),Action(动作),reword(奖励)。

1.state:

1)和state相对于的一个概念是history,它包含到时间t为止所能观察到的变量信息,如observation,action,reword,它可以说是接下来发生的所有事情的根基了,诸如agent的action亦或是environment的observation和reward。然后呢,State就被定义为一个对于History的函数:St= f (Ht),他们中间有某种对应关系,因为State也是对环境里边相关信息的一个观察和集成,也正是这些信息决定了接下来所发生的一切。

2)State其实细化可分为三种:第一种是Environment State,是真正的环境所包含的信息,Agent一般情况下是看不到或凭agent自身能力不能完全地获取其信息的。即便环境信息整个是可见的,也许还会包含很多无关信息。第二种是Agent State,指Agent用来选择下一个行动的信息源,也是我们算法进行所需要的那些信息,我个人理解是Agent自己对Environment State的解读与翻译,它可能不完整,但我们的确是指望着这些信息来做决定的。第三种是Information State,又称为Markov state,包含了History中所有的有用信息。感觉这只是个客观的概念,并没有和前两种State形成并列关系,只是一个性质。它的核心思想是“在现在情况已知的情况下,过去的事件对于预测未来没什么卵用”,也就相当于是现在的这个状态已经包含了预测未来所有的有用的信息,一旦你获取了现在的有用信息,那么之前的那些信息都可以扔掉了!这就是Markov的特性,这里我们说Environment state是Markov,History也是Markov

2.environmenty(两种)

1)第一种是完全可观测环境(Fully Observable Environment),顾名思义,是指agent可以完全观测到环境状态的情形,此时Agent State = Environment State = Information State,这是一个很理想化的情况,现实中很多复杂问题是不具备这个条件的。同时根据定义,此时的环境状态是一个Markov Decision Process(MDP)

2)第二种是部分可观测环境(Partially Observable Environment),这种情况是相对于上边的情形来说的,即Agent不能完整的获取环境信息状态,所以此时Agent State ≠ Environment State。而此时的环境状态称为部分可观测MDP。所以此时想要解决问题的话Agent必须自己对环境进行解读,自己去探索。

3.Agent:主要涉及到三个组成要素:策略(Policy),价值函数(Value Function)和模型(Model),但要注意这三要素不一定要同时具备

1)Policy:是Agent的行为指南,是一个从状态(s)到行动(a)的映射,可以分为确定性策略(Deterministic policy)和随机性策略(Stochastic policy),前者是指在某一特定状态确定对应着某一个行为a = π(s),后者是指在某一状态下,对应不同行动有不同的概率,即π(a|s)=P[At = a | St = s ],可以根据实际情况来决定具体采用哪种策略。

2)Value Function:价值函数是对未来总Reward的一个预测,即如果我进入这个状态或者我采取这个行动的话能有多大的甜头或者风险。继而在做了计算以后选择更好的action。

3)Model:模型是指Agent通过对环境状态的个人解读所构建出来的一个认知框架,它可以用来预测环境接下来会有什么表现,比如,如果我采取某个特定行动那么下一个状态是什么,亦或是如果这样做所获得的奖励是多少。不过模型这个东西有些情况下是没有的。所以这就可以将Agent在连续决策(sequential decision making )行动中所遇到的问题划分为两种,即Learning problem 和 Planning problem。对于前者,没有环境的模型,Agent 只能通过和环境来互动来逐步提升它的策略。对于后者,环境模型已经有了,所以你怎么走会产生什么样的结果都是确定的了,这时候只要通过模型来计算那种行动最好从而提升自己策略就好。

4)有关Agent的分类,从采取的方法上可以分为Value Based,Policy Based 和ActorCritic。第一种顾名思义就是基于价值函数的探索方式,第二种就是基于策略的探索方式,第三种就是前二者合体。另外,从是否含有模型上Agent又可分为Model Free 和Model Based。

4.reword

首先它是一个标量,是一个好坏的度量指标,然后Agent 的终极目标就是尽可能的最大化整个过程的累计奖励(cumulative reward),所以很多时候要把目光放长远一点,不要捡个芝麻丢个西瓜,要明白曲线救国也不是不可以的。

原文链接:https://zhuanlan.zhihu.com/p/26608059

相关文章

  • 随机森林

    随机森林算法的思想就是通过集成学习和随机的方式将多棵树集成的一种算法,通过多棵树对数据集进行学习训练最后投票选举出最佳的一个最终的输出。这里每一棵树是一颗决策树...

    opprash
  • leetcode-18

    opprash
  • 代码实现三层神经网络的手写字训练及测试

    opprash
  • SAP最佳业务实践:MM–批次管理的库存物料采购(901)-1业务概览

    用途 我们的目的是描述与批次管理的库存物料采购相关的业务流程。目标组是仓库人员和财务。 处理流程中涉及的公司角色: 采购员 仓库管理员 应付会计 包含的关...

    SAP最佳业务实践
  • Spring Boot 知识点速记

    本文是学习2小时学会Spring Boot和Spring Boot进阶之Web进阶的SpringBoot常用知识点速记。 SpringBoot前置知识: Spr...

    linxinzhe
  • 学习 | Spring Cloud Config 从入门到精通

    小小又开始学习了,这次学习的内容是Spring Cloud 相关内容,这次学习的是Config相关的内容。

    mySoul
  • 史上最复杂的开瓶倒酒器,工程师都看哭了

    话说人们创造发明是为了便利生活 然而下面这个发明 好像有什么不对的样子... ▼ ? 你能看出来 这个精密复杂的机械 只是个单纯的开瓶器吗 ▼ ? 这台开...

    机器人网
  • springCloud学习2(服务发现)

      通常服务实例都只向一个服务发现实例注册,服务发现实例之间再通过数据传输,让每个服务实例注册到所有的服务发现实例中。   服务在向服务发现实例注册后,这个服...

    用户2038589
  • A simple augmented reality application

    在 OpenGL 中主要使用 4x4 矩阵来表示转换,这个和 3x4 的相机矩阵不同。然而,OpenGL 中的 GL_PROJECTION 和 GL_MODEL...

    caoqi95
  • CNCF案例研究:gRPC如何实现Salesforce的统一互操作性策略

    Salesforce是客户关系管理软件领域的领导者,它的客户成功平台和其它产品支持了超过15万个组织。在幕后,“我们试图建立的一件大事是在整个公司范围内建立统一...

    CNCF

扫码关注云+社区

领取腾讯云代金券