首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

David Silver强化学习课程笔记

最近在B站上找到了David Silver大神的Reinforcement Learning的课程,感觉之前很多不太理解的地方突然被点醒了,所以把听课的笔记在此共享出来,希望对大家也有所帮助。大神的视频链接我这里就不放出来了,防止被封,大家请自行到B站搜索。

先说一这门课的两本教材,一本是Sutton的An Introduction to Reinforcement Learning,这本也是我当年入门RL的书,可惜实在太厚了,看的晕乎乎的,就放弃了。。。。另一本是Szepesvari的Algorithms for Reinforcement Learning,这边据说比较薄,只有100来页,不过是偏数学理论的,比较严谨,数学基础不好的同学估计看起来比较吃力。

昨为第一节课,大神自然是首先介绍了一下强化学习,它是一门研究决策的科学,所以在很多领域都有相关的分支学科。还有就是机器学习一般分为三大类:有监督学习、无监督学习和强化学习。话说现在机器学习那么火,很多人都知道机器学习分为有监督学习和无监督学习,但是不知道还有一支叫强化学习。(记得前不久DHI总部的一个VP过来介绍机器学习,在介绍机器学习的分类的时候,也犯了同样的错误,只知道有监督和无监督学习,却不知道还有强化学习,让人一看就觉得他和他的团队对机器学习的理解仅限于一些热点新闻,大家跟别人聊机器学习的时候千万不要犯这么低级的错误哦)

那么强化学习与有/无监督学习的主要区别在于:

1、强化学习没有监督者,不知道什么是正确的决策,只能知道在做出行动后反馈的奖惩

2、反馈是有延时的

3、研究的是一个时间序列的决策过程

4、行为会反过来影响环境,也就是说输入会随着行动改变,是主动学习的过程

接下来就是一些基本概念:

A、Reward 奖励

反馈的信号,强化学习的目标就是将累积的Reward最大化,注意是累积的,因为RL中研究的可以是长时间序列的问题,而且reward很多时候是有延时的,存在放弃当前最优的立即Reward,而换取长期的回报

B、Agent和Environment

强化学习的工作就是要建立agent,agent从环境中获得观测,并选择执行一系列的动作,对环境产生影响,同时环境给agent以反馈

环境可以分为可完全观测环境和部分观测环境,很容易理解,就是环境中的全部信息我们的agent能否全部获得来分的。

C、History和State

历史:整个agent与环境的交互历史记录,Ht=A1,O1,R1,...At,Ot,Rt.

状态则是历史的函数,St=f(Ht)

状态有三种定义:

1、环境状态,也就是整个环境的状态

2、agent状态,就是agent自身的状态

3、信息状态,也叫马尔科夫状态,可以说是强化学习的基础。

马尔科夫状态的定义是下一刻的状态只由当前状态决定,也就是说马尔科夫状态包含了之前全部历史的信息。

对于可完全观测环境,

而对于部分观测环境,这三者就不相等了,这时候对马尔科夫状态的表达就非常重要了,必须选择合适的表示方法。一般主要由三种:

1、记录整个完全的历史

2、环境状态的置信

3、线性表示(循环人工神经网络)

大家记得打赏哦~~~~!!!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180910G0LSHJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券