专栏首页企鹅号快讯强化学习从入门到放弃

强化学习从入门到放弃

重要概念

强化学习(REinforcement Learning)(个人理解):在设定的规则下,通过训练让机器学习完成特定的任务。

强化学习的目的是学习一个策略,即一个从状态到最优行为的映射

强化学习的目标是最大化总回报,而不是立即回报。

强化学习的主体:智能体和环境。

机器/智能体(Agent):The learner and decision-maker

环境(Environment)The thing agent interacts with, comprising everything outside the agent

状态信号(state signal)是原始信号高级处理的结果。

一个保留所有相关信息的状态信号被成为是马尔科夫的,或称有马尔科夫性。

一个强化学习任务如果满足马尔科夫性则被成为马尔科夫决策过程(Markov decision process,MDP)

如果状态和行为是有限的,则叫做有限马尔科夫决策(finite MDP)

强化学习的几种分类方式

Agent理解环境的(Model-Based RL)

特点:通过以往经验理解真实世界,建立模型来模拟现实世界的反馈。根据想象力来预测接下来要发生的所有情况。

Agent不理解环境的(Model-Free RL)

特点:所有获得的结果都是现实的,发生在真实世界中,只能等待真实世界的反馈。

基于概率的:分析在某个状态下,执行各种动作的概率,每个动作都可能被选中。

基于价值的:分析在某种状态下,执行各种动作的价值,只选择价值最大的。

评估式:在某个状态下,执行某个动作后进行评分。

教导式:发指令告诉Agent,在某个状态下哪个动作才是正确的。

回合更新的(Monte Carlo update):总结一个回合中所有的转折点,再更新行为准则。

单步更新(Temporal Difference update):在回合中每一步都更新,不用等待回合结束,更新效率更高。

在线学习(On Policy):Agent必须亲自完成训练和学习。

离线学习(Off Policy):Agent可以自己边训练边学,也可以通过别人的训练数据进行学习,也可以先训练存储记忆后再学习。

重要算法简介

Q-Learning

以状态(state)、动作(action)为横纵坐标建立Q Table,表中内容Q值是在某一动作下执行某一行为的价值。通过Agent不断的尝试和训练(大部分情况选择回报最大的动作,小部分情况随机选择动作,即ε-greedy法),根据选择某个动作执行后的回报、下一个状态可能的最大价值,更新Q Table中的Q(s,a)值。

Sarsa (state-action-reward-state_-action_)

与Q-learning相似,只不过更新Q Table是根据选择某个动作执行后的回报、下一个(已选定的)状态和动作的价值。下一个选定的状态和选定的执行的动作不一定是最有价值的。没有选择通往成功的最近道路,因此比Q-Learning保守。

Deep Q Network

把Q-Learning中的状态、动作作为人工神经网络的输入,回报作为输出,取代Q Table。

Prioritized Replay

记忆库中很少有正的回报(positive reward)可以学习,正负样本的比例差距悬殊,则可以重视那些少量的但值得学习的样本,because these surprise agent。

SumTree

由Prioritized Replay知,不同的样本有不同的优先级,对大量样本进行排序非常消耗时间,SumTree用二叉树存储数据,加快搜索,能更有效地找到需要学习的样本。

Dueling DQN

在DQN的基础上,修改了Q值的计算方法,提升学习效果,加速收敛。

Policy Gradient

使用策略网络(Policy Network),输入是状态,输出是动作。Policy Gradient使用梯度下降法更新网络,在损失函数中考虑了选择某个动作的概率和回报,如果在小概率的动作下获得了大回报,那Agent会很吃惊,会对神经网络进行较大幅度的修改。

Distributed Proximal Policy Optimization (DPPO)

对Policy Gradient进行优化,让Policy Gradient对大的步长、学习率等参数不再那么敏感。

Actor-Critic(演员-评判家)

以价值为基础,以动作概率为基础。用Critic去学习奖励机制,用Actor来指导动作执行,在Critic学完后告诉Actor哪些做得好。Critic通过学习环境和奖励之间的关系,能够看到所处状态的潜在奖励,指导的Actor每一步都在更新。另有优化的算法,把Actor-Critic和DQN结合,叫Deep Deterministic Policy Gradient(DDPG)。

Asynchronous Advantage Actor-Critic (A3C)

实现多核并行训练和通讯,有效利用计算资源,提升训练效率。有一个中央大脑global net,其他线程有一个global net的副本local net,可以定时向global net推送更新,然后定时从global net那获取综合版的更新。

本文来自企鹅号 - 陈米媒体

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Python爬虫Scrapy入门看这篇就够了

    来源: 罗罗攀 链接: https://www.jianshu.com/p/e5ead6af4eb2 一、初窥scrapy scrapy中文文档: htt...

    企鹅号小编
  • 机器学习和深度学习概念入门(下)

    目 录 1人工智能、机器学习、深度学习三者关系 2什么是人工智能 3什么是机器学习 4机器学习之监督学习 5机器学习之非监督学习 6机器学习之半监督学习 7机...

    企鹅号小编
  • PYTHON数据类型

    Python3 中有六个标准的数据类型: Number(数字) String(字符串) List(列表) Tuple(元组) Sets(集合) Dictiona...

    企鹅号小编
  • 答知友困惑:Java零基础如何入门,不知道怎么学,迷茫ING

    几个星期之前,我在知乎上看到一个提问,说是:对于完全没有经验零基础自身的数学底子也很弱学习Java应该怎么学习呢?想着类似的问题我也有过回答,并且反馈还是蛮好的...

    程序员小跃
  • 1w5000字概括ES6全部特性

    第三次阅读阮一峰老师的《ECMAScript 6 入门》了,以前阅读时不细心,很多地方都是一目十行。最近这次阅读都是逐个逐个字来读,发现很多以前都没有注意到的知...

    前端迷
  • 谈谈 Act 的依赖注入 和 模板输出 - 回答 drinkjava 同学提问

    依赖注入工具 jBeanBox 的作者 drinkjava 同学最近在 Actframework gitee 项目 的提出了如下评论:

    老码农
  • 业界 | Nature:人工智能协助科学家解密基因序列

    快速测序基因组的能力为科学家提供了大量的数据,但了解进化是如何塑造了人类仍然是一项艰巨的任务。

    大数据文摘
  • YouAppi推出轻量级SDK:八大优势助力开发者出海变现

    近日、全球领先的移动营销平台YouAppi正式推出其最新轻量级SDK,旨在为全球领先品牌打造全方位360度移动营销平台,也将进一步帮助中国开发者进行出海和有效变...

    BestSDK
  • 强大的原型和原型链

    前两次总结了JavaScript中的基本数据类型(值类型<引用类型>,引用类型<复杂值>)以及他们在内存中的存储,对内存空间有了一个简单的了解,以及第二次总结了...

    okaychen
  • 强大的原型和原型链

    前两次总结了JavaScript中的基本数据类型(值类型<引用类型>,引用类型<复杂值>)以及他们在内存中的存储,对内存空间有了一个简单的了解,以及第二次总结了...

    okaychen

扫码关注云+社区

领取腾讯云代金券