首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

强化学习从入门到放弃

重要概念

强化学习(REinforcement Learning)(个人理解):在设定的规则下,通过训练让机器学习完成特定的任务。

强化学习的目的是学习一个策略,即一个从状态到最优行为的映射

强化学习的目标是最大化总回报,而不是立即回报。

强化学习的主体:智能体和环境。

机器/智能体(Agent):The learner and decision-maker

环境(Environment)The thing agent interacts with, comprising everything outside the agent

状态信号(state signal)是原始信号高级处理的结果。

一个保留所有相关信息的状态信号被成为是马尔科夫的,或称有马尔科夫性。

一个强化学习任务如果满足马尔科夫性则被成为马尔科夫决策过程(Markov decision process,MDP)

如果状态和行为是有限的,则叫做有限马尔科夫决策(finite MDP)

强化学习的几种分类方式

Agent理解环境的(Model-Based RL)

特点:通过以往经验理解真实世界,建立模型来模拟现实世界的反馈。根据想象力来预测接下来要发生的所有情况。

Agent不理解环境的(Model-Free RL)

特点:所有获得的结果都是现实的,发生在真实世界中,只能等待真实世界的反馈。

基于概率的:分析在某个状态下,执行各种动作的概率,每个动作都可能被选中。

基于价值的:分析在某种状态下,执行各种动作的价值,只选择价值最大的。

评估式:在某个状态下,执行某个动作后进行评分。

教导式:发指令告诉Agent,在某个状态下哪个动作才是正确的。

回合更新的(Monte Carlo update):总结一个回合中所有的转折点,再更新行为准则。

单步更新(Temporal Difference update):在回合中每一步都更新,不用等待回合结束,更新效率更高。

在线学习(On Policy):Agent必须亲自完成训练和学习。

离线学习(Off Policy):Agent可以自己边训练边学,也可以通过别人的训练数据进行学习,也可以先训练存储记忆后再学习。

重要算法简介

Q-Learning

以状态(state)、动作(action)为横纵坐标建立Q Table,表中内容Q值是在某一动作下执行某一行为的价值。通过Agent不断的尝试和训练(大部分情况选择回报最大的动作,小部分情况随机选择动作,即ε-greedy法),根据选择某个动作执行后的回报、下一个状态可能的最大价值,更新Q Table中的Q(s,a)值。

Sarsa (state-action-reward-state_-action_)

与Q-learning相似,只不过更新Q Table是根据选择某个动作执行后的回报、下一个(已选定的)状态和动作的价值。下一个选定的状态和选定的执行的动作不一定是最有价值的。没有选择通往成功的最近道路,因此比Q-Learning保守。

Deep Q Network

把Q-Learning中的状态、动作作为人工神经网络的输入,回报作为输出,取代Q Table。

Prioritized Replay

记忆库中很少有正的回报(positive reward)可以学习,正负样本的比例差距悬殊,则可以重视那些少量的但值得学习的样本,because these surprise agent。

SumTree

由Prioritized Replay知,不同的样本有不同的优先级,对大量样本进行排序非常消耗时间,SumTree用二叉树存储数据,加快搜索,能更有效地找到需要学习的样本。

Dueling DQN

在DQN的基础上,修改了Q值的计算方法,提升学习效果,加速收敛。

Policy Gradient

使用策略网络(Policy Network),输入是状态,输出是动作。Policy Gradient使用梯度下降法更新网络,在损失函数中考虑了选择某个动作的概率和回报,如果在小概率的动作下获得了大回报,那Agent会很吃惊,会对神经网络进行较大幅度的修改。

Distributed Proximal Policy Optimization (DPPO)

对Policy Gradient进行优化,让Policy Gradient对大的步长、学习率等参数不再那么敏感。

Actor-Critic(演员-评判家)

以价值为基础,以动作概率为基础。用Critic去学习奖励机制,用Actor来指导动作执行,在Critic学完后告诉Actor哪些做得好。Critic通过学习环境和奖励之间的关系,能够看到所处状态的潜在奖励,指导的Actor每一步都在更新。另有优化的算法,把Actor-Critic和DQN结合,叫Deep Deterministic Policy Gradient(DDPG)。

Asynchronous Advantage Actor-Critic (A3C)

实现多核并行训练和通讯,有效利用计算资源,提升训练效率。有一个中央大脑global net,其他线程有一个global net的副本local net,可以定时向global net推送更新,然后定时从global net那获取综合版的更新。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171216G0Q6RW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券