文章/答案/技术大牛

发布

强化学习从入门到放弃

文章来源：企鹅号 - 老和山居士

重要概念

强化学习(REinforcement Learning)（个人理解）：在设定的规则下，通过训练让机器学习完成特定的任务。

强化学习的目的是学习一个策略，即一个从状态到最优行为的映射。

强化学习的目标是最大化总回报，而不是立即回报。

强化学习的主体：智能体和环境。

机器/智能体(Agent)：The learner and decision-maker

环境(Environment)The thing agent interacts with, comprising everything outside the agent

状态信号(state signal)是原始信号高级处理的结果。

一个保留所有相关信息的状态信号被成为是马尔科夫的，或称有马尔科夫性。

一个强化学习任务如果满足马尔科夫性则被成为马尔科夫决策过程(Markov decision process,MDP)。

如果状态和行为是有限的，则叫做有限马尔科夫决策(finite MDP)。

强化学习的几种分类方式

Agent理解环境的(Model-Based RL)

特点：通过以往经验理解真实世界，建立模型来模拟现实世界的反馈。根据想象力来预测接下来要发生的所有情况。

Agent不理解环境的(Model-Free RL)

特点：所有获得的结果都是现实的，发生在真实世界中，只能等待真实世界的反馈。

基于概率的：分析在某个状态下，执行各种动作的概率，每个动作都可能被选中。

基于价值的：分析在某种状态下，执行各种动作的价值，只选择价值最大的。

评估式：在某个状态下，执行某个动作后进行评分。

教导式：发指令告诉Agent，在某个状态下哪个动作才是正确的。

回合更新的(Monte Carlo update)：总结一个回合中所有的转折点，再更新行为准则。

单步更新(Temporal Difference update)：在回合中每一步都更新，不用等待回合结束，更新效率更高。

在线学习(On Policy)：Agent必须亲自完成训练和学习。

离线学习(Off Policy)：Agent可以自己边训练边学，也可以通过别人的训练数据进行学习，也可以先训练存储记忆后再学习。

重要算法简介

Q-Learning

以状态(state)、动作(action)为横纵坐标建立Q Table，表中内容Q值是在某一动作下执行某一行为的价值。通过Agent不断的尝试和训练（大部分情况选择回报最大的动作，小部分情况随机选择动作，即ε-greedy法），根据选择某个动作执行后的回报、下一个状态可能的最大价值，更新Q Table中的Q(s,a)值。

Sarsa (state-action-reward-state_-action_)

与Q-learning相似，只不过更新Q Table是根据选择某个动作执行后的回报、下一个（已选定的）状态和动作的价值。下一个选定的状态和选定的执行的动作不一定是最有价值的。没有选择通往成功的最近道路，因此比Q-Learning保守。

Deep Q Network

把Q-Learning中的状态、动作作为人工神经网络的输入，回报作为输出，取代Q Table。

Prioritized Replay

记忆库中很少有正的回报(positive reward)可以学习，正负样本的比例差距悬殊，则可以重视那些少量的但值得学习的样本，because these surprise agent。

SumTree

由Prioritized Replay知，不同的样本有不同的优先级，对大量样本进行排序非常消耗时间，SumTree用二叉树存储数据，加快搜索，能更有效地找到需要学习的样本。

Dueling DQN

在DQN的基础上，修改了Q值的计算方法，提升学习效果，加速收敛。

Policy Gradient

使用策略网络(Policy Network)，输入是状态，输出是动作。Policy Gradient使用梯度下降法更新网络，在损失函数中考虑了选择某个动作的概率和回报，如果在小概率的动作下获得了大回报，那Agent会很吃惊，会对神经网络进行较大幅度的修改。

Distributed Proximal Policy Optimization (DPPO)

对Policy Gradient进行优化，让Policy Gradient对大的步长、学习率等参数不再那么敏感。

Actor-Critic（演员-评判家）

以价值为基础，以动作概率为基础。用Critic去学习奖励机制，用Actor来指导动作执行，在Critic学完后告诉Actor哪些做得好。Critic通过学习环境和奖励之间的关系，能够看到所处状态的潜在奖励，指导的Actor每一步都在更新。另有优化的算法，把Actor-Critic和DQN结合，叫Deep Deterministic Policy Gradient(DDPG)。

Asynchronous Advantage Actor-Critic (A3C)

实现多核并行训练和通讯，有效利用计算资源，提升训练效率。有一个中央大脑global net，其他线程有一个global net的副本local net，可以定时向global net推送更新，然后定时从global net那获取综合版的更新。

发表于: 2017-12-162017-12-16 23:17:03
原文链接：http://kuaibao.qq.com/s/20171216G0Q6RW00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

强化学习从入门到放弃

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐