Universal Planning Networks:Learning GeneralizableRepresentations for Visuomotor Control ->这个规划计算在一个潜在的空间中展开一个正向模型,通过梯度下降轨迹优化来推断一个最优的行动计划,优化一个监督模拟学习目标。在解决基于图像的目标描述的新任务时,学习到的表示还提供了使用图像指定目标的度量。
▌3. RL Algorithms
SBEED: ConvergentReinforcement Learning with Nonlinear Function Approximation->使用Nesterov的平滑技术和Legendre-Fenchel 变换将Bellman方程重构为一个新的原始对偶优化问题,开发一种新的算法,称为平滑Bellman误差嵌入,以解决这个优化问题可以使用任何可微函数类。
Scalable Bilinear PiLearning Using State and Action Features->对于大规模马尔可夫决策过程(MDP),我们研究近似线性规划的原始对偶公式,并开发一种可扩展的,无模型的算法,称为双线性pi学习,用于在提供采样oracle时的强化学习。
Beyond the One-Step GreedyApproach in Reinforcement Learning->分析了多步超前策略改进的情况;制定多步策略改进的变体,使用这些定义推导出新的算法并证明它们的收敛性。
Importance WeightedTransfer of Samples in Reinforcement Learning->从一组源任务中收集的经验样本的转移,以改进给定目标任务中的学习过程。提出了一种基于模型的技术,该技术可以自动评估每个源样本的相关性(重要性权重)来解决目标任务。
Addressing Function ApproximationError in Actor- Critic Methods->算法建立在双Q学习的基础上,通过取一对批评者之间的最小值来限制过高估计;延迟策略更新以减少每次更新错误。
The Mirage ofAction-Dependent Baselines in Reinforcement Learning ->分解了策略梯度估计量的方差,数值模拟表明,在通常测试的基准域中,学习的依赖状态动作的基线实际上并没有减少与状态相关的基线的方差。
Smoothed Action ValueFunctions for Learning Gaussian Policies->一个由高斯平滑的期望Q值定义的行为值的新概念。由平滑Q值函数的梯度和Hessian可以恢复参数化高斯策略的预期奖励的梯度和协方差。在训练过程中学习均值和协方差的能力可以显著提高标准连续控制基准的结果。
Soft Actor-Critic:Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor->提出了soft actor-critic,基于最大熵强化学习框架的非策略行动者-评论者(actor-critic)深度RL算法。行动者的目标是最大化预期的回报,同时也最大化熵——在任务中尽可能随机地成功。
GEP-PG: DecouplingExploration and Exploitation in Deep Reinforcement Learning Algorithms ->依次结合目标探索过程和DDPG。两阶段方法:第一个探索阶段发现一系列简单的策略,最大化行为多样性,忽略奖励功能;然后是更标准的深度RL阶段进行微调,其中DDPG使用重播缓冲区,其中填充了GEP生成的示例。
Learning to Explore viaMeta-Policy Gradient ->元策略梯度算法学习探索,使我们能够自适应地学习DDPG中的探索策略。训练不依赖于参与者策略的灵活的探索行为,从而产生一种全局性的探索,极大地加快了学习过程。
Learning the RewardFunction for a Misspecified Model ->本文提出了一个新的误差界限,用来解释从模型中采样的状态下奖励模型的行为。该界限用于扩展现有的幻觉DAgger-MC算法,该算法在确定性的MDPs中提供了理论性能保证,而不是假设一个完美的模型可以被学习。
Mix & Match — AgentCurricula for Reinforcement Learning ->一个自动形成代理课程的程序;通过有效地从简单的代理中找到解决方案开始,逐步训练更复杂的代理;
Feedback-Based Tree Searchfor Reinforcement Learning -> 提出了一种基于模型的强化学习技术,该技术迭代地将MCTS应用于原始的无限大范围的马尔可夫决策过程中。MCTS过程生成的建议随后作为反馈提供,以便通过分类和回归改进下一个迭代的叶子节点评估程序。多玩家在线战斗竞技场(MOBA)游戏之王的竞争代理。
Machine Theory of Mind->Theory of Mind(ToM)广泛地指人类表达他人心理状态的能力, 包括他们的欲望,信仰和意图。ToMnet使用元学习来学习代理人未来行为的强大先验模型,并且仅使用少量的行为观察,可以引导到更丰富的关于代理特征和心理状态的预测。
Measuring abstractreasoning in neural networks ->提出一个数据集和挑战,旨在探索抽象推理,灵感来自一个著名的人类智商测试。为了在这一挑战中取得成功,模型必须应对训练和测试数据以明确定义的方式存在差异的各种归纳“机制”。提出WildRelation Network(WReN),多次应用关系网络模块(Santoro et al., 2017)来推断小组间关系。
Using Reward Machines forHigh-Level Task Specification and Decomposition in Reinforcement Learning ->奖励机器是一种有限状态机,支持奖励函数的规范,同时将奖励函数结构暴露给学习者并支持分解。提出了奖励机器的Q-Learning(QRM),一种适当分解奖励机制的算法,并利用off-policy Q-Learning同时学习不同组件的子策略。
▌10. Multi-Agent
Learning to Coordinatewith Coordination Graphs in Repeated Single-Stage Multi-Agent Decision Problems ->利用松散耦合,即代理之间的条件独立性。预期奖励可以表示为协调图。
Learning to Act inDecentralized Partially Observable MDPs->首先接近最优的协作多智能体,通过混合整数线性规划替换贪婪最大化。来自文献的许多有限域的实验。
Learning PolicyRepresentations in Multiagent Systems->将代理建模作为表示学习的问题;构建模仿学习和代理识别启发的新目标,设计一种代理策略表示的无监督学习算法。
Competitive Multi-agentInverse Reinforcement Learning with Sub-optimal Demonstrations ->当已知专家证明不是最优的时候,在零和随机博弈中进行逆强化学习; 引入了一种新的目标函数,直接将专家与纳什均衡策略对立起来,以深度神经网络作为模型逼近,在逆强化学习的背景下求解奖励函数。
▌11. RL Meta-learning, Transfer, Continuing and Lifelong Learning
Been There, Done That:Meta-Learning with Episodic Recall ->提出了一种生成开放但重复的环境的形式主义,然后开发一个元学习体系结构来解决这些环境。该架构将标准的LSTM工作记忆与可微的神经情景记忆融合在一起。
Transfer in Deep RL usingSuccessor Features in GPI->使用通用的策略改进和继承特性来进行传输技能。以两种方式扩展SF和GPI框架。使用奖励函数本身作为未来任务的特性,没有任何表达性的损失,因此无需预先指定一组特性。
Policy and Value Transferin Lifelong Reinforcement Learning ->使用先前的经验,在一系列从任务分配中抽取的任务实例中引导终身学习。对于基于值函数的传输,保留PAC的值函数初始化方法,同时最小化两种学习算法所需的学习,从而产生MaxQInit。
State Abstractions forLifelong Reinforcement Learning ->在终身强化学习中,代理必须有效地跨任务传递知识,同时解决探索,信用分配和一般问题。状态抽象压缩代理使用的表示,从而减少了学习的计算和统计负担。提出新的抽象类:(1)传递状态抽象,其最优形式可以被有效地计算,以及(2)PAC状态抽象,保证相对于任务的分布。
Continual ReinforcementLearning with Complex Synapses->通过为表格和深层强化学习代理配备合并了一种生物复杂性的突触模型(Benna & Fusi,2016),灾难性遗忘可以在多个时间尺度上得到缓解。整合过程与数据分布变化的时间尺度无关。
▌12. RL Applications and others
Spotlight: OptimizingDevice Placement for Training Deep Neural Networks->使用多阶段马尔可夫决策过程来模拟设备布局问题。
End-to-end Active ObjectTracking via Reinforcement Learning ->ConvNet-LSTM函数逼近器用于直接帧到动作的预测。需要用奖励函数来增强环境。
Deep ReinforcementLearning in Continuous Action Spaces: a Case Study in the Game of SimulatedCurling ->基于内核的MonteCarlo树搜索学习游戏策略,该搜索在连续空间内查找动作。为了避免手工特征,我们使用监督学习来训练我们的网络,然后使用高保真的冰壶奥林匹克运动模拟器进行强化学习;赢得了国际数字冰壶比赛。
Can Deep ReinforcementLearning Solve Erdos- Selfridge-Spencer Games?->介绍了一个有趣的双人零和游戏系列,具有可调的复杂性,称为Erdos-Selfridge-Spencer游戏,作为RL的一个新域。作者报告了大量的实证结果,使用了各种各样的训练方法,包括监督学习和多种RL (PPO, A2C,DQN)以及 单代理 与多代理训练。
Investigating Human Priorsfor Playing Video Games ->调查各种有助于人类学习的先验知识,并发现对象的一般先验在指导人类游戏玩法中起着最关键的作用。
考虑到网络架构上关于视觉问题的论文数量,对于RL在网络架构上的探索还有很大的空间,在已被接受的论文中只有少数是这一方面的。例如,StructuredControl Nets for Deep Reinforcement Learning and Gated Path Planning Networks。
ML的公平性和可解释性是一个大主题。对于RL也应该有更多的解释和分析工作。一个好的方向是运用控制理论。与此相关的是,BenRecth的《控制优化教程》非常棒。主要思想是RL与控制理论之间应该有更多的交叉。在已被接受的论文中,一个很好的例子是Structured ControlNets for Deep Reinforcement Learning。
附最佳论文总结
▌两篇最佳论文(best papers)
1.“Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples”