深度强化学习实验室

47 篇文章
15 人订阅

全部文章

J.Q.Wang@2048

前沿技术 || UC Berkeley开源RAD来改进强化学习算法

【导读】从视觉观察中学习是强化学习(RL)中的一个基本但具有挑战性的问题。尽管算法与卷积神经网络相结合已被证明是成功的秘诀,但当前的方法仍在两个方面缺乏:

8030
J.Q.Wang@2048

博士万字总结 || 多智能体强化学习(MARL)大总结与论文详细解读

最近由于写论文的原因,梳理了一下近几年的多智能体强化学习(MARL)算法,在这里做一个总结。下面遵循综述 Is multiagent deep reinforc...

21920
J.Q.Wang@2048

Google发布"强化学习"框架"SEED RL"

本框架是Google发布于ICLR2020顶会上,这两天发布于Google Blog上

9020
J.Q.Wang@2048

《强化学习》可复现性?稳健性?Joelle Pineau无情揭示问题

Joelle Pineau,图源:https://research.fb.com/why-diversity-matters-in-ai-research/

6930
J.Q.Wang@2048

1万美金助学金 || 微软研究院全球项目开放申请:强化学习开放源代码节(RL Open Source Fest)

强化学习开放源代码节( RL Open Source Fest)是一项全球性在线计划,旨在与学生,数据科学家和Microsoft Research NYC真实世...

10610
J.Q.Wang@2048

83篇文献-万字总结 || 强化学习之路

深度强化学习是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学习。深度强化学习的出现使得...

15020
J.Q.Wang@2048

DeepMind发布强化学习库 RLax

强化学习主要用于研究学习系统(智能体)的问题,该学习系统必须学习与环境进行交互的信息。智能体和环境在不连续的步骤上进行交互。在每个步骤中,智能体都会选择一个动作...

11310
J.Q.Wang@2048

笔记 || AlphaStar学习笔记总结

AlphaStar是RL处理复杂决策问题的又一大新闻了。从War3到SC2,RTS一直是我的业余最爱,最近读了一下paper,也share一下里面使用的一些比较...

13510
J.Q.Wang@2048

第13期:深度强化学习《论文快报》

Direct and indirect reinforcement learning

9820
J.Q.Wang@2048

第14期:深度强化学习《论文快报》

Model-based Multi-Agent Reinforcement Learning with Cooperative Prioritized Swee...

8020
J.Q.Wang@2048

Call For Papers# IJCNN2020 Special Session: Method of DRL to AS

Autonomous systems are an important driver of benefit to many companies and orga...

10220
J.Q.Wang@2048

DQN系列(2): Double DQN算法原理与实现

论文地址: https://arxiv.org/pdf/1509.06461.pdf

14510
J.Q.Wang@2048

DQN系列(1):Double Q-learning

论文地址: https://papers.nips.cc/paper/3964-double-q-learning.pdf

18920
J.Q.Wang@2048

方法 || 深度强化学习解决交通控制问题

作者在现有研究方法的基础上提出了使用深度强化学习解决交通控制的方法,整体结构图如下:

16410
J.Q.Wang@2048

第10期:DeepRL每日论文快报

On-policy Reinforcement Learning with Entropy Regularization

9620
J.Q.Wang@2048

基于强化学习的自动交易系统研究与发展综述

Moody 等人将循环强化学习算法模型(Recurrent Reinforcement Learning,RRL)应用在单一股票和资产投资组合等领域,测试了日内...

20320
J.Q.Wang@2048

第9期:DeepRL每日论文快报

Learning Representations in Reinforcement Learning:An Information Bottleneck App...

10020
J.Q.Wang@2048

DeepMind-102页深度强化学习PPT(2019最新)-原理及部分代码实现

22520
J.Q.Wang@2048

强化学习的三种范例(Three Paradigms of Reinforcement Learning)

“基于模型的方法比没有模型的方法更具样本效率。”近年来,这种经常重复的格言在几乎所有基于模型的RL论文(包括Jacob论文)中都引起关注。如此常识,没有人甚至不...

10410
J.Q.Wang@2048

新框架ES-MAML:基于进化策略、简易的元学习方法

【导读】现有的MAML算法都是基于策略梯度的,在试图利用随机策略的反向传播估计二阶导数时遇到了很大的困难。本文为大家介绍一个新框架ES-MAML,这是一个基于进...

12030

扫码关注云+社区

领取腾讯云代金券