首页
学习
活动
专区
工具
TVP
发布

深度强化学习实验室

专栏成员
91
文章
170082
阅读量
44
订阅数
【前沿最新】主动离线策略选择算法(Active offline policy selection)(附开源代码)
https://www.deepmind.com/publications/active-offline-policy-selection
深度强化学习实验室
2022-12-31
3700
【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法
强化学习是数学和应用的优美结合。如果我们从数学的角度去看待很多问题,能够更加透彻的理解强化学习中的很多问题。不过目前许多学习资料都尽可能避免介绍其中的数学原理,因为过多的数学可能会让不少读者望而生畏。
深度强化学习实验室
2022-09-23
1K0
【经验】深度强化学习训练与调参技巧
来源:知乎(https://zhuanlan.zhihu.com/p/482656367)
深度强化学习实验室
2022-09-23
2.3K0
【模仿学习】南京大学&港中文联合总结: 29页中文详述模仿学习完整过程
模仿学习,是一种从专家示例中进行学习的方法。这里专家示例指的是由最优(或者次优)策略采集到的状态-动作序列,智能体便是通过模仿专家示例来学习策略。模仿学习主要包含两大类算法框架:行为克隆和对抗式模仿学习。基于这两种算法框架,研究者们提出了各种各样的模仿学习算法,在实验中取得了很好的效果。尽管已经有很多对模仿学习算法的实验研究,关于模仿学习算法的理论分析直到最近才被逐步建立和完善。这些理论结果很好地解释了算法的实验现象,并且对今后的算法设计也有启发。 模仿学习简要教程着重从统计学习理论的角度来介绍模仿学习算法,能使读者对模仿学习算法有深刻的理解,使读者能够通过借助理论来分析已有的实验结果、并且设计更好的算法。
深度强化学习实验室
2022-09-23
4530
【最新】如何降低深度强化学习研究的计算成本(Reducing the Computational Cost of DeepRL)
人们普遍认为,将传统强化学习与深度神经网络相结合的深度强化学习研究的巨大增长始于开创性的DQN算法的发表。这篇论文展示了这种组合的潜力,表明它可以产生可以非常有效地玩许多 Atari 2600 游戏的智能体。从那时起,已经有几种 方法建立在原始 DQN 的基础上并对其进行了改进。流行的Rainbow 算法结合了这些最新进展,在ALE 基准测试中实现了最先进的性能. 然而,这一进步带来了非常高的计算成本,不幸的副作用是扩大了拥有充足计算资源的人和没有计算资源的人之间的差距。
深度强化学习实验室
2021-07-16
5230
【重磅推荐】哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库
目前,深度强化学习(DRL)技术在游戏等领域已经取得了巨大的成功,同时在量化投资中的也取得了突破性进展,为了训练一个实用的DRL 交易agent,决定在哪里交易,以什么价格交易以及交易的数量,这是一个具有挑战性的问题,那么强化学习到底如何与量化交易进行结合呢?下图是一张强化学习在量化交易中的建模图:
深度强化学习实验室
2021-03-17
3.8K0
【重磅整理】提前看287篇ICLR-2021 "深度强化学习"领域论文得分汇总列表
深度强化学习实验室 来源:ICLR2021 编辑:DeepRL [1]. What Matters for On-Policy Deep Actor-Critic Methods? A Large-S
深度强化学习实验室
2020-11-20
2.6K0
强化学习《奖励函数设计: Reward Shaping》详细解读
这是Sutton在《Reinforcement learning: An introduction》中的一段话,清晰地展现了智能体是如何通过奖励信号沟通智能体与我们的目标。而奖励设计实际上是MDP中的一个关键元素
深度强化学习实验室
2020-09-08
12.9K1
【RLChina2020公开课课件】 Lecture-4.pdf
https://rlchina.org/lectures/lecture0.pdf
深度强化学习实验室
2020-08-02
4560
DeepMind最新力作:分布式强化学习框架Acme,智能体并行性加强
近年来,在深度学习技术和算力提升的双重加持下,强化学习已经在众多复杂的 AI 挑战中取得了辉煌战绩。无论是象棋、围棋、麻将,还是王者荣耀以及各类雅达利经典游戏,强化学习的表现都足以令人叹服。
深度强化学习实验室
2020-06-09
9210
前沿技术 || UC Berkeley开源RAD来改进强化学习算法
【导读】从视觉观察中学习是强化学习(RL)中的一个基本但具有挑战性的问题。尽管算法与卷积神经网络相结合已被证明是成功的秘诀,但当前的方法仍在两个方面缺乏:
深度强化学习实验室
2020-05-13
6340
Google发布"强化学习"框架"SEED RL"
本框架是Google发布于ICLR2020顶会上,这两天发布于Google Blog上
深度强化学习实验室
2020-04-07
1.5K0
第13期:深度强化学习《论文快报》
Direct and indirect reinforcement learning
深度强化学习实验室
2020-02-17
6280
第14期:深度强化学习《论文快报》
Model-based Multi-Agent Reinforcement Learning with Cooperative Prioritized Sweeping
深度强化学习实验室
2020-02-17
4520
第10期:DeepRL每日论文快报
On-policy Reinforcement Learning with Entropy Regularization
深度强化学习实验室
2019-12-19
4670
第9期:DeepRL每日论文快报
Learning Representations in Reinforcement Learning:An Information Bottleneck Approach
深度强化学习实验室
2019-12-10
4420
深入理解Hindsight Experience Replay论文
本文介绍了一个“事后诸葛亮”的经验池机制,简称为HER,它可以很好地应用于稀疏奖励和二分奖励的问题中,不需要复杂的奖励函数工程设计。强化学习问题中最棘手的问题之一就是稀疏奖励。本文提出了一个新颖的技术:Hindsight Experience Replay (HER),可以从稀疏、二分的奖励问题中高效采样并进行学习,而且可以应用于所有的Off-Policy算法中。
深度强化学习实验室
2019-11-21
3.2K0
解决强化学习反馈稀疏问题之HER方法原理及代码实现
本文将介绍一种修改目标,使有效回报数量变多的方法。该方法称简称HER (paper地址):https://arxiv.org/abs/1707.01495v1。
深度强化学习实验室
2019-11-21
2.3K0
《深度强化学习》面试题汇总
4. 强化学习的损失函数(loss function)是什么?和深度学习的损失函数有何关系?
深度强化学习实验室
2019-11-21
4.8K0
ReinforceJS库(动态展示DP、TD、DQN算法运行过程)
ReinforceJS在GridWorld、PuckWorld、WaterWorld环境中进行了动态的展示:
深度强化学习实验室
2019-11-21
9570
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档