深度强化学习实验室-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度强化学习实验室

专栏成员

91

文章

170348

阅读量

44

订阅数

【前沿最新】主动离线策略选择算法(Active offline policy selection)(附开源代码)

机器人 https 网络安全 github

https://www.deepmind.com/publications/active-offline-policy-selection

深度强化学习实验室

2022-12-31

3700

【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法

强化学习 https 网络安全编程算法

强化学习是数学和应用的优美结合。如果我们从数学的角度去看待很多问题，能够更加透彻的理解强化学习中的很多问题。不过目前许多学习资料都尽可能避免介绍其中的数学原理，因为过多的数学可能会让不少读者望而生畏。

深度强化学习实验室

2022-09-23

1K0

【经验】深度强化学习训练与调参技巧

编程算法强化学习腾讯云测试服务网络安全

来源：知乎(https://zhuanlan.zhihu.com/p/482656367)

深度强化学习实验室

2022-09-23

2.3K0

【模仿学习】南京大学&港中文联合总结: 29页中文详述模仿学习完整过程

编程算法 http https 网络安全

模仿学习，是一种从专家示例中进行学习的方法。这里专家示例指的是由最优（或者次优）策略采集到的状态-动作序列，智能体便是通过模仿专家示例来学习策略。模仿学习主要包含两大类算法框架：行为克隆和对抗式模仿学习。基于这两种算法框架，研究者们提出了各种各样的模仿学习算法，在实验中取得了很好的效果。尽管已经有很多对模仿学习算法的实验研究，关于模仿学习算法的理论分析直到最近才被逐步建立和完善。这些理论结果很好地解释了算法的实验现象，并且对今后的算法设计也有启发。模仿学习简要教程着重从统计学习理论的角度来介绍模仿学习算法，能使读者对模仿学习算法有深刻的理解，使读者能够通过借助理论来分析已有的实验结果、并且设计更好的算法。

深度强化学习实验室

2022-09-23

4580

【最新】如何降低深度强化学习研究的计算成本(Reducing the Computational Cost of DeepRL)

编程算法游戏强化学习 https 网络安全

人们普遍认为，将传统强化学习与深度神经网络相结合的深度强化学习研究的巨大增长始于开创性的DQN算法的发表。这篇论文展示了这种组合的潜力，表明它可以产生可以非常有效地玩许多 Atari 2600 游戏的智能体。从那时起，已经有几种方法建立在原始 DQN 的基础上并对其进行了改进。流行的Rainbow 算法结合了这些最新进展，在ALE 基准测试中实现了最先进的性能. 然而，这一进步带来了非常高的计算成本，不幸的副作用是扩大了拥有充足计算资源的人和没有计算资源的人之间的差距。

深度强化学习实验室

2021-07-16

5240

【重磅推荐】哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库

强化学习编程算法 https 网络安全 github

目前，深度强化学习（DRL）技术在游戏等领域已经取得了巨大的成功，同时在量化投资中的也取得了突破性进展，为了训练一个实用的DRL 交易agent，决定在哪里交易，以什么价格交易以及交易的数量，这是一个具有挑战性的问题，那么强化学习到底如何与量化交易进行结合呢？下图是一张强化学习在量化交易中的建模图：

深度强化学习实验室

2021-03-17

3.8K0

【重磅整理】提前看287篇ICLR-2021 "深度强化学习"领域论文得分汇总列表

https 网络安全 linux 编程算法批量计算

深度强化学习实验室来源：ICLR2021 编辑：DeepRL [1]. What Matters for On-Policy Deep Actor-Critic Methods? A Large-S

深度强化学习实验室

2020-11-20

2.6K0

强化学习《奖励函数设计: Reward Shaping》详细解读

linux 网络安全机器学习神经网络深度学习

这是Sutton在《Reinforcement learning: An introduction》中的一段话，清晰地展现了智能体是如何通过奖励信号沟通智能体与我们的目标。而奖励设计实际上是MDP中的一个关键元素

深度强化学习实验室

2020-09-08

12.9K1

【RLChina2020公开课课件】 Lecture-4.pdf

https 网络安全

https://rlchina.org/lectures/lecture0.pdf

深度强化学习实验室

2020-08-02

4560

DeepMind最新力作：分布式强化学习框架Acme，智能体并行性加强

编程算法分布式强化学习 https 网络安全

近年来，在深度学习技术和算力提升的双重加持下，强化学习已经在众多复杂的 AI 挑战中取得了辉煌战绩。无论是象棋、围棋、麻将，还是王者荣耀以及各类雅达利经典游戏，强化学习的表现都足以令人叹服。

深度强化学习实验室

2020-06-09

9210

前沿技术 || UC Berkeley开源RAD来改进强化学习算法

编程算法强化学习 https 网络安全 github

【导读】从视觉观察中学习是强化学习（RL）中的一个基本但具有挑战性的问题。尽管算法与卷积神经网络相结合已被证明是成功的秘诀，但当前的方法仍在两个方面缺乏：

深度强化学习实验室

2020-05-13

6340

Google发布"强化学习"框架"SEED RL"

分布式 https 网络安全 go

本框架是Google发布于ICLR2020顶会上，这两天发布于Google Blog上

深度强化学习实验室

2020-04-07

1.5K0

第13期：深度强化学习《论文快报》

https 网络安全 github git 开源

Direct and indirect reinforcement learning

深度强化学习实验室

2020-02-17

6290

第14期：深度强化学习《论文快报》

https 网络安全

Model-based Multi-Agent Reinforcement Learning with Cooperative Prioritized Sweeping

深度强化学习实验室

2020-02-17

4520

第10期：DeepRL每日论文快报

https 网络安全

On-policy Reinforcement Learning with Entropy Regularization

深度强化学习实验室

2019-12-19

4670

第9期：DeepRL每日论文快报

https 网络安全 github git 开源

Learning Representations in Reinforcement Learning:An Information Bottleneck Approach

深度强化学习实验室

2019-12-10

4430

深入理解Hindsight Experience Replay论文

强化学习编程算法 https github 网络安全

本文介绍了一个“事后诸葛亮”的经验池机制，简称为HER，它可以很好地应用于稀疏奖励和二分奖励的问题中，不需要复杂的奖励函数工程设计。强化学习问题中最棘手的问题之一就是稀疏奖励。本文提出了一个新颖的技术：Hindsight Experience Replay （HER），可以从稀疏、二分的奖励问题中高效采样并进行学习，而且可以应用于所有的Off-Policy算法中。

深度强化学习实验室

2019-11-21

3.2K0

解决强化学习反馈稀疏问题之HER方法原理及代码实现

编程算法强化学习 https 网络安全

本文将介绍一种修改目标，使有效回报数量变多的方法。该方法称简称HER (paper地址)：https://arxiv.org/abs/1707.01495v1。

深度强化学习实验室

2019-11-21

2.3K0

《深度强化学习》面试题汇总

强化学习编程算法 https 网络安全 github

4. 强化学习的损失函数（loss function）是什么？和深度学习的损失函数有何关系？

深度强化学习实验室

2019-11-21

4.8K0

ReinforceJS库（动态展示DP、TD、DQN算法运行过程）

https 强化学习网络安全渠道代理

ReinforceJS在GridWorld、PuckWorld、WaterWorld环境中进行了动态的展示：

深度强化学习实验室

2019-11-21

9570

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态