腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度强化学习实验室

专栏作者

90

文章

149421

阅读量

43

订阅数

【最全总结】离线强化学习(Offline RL)数据集、Benchmarks、经典算法、软件、竞赛、落地应用、核心算法解读汇总

scala html 编程算法

Supported by: Nanjing University and Polixir

深度强化学习实验室

2022-12-31

2K0

【重磅最新】ICLR2023顶会376篇深度强化学习论文得分出炉(376/4753,占比8%)

声明：本文整理自顶会ICLR-2023官方，强化学习相关文章大约共计376篇(376/4753), 占比8%，整理难免有不足之处，还望交流指正。

深度强化学习实验室

2022-12-31

4.4K0

【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法

强化学习 https 网络安全编程算法

强化学习是数学和应用的优美结合。如果我们从数学的角度去看待很多问题，能够更加透彻的理解强化学习中的很多问题。不过目前许多学习资料都尽可能避免介绍其中的数学原理，因为过多的数学可能会让不少读者望而生畏。

深度强化学习实验室

2022-09-23

7570

【万字专栏总结】离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

编程算法强化学习深度学习监督学习

强化学习发展的特别早，但一直不温不火，其中Sutton老爷子早在1998年就写了强化学习领域的圣经书籍：An Introduction : Reinforcement Learning ，但也并未开启强化学习发展的新局面。直到2012年，深度学习广泛兴起，大规模的神经网络被成功用于解决自然语言处理，计算机视觉等领域，人工智能的各个方向才开始快速发展，强化学习领域最典型的就是2013年DeepMind公司的Volodymyr Mnih发表Playing Atari with Deep Reinforcement Learning（DQN技术），可以说开启了深度强化学习技术发展的新高潮，2015年该论文的加强版Human-level control through deep reinforcement learning 登上Nature, 以及2016年Nature上的AlphaGo: Mastering the game of Go with deep neural networks and tree search 充分证明了深度强化学习技术的发展潜力。

深度强化学习实验室

2022-09-23

5.2K0

【经验】深度强化学习训练与调参技巧

编程算法强化学习腾讯云测试服务网络安全

来源：知乎(https://zhuanlan.zhihu.com/p/482656367)

深度强化学习实验室

2022-09-23

1.7K0

【重磅】Gym发布 8 年后，迎来第一个完整环境文档，强化学习入门更加简单化！

api 强化学习编程算法

OpenAI Gym是一款用于研发和比较强化学习算法的环境工具包，它支持训练智能体（agent）做任何事——从行走到玩Pong或围棋之类的游戏都在范围中。它与其他的数值计算库兼容，如pytorch、tensorflow 或者theano 库等。现在主要支持的是python 语言

深度强化学习实验室

2022-09-23

1.7K0

【模仿学习】南京大学&港中文联合总结: 29页中文详述模仿学习完整过程

编程算法 http https 网络安全

模仿学习，是一种从专家示例中进行学习的方法。这里专家示例指的是由最优（或者次优）策略采集到的状态-动作序列，智能体便是通过模仿专家示例来学习策略。模仿学习主要包含两大类算法框架：行为克隆和对抗式模仿学习。基于这两种算法框架，研究者们提出了各种各样的模仿学习算法，在实验中取得了很好的效果。尽管已经有很多对模仿学习算法的实验研究，关于模仿学习算法的理论分析直到最近才被逐步建立和完善。这些理论结果很好地解释了算法的实验现象，并且对今后的算法设计也有启发。模仿学习简要教程着重从统计学习理论的角度来介绍模仿学习算法，能使读者对模仿学习算法有深刻的理解，使读者能够通过借助理论来分析已有的实验结果、并且设计更好的算法。

深度强化学习实验室

2022-09-23

3360

【最新】如何降低深度强化学习研究的计算成本(Reducing the Computational Cost of DeepRL)

编程算法游戏强化学习 https 网络安全

人们普遍认为，将传统强化学习与深度神经网络相结合的深度强化学习研究的巨大增长始于开创性的DQN算法的发表。这篇论文展示了这种组合的潜力，表明它可以产生可以非常有效地玩许多 Atari 2600 游戏的智能体。从那时起，已经有几种方法建立在原始 DQN 的基础上并对其进行了改进。流行的Rainbow 算法结合了这些最新进展，在ALE 基准测试中实现了最先进的性能. 然而，这一进步带来了非常高的计算成本，不幸的副作用是扩大了拥有充足计算资源的人和没有计算资源的人之间的差距。

深度强化学习实验室

2021-07-16

4710

强化学习 | 基于Novelty-Pursuit的高效探索方法

强化学习编程算法

Li, Ziniu, and Xiong-Hui Chen. “Efficient Exploration by Novelty-Pursuit.” International Conference on Distributed Artificial Intelligence, 2020, pp. 85–102.

深度强化学习实验室

2021-07-16

4750

【重磅推荐】哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库

强化学习编程算法 https 网络安全 github

目前，深度强化学习（DRL）技术在游戏等领域已经取得了巨大的成功，同时在量化投资中的也取得了突破性进展，为了训练一个实用的DRL 交易agent，决定在哪里交易，以什么价格交易以及交易的数量，这是一个具有挑战性的问题，那么强化学习到底如何与量化交易进行结合呢？下图是一张强化学习在量化交易中的建模图：

深度强化学习实验室

2021-03-17

3.6K0

【Nature重磅】OpenAI科学家提出全新强化学习算法，推动AI向智能体进化

go 编程算法游戏强化学习机器人

近年来，人工智能（AI）在强化学习算法的加持下，取得了令人瞩目的成就。比如在围棋、星际争霸 II 和 Dota 2 等诸多策略、竞技类游戏中，AI 都有着世界冠军级的表现，以及在机器人跑步、跳跃和抓握等技能的自主学习方面，也起到了显著的推动作用。

深度强化学习实验室

2021-03-17

1.4K0

【干货】全面总结(值函数与优势函数)的估计方法

大部分强化学习算法中需要用到值函数（状态值函数或者动作值函数），估计值函数的方法主要有时序差分(Temporal-difference, TD)算法和蒙特卡罗(Monte Carlo, MC)方法。这些方法各有优缺点，TD算法的估计量具有高偏差(Bias)低方差(Variance)的特点，相反，MC算法的估计量具有低偏差高方差的特点。Hajime在2000年提出了一种巧妙地在偏差与方差间找平衡的方法，称为

深度强化学习实验室

2021-01-29

1.7K0

【实验室顾问】俞扬教授（CCF-IEEE CS青年科学家奖获得者）

编程算法强化学习监督学习游戏机器学习

摘要：CCF与IEEE CS决定授予俞扬博士2020年CCF-IEEE CS青年科学家奖，以表彰他在演化学习理论与开放环境强化学习方法方面所做出的突出贡献。

深度强化学习实验室

2021-01-29

6550

【书籍推荐】历时3年，清华大学iDLab实验室打造Reinforcement Learning and Control课程及讲义

http 强化学习编程算法自动驾驶无人驾驶

The Intelligent Driving Laboratory (iDLAB) is a part of the School of Vehicle and Mobility (SVM) at Tsinghua University. This lab focuses on advanced automatic control and machine learning algorithms, and their applications on autonomous driving, connected vehicles, driver assistance and driver behavior analysis, etc. Our research interests are loosely divided into four categories: (1) Perception, decision and control for autonomous vehicles and driver assistance systems; (2) Reinforcement learning and optimal control; (3) Distributed estimation, learning and control; and (4) Large-scale optimization and control of eco-automation and electrified powertrain. We have achieved a series of important research results and peer-reviewed publications publicly available through this website.

深度强化学习实验室

2021-01-29

7550

【论文深度研读报告】MuZero算法过程详解

编程算法 linux 强化学习

这篇文章的研究内容为：具有规划能力的智能体（agents with planning capabilities）。

深度强化学习实验室

2021-01-26

2.7K0

【论文复现】一步步详解用TD3算法通关BipedalWalkerHardcore-v2环境

编程算法强化学习学习方法

熟悉强化学习Gym环境的小伙伴应该对 (BWH-v2环境) BipedalWalkerHardcore-v2（如图1）并不陌生。在这个环境里，这个Agent需要与Environment互动并学会在不同路况下奔跑行走。由于这个环境是的动作空间是4维连续动作空间，同时Agent需要掌握跑步、跨坑、越障、下阶梯等一系列技能。很多小伙伴表示尽管用目前先进的TD3, SAC, PPO等RL算法进行各种头铁的训练，也无法达到很好的效果。在Gym官方的Leaderboard上，有人用A3C+LSTM算法，在32核CPU和3个GPU上训练了73小时后最终解决了该问题，还有人使用CMA-ES算法在64核的Google Compute Engine上训练了100小时才最终解决了该问题，可见该环境的难度不一般。

深度强化学习实验室

2021-01-04

3.1K0

【干货总结】分层强化学习(HRL)全面总结

编程算法强化学习监督学习学习方法

来源：https://zhuanlan.zhihu.com/p/267524544

深度强化学习实验室

2020-12-01

3.1K0

【重磅整理】提前看287篇ICLR-2021 "深度强化学习"领域论文得分汇总列表

https 网络安全 linux 编程算法批量计算

深度强化学习实验室来源：ICLR2021 编辑：DeepRL [1]. What Matters for On-Policy Deep Actor-Critic Methods? A Large-S

深度强化学习实验室

2020-11-20

2.5K0

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

强化学习编程算法 linux

探索 VS 利用，这是强化学习中至关重要的话题。我们希望强化学习中的智能体尽快找到最佳策略。然而，在没有充分探索的情况下就盲目地选择某个策略会带来一定的问题，因为这会导致模型陷入局部最优甚至完全不收敛。目前的强化学习算法朝着回报值最大化的方向优化，而探索仍然更像是一个开放性话题。

深度强化学习实验室

2020-08-28

3.1K0

【重磅】Tensorflow2.0实现29种深度强化学习算法大汇总

强化学习编程算法 unity https github

本文作者使用gym,Unity3D ml-agents等环境，利用tensorflow2.0版本对29种算法进行了实现的深度强化学习训练框架，该框架具有如下特性：

深度强化学习实验室

2020-07-14

9140

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态