腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度强化学习实验室

专栏作者

90

文章

149165

阅读量

43

订阅数

【前沿最新】主动离线策略选择算法(Active offline policy selection)(附开源代码)

机器人 https 网络安全 github

https://www.deepmind.com/publications/active-offline-policy-selection

深度强化学习实验室

2022-12-31

3170

【重磅推荐】哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库

强化学习编程算法 https 网络安全 github

目前，深度强化学习（DRL）技术在游戏等领域已经取得了巨大的成功，同时在量化投资中的也取得了突破性进展，为了训练一个实用的DRL 交易agent，决定在哪里交易，以什么价格交易以及交易的数量，这是一个具有挑战性的问题，那么强化学习到底如何与量化交易进行结合呢？下图是一张强化学习在量化交易中的建模图：

深度强化学习实验室

2021-03-17

3.6K0

【重磅】Tensorflow2.0实现29种深度强化学习算法大汇总

强化学习编程算法 unity https github

本文作者使用gym,Unity3D ml-agents等环境，利用tensorflow2.0版本对29种算法进行了实现的深度强化学习训练框架，该框架具有如下特性：

深度强化学习实验室

2020-07-14

9120

前沿技术 || UC Berkeley开源RAD来改进强化学习算法

编程算法强化学习 https 网络安全 github

【导读】从视觉观察中学习是强化学习（RL）中的一个基本但具有挑战性的问题。尽管算法与卷积神经网络相结合已被证明是成功的秘诀，但当前的方法仍在两个方面缺乏：

深度强化学习实验室

2020-05-13

5890

DeepMind发布强化学习库 RLax

ajax 强化学习 git github 开源

强化学习主要用于研究学习系统（智能体）的问题，该学习系统必须学习与环境进行交互的信息。智能体和环境在不连续的步骤上进行交互。在每个步骤中，智能体都会选择一个动作，并会提供一个返回的环境状态（观察）状态（部分）和标量反馈信号（奖励）。智能体的行为以行为的概率分布为特征，该分布取决于对环境（策略）的过去观察。智能体寻求一种策略，该策略将从任何给定步骤中最大化从该点开始（返回）将收集的折扣累积奖励。智能体策略或环境动态本身通常是随机的。在这种情况下，回报是一个随机变量，并且通常将更精确的智能体策略指定为在智能体和环境的随机性下最大化回报期望（值）的策略。

深度强化学习实验室

2020-02-25

7960

第13期：深度强化学习《论文快报》

https 网络安全 github git 开源

Direct and indirect reinforcement learning

深度强化学习实验室

2020-02-17

6110

第9期：DeepRL每日论文快报

https 网络安全 github git 开源

Learning Representations in Reinforcement Learning:An Information Bottleneck Approach

深度强化学习实验室

2019-12-10

4240

DeepMind-102页深度强化学习PPT(2019最新)-原理及部分代码实现

强化学习 github ide git 开源

深度强化学习报道来源自：DeepMind 编辑：DeepRL 完整pdf请看文章末尾本slide是Namdo de Freitas教授在KHIPU上做强化学习报告的slide, 他于2017年

深度强化学习实验室

2019-11-21

1.7K0

深入理解Hindsight Experience Replay论文

强化学习编程算法 https github 网络安全

本文介绍了一个“事后诸葛亮”的经验池机制，简称为HER，它可以很好地应用于稀疏奖励和二分奖励的问题中，不需要复杂的奖励函数工程设计。强化学习问题中最棘手的问题之一就是稀疏奖励。本文提出了一个新颖的技术：Hindsight Experience Replay （HER），可以从稀疏、二分的奖励问题中高效采样并进行学习，而且可以应用于所有的Off-Policy算法中。

深度强化学习实验室

2019-11-21

2.7K0

《深度强化学习》面试题汇总

强化学习编程算法 https 网络安全 github

4. 强化学习的损失函数（loss function）是什么？和深度学习的损失函数有何关系？

深度强化学习实验室

2019-11-21

4.6K0

DRL在Unity自行车环境中配置与实践

unity 无人驾驶自动驾驶编程算法 github

在强化学习的发展中，游戏领域无疑是最好的研究环境，而最近强化学习在无人驾驶等决策等相关领域也有了广泛的研究。本文讲述则用深度强化学算法（DRL）在unity环境中制作完全基于物理引擎的无人驾驶自行车学习以及相关流程。文章主要面向研究强化学习的人，而不是unity开发者。因此无人驾驶自行车的环境会贴出gym环境的形式而不是unity工程的形式供大家把玩。

深度强化学习实验室

2019-11-21

1.3K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态