腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
深度强化学习实验室
专栏作者
举报
90
文章
149165
阅读量
43
订阅数
订阅专栏
申请加入专栏
全部文章
强化学习
编程算法
https
网络安全
深度学习
神经网络
机器学习
人工智能
游戏
github
开源
linux
http
监督学习
python
git
api
tensorflow
腾讯云测试服务
分布式
迁移学习
学习方法
算法
自动驾驶
go
html
批量计算
无人驾驶
unity
机器人
技巧
论文
模型
系统
性能
渠道代理
NLP 服务
c++
.net
scala
bootstrap
node.js
ajax
sqlalchemy
ide
金融
自动化
numpy
keras
无监督学习
云计算
google
gradient
model
pdf
policy
split
编码
测试
代理
翻译
工作
框架
排序
排序算法
数据
网络
优化
原理
搜索文章
搜索
搜索
关闭
【前沿最新】主动离线策略选择算法(Active offline policy selection)(附开源代码)
机器人
https
网络安全
github
https://www.deepmind.com/publications/active-offline-policy-selection
深度强化学习实验室
2022-12-31
317
0
【重磅推荐】哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库
强化学习
编程算法
https
网络安全
github
目前,深度强化学习(DRL)技术在游戏等领域已经取得了巨大的成功,同时在量化投资中的也取得了突破性进展,为了训练一个实用的DRL 交易agent,决定在哪里交易,以什么价格交易以及交易的数量,这是一个具有挑战性的问题,那么强化学习到底如何与量化交易进行结合呢?下图是一张强化学习在量化交易中的建模图:
深度强化学习实验室
2021-03-17
3.6K
0
【重磅】Tensorflow2.0实现29种深度强化学习算法大汇总
强化学习
编程算法
unity
https
github
本文作者使用gym,Unity3D ml-agents等环境,利用tensorflow2.0版本对29种算法进行了实现的深度强化学习训练框架,该框架具有如下特性:
深度强化学习实验室
2020-07-14
912
0
前沿技术 || UC Berkeley开源RAD来改进强化学习算法
编程算法
强化学习
https
网络安全
github
【导读】从视觉观察中学习是强化学习(RL)中的一个基本但具有挑战性的问题。尽管算法与卷积神经网络相结合已被证明是成功的秘诀,但当前的方法仍在两个方面缺乏:
深度强化学习实验室
2020-05-13
589
0
DeepMind发布强化学习库 RLax
ajax
强化学习
git
github
开源
强化学习主要用于研究学习系统(智能体)的问题,该学习系统必须学习与环境进行交互的信息。智能体和环境在不连续的步骤上进行交互。在每个步骤中,智能体都会选择一个动作,并会提供一个返回的环境状态(观察)状态(部分)和标量反馈信号(奖励)。智能体的行为以行为的概率分布为特征,该分布取决于对环境(策略)的过去观察。智能体寻求一种策略,该策略将从任何给定步骤中最大化从该点开始(返回)将收集的折扣累积奖励。智能体策略或环境动态本身通常是随机的。在这种情况下,回报是一个随机变量,并且通常将更精确的智能体策略指定为在智能体和环境的随机性下最大化回报期望(值)的策略。
深度强化学习实验室
2020-02-25
796
0
第13期:深度强化学习《论文快报》
https
网络安全
github
git
开源
Direct and indirect reinforcement learning
深度强化学习实验室
2020-02-17
611
0
第9期:DeepRL每日论文快报
https
网络安全
github
git
开源
Learning Representations in Reinforcement Learning:An Information Bottleneck Approach
深度强化学习实验室
2019-12-10
424
0
DeepMind-102页深度强化学习PPT(2019最新)-原理及部分代码实现
强化学习
github
ide
git
开源
深度强化学习报道 来源自:DeepMind 编辑:DeepRL 完整pdf请看文章末尾 本slide是Namdo de Freitas教授在KHIPU上做强化学习报告的slide, 他于2017年
深度强化学习实验室
2019-11-21
1.7K
0
深入理解Hindsight Experience Replay论文
强化学习
编程算法
https
github
网络安全
本文介绍了一个“事后诸葛亮”的经验池机制,简称为HER,它可以很好地应用于稀疏奖励和二分奖励的问题中,不需要复杂的奖励函数工程设计。强化学习问题中最棘手的问题之一就是稀疏奖励。本文提出了一个新颖的技术:Hindsight Experience Replay (HER),可以从稀疏、二分的奖励问题中高效采样并进行学习,而且可以应用于所有的Off-Policy算法中。
深度强化学习实验室
2019-11-21
2.7K
0
《深度强化学习》面试题汇总
强化学习
编程算法
https
网络安全
github
4. 强化学习的损失函数(loss function)是什么?和深度学习的损失函数有何关系?
深度强化学习实验室
2019-11-21
4.6K
0
DRL在Unity自行车环境中配置与实践
unity
无人驾驶
自动驾驶
编程算法
github
在强化学习的发展中,游戏领域无疑是最好的研究环境,而最近强化学习在无人驾驶等决策等相关领域也有了广泛的研究。本文讲述则用深度强化学算法(DRL)在unity环境中制作完全基于物理引擎的无人驾驶自行车学习以及相关流程。文章主要面向研究强化学习的人,而不是unity开发者。因此无人驾驶自行车的环境会贴出gym环境的形式而不是unity工程的形式供大家把玩。
深度强化学习实验室
2019-11-21
1.3K
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档