腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度强化学习实验室

专栏作者

90

文章

148494

阅读量

43

订阅数

【论文分享】ICLR2022 HyperDQN: A Randomized Exploration for Deep RL

机器学习神经网络深度学习人工智能

Ziniu Li, Yingru Li, Yushun Zhang, Tong Zhang, and Zhi-Quan Luo. HyperDQN: A Randomized Exploration Method for Deep Reinforcement Learning. In Proceedings of 10th International Conference on Learning Representations, 2022.

深度强化学习实验室

2022-09-23

5390

NeoRL: 接近真实世界的离线强化学习基准

强化学习 http 神经网络深度学习人工智能

众所周知，强化学习（RL）在游戏界的成功已经在 AI 界产生了轰动，不管是玩出历史高分的微软AI，还是继围棋之后，人工智能又攻克的德州扑克，亦或是利用“左右互搏”来增强学习的OpenAI。人工智能在不同的游戏中的最新得分已经超越了人类的水平。

深度强化学习实验室

2021-02-26

1K0

【喜报】"深度强化学习实验室"与"南栖仙策"达成战略合作

强化学习开源神经网络深度学习人工智能

为进一步推动下一代认知决策智能的发展，促进国内强化学习技术的理论探索、应用落地和人才培养，＂深度强化学习实验室＂与＂南栖仙策(南京)科技有限公司＂达成战略合作。

深度强化学习实验室

2021-01-29

7160

【论文复现】Top-K Off-Policy Correction for a REINFORCE RS论文复现

强化学习 linux 批量计算机器学习神经网络

来源：https://zhuanlan.zhihu.com/p/329810387

深度强化学习实验室

2020-12-16

8350

强化学习《奖励函数设计: Reward Shaping》详细解读

linux 网络安全机器学习神经网络深度学习

这是Sutton在《Reinforcement learning: An introduction》中的一段话，清晰地展现了智能体是如何通过奖励信号沟通智能体与我们的目标。而奖励设计实际上是MDP中的一个关键元素

深度强化学习实验室

2020-09-08

11.5K1

博士万字总结 || 多智能体强化学习(MARL)大总结与论文详细解读

编程算法机器学习神经网络深度学习人工智能

来源： ©PaperWeekly 原创 @李文浩-华东师范大学博士生编辑：DeepRL 最近由于写论文的原因，梳理了一下近几年的多智能体强化学习（MARL）算法，在这里做一个总结。下面遵循综述 Is

深度强化学习实验室

2020-04-22

22.2K0

Call For Papers# IJCNN2020 Special Session: Method of DRL to AS

机器学习神经网络深度学习人工智能 https

Autonomous systems are an important driver of benefit to many companies and organizations. Advances in autonomous technologies affect every part of life, business, industry and education. A class of machine learning methods, namely reinforcement learning (RL), are the backbone of many autonomous systems. Recent developments in deep learning have been integrated into conventional RL, known as deep RL, for building more capable and robust autonomous systems. These autonomous technologies are transforming many industries, most notable is the car industry where autonomous driving systems will lead to huge transformation in the near future. Other businesses have also applied autonomous technologies to stimulate transformation and growth, from the defense and security industries through to the highly-competitive retail sector, supply chains, manufacturing, medical diagnosis systems, remote aged-care and health-care systems, autonomous surgery, cancer treatment planning, in-house robotics, disaster management and smart-grid control.

深度强化学习实验室

2020-02-11

8490

方法 || 深度强化学习解决交通控制问题

强化学习机器学习神经网络深度学习人工智能

作者在现有研究方法的基础上提出了使用深度强化学习解决交通控制的方法，整体结构图如下：

深度强化学习实验室

2020-01-14

1.4K0

强化学习的三种范例（Three Paradigms of Reinforcement Learning）

神经网络强化学习编程算法

“基于模型的方法比没有模型的方法更具样本效率。”近年来，这种经常重复的格言在几乎所有基于模型的RL论文（包括Jacob论文）中都引起关注。如此常识，没有人甚至不介意在旁边加上引文，陈述的真实性是不言而喻的。很明显，但是这是错误的。实际上，在很多情况下，两种方法的采样效率是相同的。

深度强化学习实验室

2019-11-21

3560

重磅综述: 迁移学习在强化学习中的应用及最新进展

迁移学习强化学习机器学习神经网络深度学习

机器学习技术在许多领域取得了重大成功，但是，许多机器学习方法只有在训练数据和测试数据在相同的特征空间中或具有相同分布的假设下才能很好地发挥作用。当分布发生变化时，大多数统计模型需要使用新收集的训练数据重建模型。在许多实际应用中，重新收集所需的训练数据并重建模型的代价是非常昂贵的，在这种情况下，我们需要在任务域之间进行知识迁移 (Knowledge Transfer) 或迁移学习 (Transfer Learning)，避免高代价的数据标注工作。

深度强化学习实验室

2019-11-21

2.6K0

通过深度强化学习实现通用量子控制

强化学习云计算神经网络 https 机器学习

地址：https://www.nature.com/articles/s41534-019-0141-3.pdf

深度强化学习实验室

2019-11-21

7250

解读72篇DeepMind深度强化学习论文

机器学习强化学习神经网络深度学习人工智能

来源：王小惟的知乎https://zhuanlan.zhihu.com/p/70127847

深度强化学习实验室

2019-11-21

1.7K0

真的像Google的WANN不需要调权重了吗？《AutoML》：一份自动化调参的指导

网络安全 https 自动化神经网络机器学习

为了寻找具备强归纳偏置的神经网络架构，研究者提出通过降低权重重要性的方式来搜索架构。具体步骤为：

深度强化学习实验室

2019-11-21

5010

ICML2019-深度强化学习文章汇总

强化学习机器学习神经网络深度学习人工智能

强化学习是一种通用的学习、预测和决策范式。RL为顺序决策问题提供了解决方法，并将其转化为顺序决策问题。RL与优化、统计学、博弈论、因果推理、序贯实验等有着深刻的联系，与近似动态规划和最优控制有着很大的重叠，在科学、工程和艺术领域有着广泛的应用。

深度强化学习实验室

2019-11-21

8240

一份人工智能领域知识脑图汇总

强化学习神经网络 python 机器学习深度学习

作为每一位深度强化学习者，掌握神经网络、python等基础知识是至关重要的一项技能，本文参考博客，将目前常用的知识进行了一一列举。

深度强化学习实验室

2019-11-21

7470

深度强化学习十大原则

强化学习编程算法神经网络人工智能深度学习

Planning: Learn from Imagined Experience

深度强化学习实验室

2019-11-21

6360

这是一份你必须学习的强化学习算法清单

编程算法强化学习机器学习神经网络深度学习

强化学习算法可以分为三大类：value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法，这种算法中只有一个值函数网络，没有policy网络，以及以DDPG,TRPO为代表的actor-critic算法，这种算法中既有值函数网络，又有policy网络。

深度强化学习实验室

2019-11-21

8900

“超参数”与“网络结构”自动化设置方法---DeepHyper

神经网络机器学习深度学习人工智能 python

可以说这两个问题一直困扰每一个学习者，为了解决这些问题，谷歌公司开源了AutoML(貌似收费)。此外还有Keras（后期详解），本篇文章介绍一个自动化学习包： DeepHyper

深度强化学习实验室

2019-11-20

1.1K0

AI领域：如何做优秀研究并写高水平论文？

https 网络安全机器学习神经网络深度学习

本文来源于博主知乎：https://zhuanlan.zhihu.com/p/82659139

深度强化学习实验室

2019-09-17

4440

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态