首页
学习
活动
专区
工具
TVP
发布

深度强化学习实验室

专栏作者
90
文章
150921
阅读量
43
订阅数
【万字专栏总结】离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等)
强化学习发展的特别早,但一直不温不火,其中Sutton老爷子早在1998年就写了强化学习领域的圣经书籍:An Introduction : Reinforcement Learning ,但也并未开启强化学习发展的新局面。直到2012年,深度学习广泛兴起,大规模的神经网络被成功用于解决自然语言处理,计算机视觉等领域,人工智能的各个方向才开始快速发展,强化学习领域最典型的就是2013年DeepMind公司的Volodymyr Mnih发表Playing Atari with Deep Reinforcement Learning(DQN技术),可以说开启了深度强化学习技术发展的新高潮,2015年该论文的加强版Human-level control through deep reinforcement learning 登上Nature, 以及2016年Nature上的AlphaGo: Mastering the game of Go with deep neural networks and tree search 充分证明了深度强化学习技术的发展潜力。
深度强化学习实验室
2022-09-23
5.3K0
【论文分享】ICLR2022 HyperDQN: A Randomized Exploration for Deep RL
Ziniu Li, Yingru Li, Yushun Zhang, Tong Zhang, and Zhi-Quan Luo. HyperDQN: A Randomized Exploration Method for Deep Reinforcement Learning. In Proceedings of 10th International Conference on Learning Representations, 2022.
深度强化学习实验室
2022-09-23
5410
【Richard S. Sutton】谈 The Bitter Lesson(AI 研究中痛苦的教训)
从 70 年的 AI 研究中可以读出的最大教训是,利用计算的一般方法最终是最有效的,而且幅度很大。造成这种情况的最终原因是摩尔定律,或者更确切地说是它对每单位计算成本持续呈指数下降的概括。大多数 AI 研究已经进行,就好像智能体可用的计算是恒定的(在这种情况下,利用人类知识将是提高性能的唯一方法之一),但是,在比典型研究项目稍长的时间里,大量的计算量不可避免地变得可用。为了寻求在短期内产生影响的改进,研究人员试图利用他们对该领域的人类知识,但从长远来看,唯一重要的是利用计算。这两者不需要相互对立,但在实践中它们往往会发生冲突。花在一个上的时间是没有花在另一个上的时间。对一种方法或另一种方法的投资存在心理承诺。人类知识方法往往会使方法复杂化,使其不太适合利用利用计算的一般方法。有很多人工智能研究人员迟来的惨痛教训的例子,回顾一些最突出的例子是有启发性的。
深度强化学习实验室
2022-09-23
1.3K0
NeoRL: 接近真实世界的离线强化学习基准
众所周知,强化学习(RL)在游戏界的成功已经在 AI 界产生了轰动 ,不管是玩出历史高分的微软AI,还是继围棋之后,人工智能又攻克的德州扑克,亦或是利用“左右互搏”来增强学习的OpenAI。人工智能在不同的游戏中的最新得分已经超越了人类的水平。
深度强化学习实验室
2021-02-26
1K0
【喜报】"深度强化学习实验室"与"南栖仙策"达成战略合作
为进一步推动下一代认知决策智能的发展,促进国内强化学习技术的理论探索、应用落地和人才培养,"深度强化学习实验室"与"南栖仙策(南京)科技有限公司"达成战略合作。
深度强化学习实验室
2021-01-29
7250
强化学习《奖励函数设计: Reward Shaping》详细解读
这是Sutton在《Reinforcement learning: An introduction》中的一段话,清晰地展现了智能体是如何通过奖励信号沟通智能体与我们的目标。而奖励设计实际上是MDP中的一个关键元素
深度强化学习实验室
2020-09-08
11.6K1
博士万字总结 || 多智能体强化学习(MARL)大总结与论文详细解读
来源: ©PaperWeekly 原创 @李文浩-华东师范大学博士生 编辑:DeepRL 最近由于写论文的原因,梳理了一下近几年的多智能体强化学习(MARL)算法,在这里做一个总结。下面遵循综述 Is
深度强化学习实验室
2020-04-22
22.7K0
笔记 || AlphaStar学习笔记总结
AlphaStar是RL处理复杂决策问题的又一大新闻了。从War3到SC2,RTS一直是我的业余最爱,最近读了一下paper,也share一下里面使用的一些比较有趣的技术。@田渊栋 老师和 @张楚珩。
深度强化学习实验室
2020-02-25
1.6K0
Call For Papers# IJCNN2020 Special Session: Method of DRL to AS
Autonomous systems are an important driver of benefit to many companies and organizations. Advances in autonomous technologies affect every part of life, business, industry and education. A class of machine learning methods, namely reinforcement learning (RL), are the backbone of many autonomous systems. Recent developments in deep learning have been integrated into conventional RL, known as deep RL, for building more capable and robust autonomous systems. These autonomous technologies are transforming many industries, most notable is the car industry where autonomous driving systems will lead to huge transformation in the near future. Other businesses have also applied autonomous technologies to stimulate transformation and growth, from the defense and security industries through to the highly-competitive retail sector, supply chains, manufacturing, medical diagnosis systems, remote aged-care and health-care systems, autonomous surgery, cancer treatment planning, in-house robotics, disaster management and smart-grid control.
深度强化学习实验室
2020-02-11
8590
方法 || 深度强化学习解决交通控制问题
作者在现有研究方法的基础上提出了使用深度强化学习解决交通控制的方法,整体结构图如下:
深度强化学习实验室
2020-01-14
1.4K0
重磅综述: 迁移学习在强化学习中的应用及最新进展
机器学习技术在许多领域取得了重大成功,但是,许多机器学习方法只有在训练数据和测试数据在相同的特征空间中或具有相同分布的假设下才能很好地发挥作用。当分布发生变化时,大多数统计模型需要使用新收集的训练数据重建模型。在许多实际应用中,重新收集所需的训练数据并重建模型的代价是非常昂贵的,在这种情况下,我们需要在任务域之间进行知识迁移 (Knowledge Transfer) 或迁移学习 (Transfer Learning),避免高代价的数据标注工作。
深度强化学习实验室
2019-11-21
2.6K0
解读72篇DeepMind深度强化学习论文
来源:王小惟的知乎https://zhuanlan.zhihu.com/p/70127847
深度强化学习实验室
2019-11-21
1.7K0
ICML2019-深度强化学习文章汇总
强化学习是一种通用的学习、预测和决策范式。RL为顺序决策问题提供了解决方法,并将其转化为顺序决策问题。RL与优化、统计学、博弈论、因果推理、序贯实验等有着深刻的联系,与近似动态规划和最优控制有着很大的重叠,在科学、工程和艺术领域有着广泛的应用。
深度强化学习实验室
2019-11-21
8310
一份人工智能领域知识脑图汇总
作为每一位深度强化学习者,掌握神经网络、python等基础知识是至关重要的一项技能,本文参考博客,将目前常用的知识进行了一一列举。
深度强化学习实验室
2019-11-21
7560
深度强化学习十大原则
Planning: Learn from Imagined Experience
深度强化学习实验室
2019-11-21
6390
这是一份你必须学习的强化学习算法清单
强化学习算法可以分为三大类:value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法,这种算法中只有一个值函数网络,没有policy网络,以及以DDPG,TRPO为代表的actor-critic算法,这种算法中既有值函数网络,又有policy网络。
深度强化学习实验室
2019-11-21
9030
【重磅】深度强化学习的加速方法
“深度强化学习一直以来都以智能体训练时间长、计算力需求大、模型收敛慢等而限制很多人去学习,比如:AlphaZero训练3天的时间等,因此缩短训练周转时间成为一个重要话题。深度强化学习大神Pieter Abbeel最近发表了深度强化学习的加速方法,他从整体上提出了一个加速深度强化学习周转时间的方法,成功的解决了一些问题,Pieter Abbeel,伯克利大学教授,也是强化学习的重要科学家之一。”
深度强化学习实验室
2019-11-20
1.7K0
“超参数”与“网络结构”自动化设置方法---DeepHyper
可以说这两个问题一直困扰每一个学习者,为了解决这些问题,谷歌公司开源了AutoML(貌似收费)。此外还有Keras(后期详解),本篇文章介绍一个自动化学习包: DeepHyper
深度强化学习实验室
2019-11-20
1.1K0
深度强化学习的加速方法
本文来源于博主知乎:https://zhuanlan.zhihu.com/p/56085913
深度强化学习实验室
2019-09-17
1.8K0
AI领域:如何做优秀研究并写高水平论文?
本文来源于博主知乎:https://zhuanlan.zhihu.com/p/82659139
深度强化学习实验室
2019-09-17
4460
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档