首页
学习
活动
专区
工具
TVP
发布

深度强化学习实验室

专栏成员
91
文章
170346
阅读量
44
订阅数
【DeepNash智能体】DeepMind-34位作者联名发表“无模型多智能体强化学习战略游戏”新基准
我们介绍了 DeepNash,一种能够从零开始学习玩不完美信息游戏 Stratego1 的自主智能体,直至达到人类专家的水平。Stratego 是人工智能 (AI) 尚未掌握的少数标志性棋盘游戏之一。这个流行的游戏有一个巨大的游戏树,大约有 10535 个节点,比围棋大 10175 倍。它具有额外的复杂性,需要在不完全信息下进行决策,类似于德州扑克,它的游戏树要小得多(大约 10164 个节点)。Stratego 中的决策是根据大量离散的行动做出的,行动和结果之间没有明显的联系。情节很长,在玩家获胜之前通常需要数百步棋,并且 Stratego 中的情况不能像扑克中那样轻易地分解为可管理大小的子问题。由于这些原因,Stratego 几十年来一直是 AI 领域的一项重大挑战,现有的 AI 方法几乎无法达到业余水平。DeepNash 使用博弈论、无模型的深度强化学习方法,无需搜索,通过自我对弈来学习掌握 Stratego。正则化纳什动力学 (R-NaD) 算法是 DeepNash 的关键组成部分,通过直接修改底层多智能体学习动力学,收敛到近似纳什均衡,而不是围绕它“循环”。DeepNash 在 Stratego 中击败了现有最先进的 AI 方法,并在 Gravon 游戏平台上获得了年度(2022 年)和历史前三名,与人类专家玩家竞争。
深度强化学习实验室
2022-09-23
9280
【最新】如何降低深度强化学习研究的计算成本(Reducing the Computational Cost of DeepRL)
人们普遍认为,将传统强化学习与深度神经网络相结合的深度强化学习研究的巨大增长始于开创性的DQN算法的发表。这篇论文展示了这种组合的潜力,表明它可以产生可以非常有效地玩许多 Atari 2600 游戏的智能体。从那时起,已经有几种 方法建立在原始 DQN 的基础上并对其进行了改进。流行的Rainbow 算法结合了这些最新进展,在ALE 基准测试中实现了最先进的性能. 然而,这一进步带来了非常高的计算成本,不幸的副作用是扩大了拥有充足计算资源的人和没有计算资源的人之间的差距。
深度强化学习实验室
2021-07-16
5240
【Nature重磅】OpenAI科学家提出全新强化学习算法,推动AI向智能体进化
近年来,人工智能(AI)在强化学习算法的加持下,取得了令人瞩目的成就。比如在围棋、星际争霸 II 和 Dota 2 等诸多策略、竞技类游戏中,AI 都有着世界冠军级的表现,以及在机器人跑步、跳跃和抓握等技能的自主学习方面,也起到了显著的推动作用。
深度强化学习实验室
2021-03-17
1.6K0
【DeepMind】首发并开源Alchemy,一种元强化学习(meta-RL)基准环境。
元学习作为一种增加强化学习的灵活性和样本效率的方法,科研学者对此的关注兴趣迅速增长。然而,该研究领域中的一个问题是缺乏足够的基准测试任务。通常,过去基准的基础结构要么太简单以至于无法引起兴趣,要么就太不明确了以至于无法进行有原则的分析。在当前的工作中,DeepMind科学家介绍了用于元RL研究的新基准:Alchemy,该基准是将结构丰富性与结构透明性相结合。它是在Unity中实现的3D视频游戏,涉及潜在的因果结构,该过程都经过程序重新采样,从而提供了结构学习,在线推理,假设测试以及基于抽象领域知识的动作排序。并在Alchemy上评估了一对功能强大的RL方法,并对这些方法进行了深入分析。结果清楚地表明,Alchemy作为元RL的挑战性基准提供了验证。
深度强化学习实验室
2021-02-26
7060
【实验室顾问】俞扬教授 (CCF-IEEE CS青年科学家奖获得者)
摘要:CCF与IEEE CS决定授予俞扬博士2020年CCF-IEEE CS青年科学家奖,以表彰他在演化学习理论与开放环境强化学习方法方面所做出的突出贡献。
深度强化学习实验室
2021-01-29
6950
【综述翻译】Deep Learning for Video Game Playing
原文来源:https://arxiv.org/pdf/1708.07902.pdf
深度强化学习实验室
2020-12-16
1K0
笔记 || AlphaStar学习笔记总结
AlphaStar是RL处理复杂决策问题的又一大新闻了。从War3到SC2,RTS一直是我的业余最爱,最近读了一下paper,也share一下里面使用的一些比较有趣的技术。@田渊栋 老师和 @张楚珩。
深度强化学习实验室
2020-02-25
1.7K0
DQN系列(2): Double DQN算法原理与实现
论文地址: https://arxiv.org/pdf/1509.06461.pdf
深度强化学习实验室
2020-02-11
2K0
深度强化学习框架-OpenSpiel(DeepMind开源28种DRL环境+24种DRL算法实现)
在Alphabet大额资金支持下,DeepMind一直以实现AGI为为目标的公司在各个领域不断的尝试,做出了很多基础研究。其中最为出名的当属在强化学习方面的探索,从2013年的Atari游戏到AlphaGo的横空出世,再到终极AlphaZero的实现,完成了一次次巨大的挑战,但一个完善的环境对强化学习的发展来说是非常重要的,而DeepMind就拥有这样一个杀手锏。
深度强化学习实验室
2019-11-21
2.9K0
深入浅出解读"多巴胺(Dopamine)论文"、环境配置和实例分析
论文的首页明显告诉我们,这是一篇Google出的论文(所以值得一读),该文作者提出了一种新的深度强化学习研究框架: 多巴胺(Dopamine),旨在于丰富DRL的多样性,该框架是一个开源的,基于tensorflow平台的的最先进的智能体实现平台,并通过深入研究RL中不同研究目标的分类来补充这一产品。虽然并非详尽无遗,但分析强调了该领域研究的异质性以及框架的价值。
深度强化学习实验室
2019-11-20
1.2K0
【重磅】深度强化学习的加速方法
“深度强化学习一直以来都以智能体训练时间长、计算力需求大、模型收敛慢等而限制很多人去学习,比如:AlphaZero训练3天的时间等,因此缩短训练周转时间成为一个重要话题。深度强化学习大神Pieter Abbeel最近发表了深度强化学习的加速方法,他从整体上提出了一个加速深度强化学习周转时间的方法,成功的解决了一些问题,Pieter Abbeel,伯克利大学教授,也是强化学习的重要科学家之一。”
深度强化学习实验室
2019-11-20
1.8K0
深度强化学习的加速方法
本文来源于博主知乎:https://zhuanlan.zhihu.com/p/56085913
深度强化学习实验室
2019-09-17
1.9K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档