首页
学习
活动
专区
工具
TVP
发布

深度强化学习实验室

专栏成员
91
文章
171049
阅读量
44
订阅数
【DeepNash智能体】DeepMind-34位作者联名发表“无模型多智能体强化学习战略游戏”新基准
我们介绍了 DeepNash,一种能够从零开始学习玩不完美信息游戏 Stratego1 的自主智能体,直至达到人类专家的水平。Stratego 是人工智能 (AI) 尚未掌握的少数标志性棋盘游戏之一。这个流行的游戏有一个巨大的游戏树,大约有 10535 个节点,比围棋大 10175 倍。它具有额外的复杂性,需要在不完全信息下进行决策,类似于德州扑克,它的游戏树要小得多(大约 10164 个节点)。Stratego 中的决策是根据大量离散的行动做出的,行动和结果之间没有明显的联系。情节很长,在玩家获胜之前通常需要数百步棋,并且 Stratego 中的情况不能像扑克中那样轻易地分解为可管理大小的子问题。由于这些原因,Stratego 几十年来一直是 AI 领域的一项重大挑战,现有的 AI 方法几乎无法达到业余水平。DeepNash 使用博弈论、无模型的深度强化学习方法,无需搜索,通过自我对弈来学习掌握 Stratego。正则化纳什动力学 (R-NaD) 算法是 DeepNash 的关键组成部分,通过直接修改底层多智能体学习动力学,收敛到近似纳什均衡,而不是围绕它“循环”。DeepNash 在 Stratego 中击败了现有最先进的 AI 方法,并在 Gravon 游戏平台上获得了年度(2022 年)和历史前三名,与人类专家玩家竞争。
深度强化学习实验室
2022-09-23
9320
【Mava】一个分布式多智能体强化学习研究框架
Mava 是一个用于构建多智能体强化学习 (MARL) 系统的库。Mava 为 MARL 提供了有用的组件、抽象、实用程序和工具,并允许对多进程系统训练和执行进行简单的扩展,同时提供高度的灵活性和可组合性。
深度强化学习实验室
2021-08-10
1.8K0
深度强化学习框架-OpenSpiel(DeepMind开源28种DRL环境+24种DRL算法实现)
在Alphabet大额资金支持下,DeepMind一直以实现AGI为为目标的公司在各个领域不断的尝试,做出了很多基础研究。其中最为出名的当属在强化学习方面的探索,从2013年的Atari游戏到AlphaGo的横空出世,再到终极AlphaZero的实现,完成了一次次巨大的挑战,但一个完善的环境对强化学习的发展来说是非常重要的,而DeepMind就拥有这样一个杀手锏。
深度强化学习实验室
2019-11-21
2.9K0
一份人工智能领域知识脑图汇总
作为每一位深度强化学习者,掌握神经网络、python等基础知识是至关重要的一项技能,本文参考博客,将目前常用的知识进行了一一列举。
深度强化学习实验室
2019-11-21
8030
“超参数”与“网络结构”自动化设置方法---DeepHyper
可以说这两个问题一直困扰每一个学习者,为了解决这些问题,谷歌公司开源了AutoML(貌似收费)。此外还有Keras(后期详解),本篇文章介绍一个自动化学习包: DeepHyper
深度强化学习实验室
2019-11-20
1.1K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档