RL算法成功播放openai健身房CartPole-v1，但在atari Boxing-ram-v0上失败 - 腾讯云开发者社区

2、自然视频RL基准从OpenAI gym中选取任务，并添加自然视频作为观察帧的背景。利用动力学数据集中的汽车驾驶视频，通过过滤黑色像素（0，0，0）遮挡Atari帧，用视频帧替换黑色背景。...2）Atari 选择Atari的16个环境（主要是具有黑色背景以便于过滤的环境），并在默认环境和注入视频帧上评估了PPO、ACKTR、A2C和DQN算法。...在大多数游戏中，它能够在静态背景下完成这项工作，在随机噪声背景下，在自然信号背景下完全失败。 4 结论作者提出了3个新的基准任务体系剖析RL算法的性能。...前两个领域通过将传统的监督学习任务引入RL框架来测试视觉理解。在这个过程中，作者已经证明了成功的视觉模型的简单即插即用在RL设置中是失败的。...这表明，目前支持RL的端到端框架在隐式学习视觉理解方面并不成功。第三类任务要求通过融合来自自然世界的信号，将自然视频中的帧注入到当前的RL基准中来评估RL算法。

8623 0

【重磅】马斯克的AI野心——OpenAI Gym系统深度解析

2016年4月28日，Open AI 对外发布了人工智能一款用于研发和比较强化学习算法的工具包 OpenAI Gym，正如 Gym 这词所指的意思（健身房）一样，在这一平台上，开发者可以把自己开发的AI...这个网站的目的是让人们能简单地迭代并优化他们的RL算法，并对什么算法才是有效的算法有一个概念。...为了回答这个问题，我需要谈一点关于RL算法学习了什么的问题。...例如，当玩Atari游戏的时候，向这些网络输入的是屏幕上的一个图像，同时有一组离散的行动，例如{扔套索, 左走, 右走, 开火}。...OpenAI Gym也整合了最近加州大学伯克利分校的研究者们在对深度强化学习算法做基准测试时的工作成果。阐述这个基准测试研究的论文可以从ArXiv下载，并且将会在今年的ICML上作展示。

1.3K9 0

您找到你想要的搜索结果了吗？

是的

没有找到

【RL】基于迁移学习的强化学习（RL-TL）算法

文章分类在强化学习专栏：【强化学习】（17）---《基于迁移学习的强化学习（RL-TL）算法》基于迁移学习的强化学习（RL-TL）算法基于迁移学习的强化学习（Reinforcement...RL-TL 的挑战任务相似性: 如果源任务和目标任务差异过大，迁移的知识可能会产生负面影响（即“负迁移”），导致目标任务的表现不佳。因此，任务之间的相似性是成功迁移的关键。...源任务的选择: 理想的源任务应具备与目标任务相似的环境或动态特性，但在实际场景中，选择适合的源任务可能需要一些额外的工作和判断。...然而，RL-TL 的成功实施依赖于任务相似性、迁移策略的合理选择等因素，需要针对具体问题进行设计和优化。...训练过程：源环境训练（CartPole）：我们首先在 CartPole-v1 环境上使用 DQN 训练模型。

1081 0

切换JAX，强化学习速度提升4000倍！牛津大学开源框架PureJaxRL，训练只需GPU

使用PureJaxRL实现超过4000倍加速 GPU is all you need 大多数Deep RL的算法同时需要CPU和GPU的计算资源，通常来说，环境（environment）在CPU上运行...虽然在JAX中重写RL环境可能很费时间，但幸运的是，目前已经有一些库提供了各种环境： Gymnax库包括了多个常用的环境，包括经典的控制任务，Bsuite任务和Minatar(类似Atari的)环境。...在 Cartpole-v1上，只需要用训练一个CleanRL智能体的一半时间来训练2048个智能体。...Deep RL的元进化发现元学习，或者说「学会学习」，通过发现可以应用于广泛任务的一般原则和算法，有潜力彻底改变强化学习领域。...实验证明，尽管存在高度约束的设置，一个对手训练的 ACT 仍然可以显着影响受害者的训练和测试表现；对训练时间性能的影响也提供了一个新的攻击向量，并可以观察理解现有强化学习算法的成功和失败模式。

4492 0

OPENAI进化策略学习-强化学习的扩展替代-速度快！

RL基准测试（例如Atari / MuJoCo）的标准强化学习（RL）技术的表现相反，同时克服了许多RL的不便。...同样，2013年Deep Q-Learning论文展示了如何将Q-Learning与CNN结合起来，成功地解决了Atari游戏，将RL作为一个具有激动人心的实验（而不是理论）结果的研究领域重新振兴。...更强的鲁棒性在RL实现中难以设置的几个超参数在ES中是侧向的。例如，RL不是“无规模的”，所以可以通过Atari中的帧跳过超参数的不同设置来实现非常不同的学习结果（包括完全失败）。...ES与RL有竞争力我们比较了两个标准RL基准测试的ES和RL的性能：MuJoCo控制任务和Atari游戏。...作为比较，在一个典型的设置中，一台机器上的32名A3C工作人员将在大约10个小时内解决这个任务。RL的性能也可以通过更多的算法和工程努力来改善，以下是有关ES的3D人形步行者的几个视频。

7212 0

DeepMind都拿不下的游戏，刚刚被OpenAI玩出历史最高分

---- 新智元报道来源：OpenAI 编译：肖琴，金磊【新智元导读】《蒙特祖玛的复仇》被公认为是Atari中最难的游戏之一，是AI的一大挑战。...而且，这次的成果使用了PPO算法，这正是不久前OpenAI在Dota2 5v5中战胜人类的AI的算法。...2015年，DeepMind提出著名的DQN算法，使用强化学习系统来学习如何玩49个Atari游戏，该系统在大多数游戏中都能达到人类水平的表现，但在蒙特祖玛的复仇游戏中几乎没有任何进展。 ?...PPO是一个强化学习算法，同样也用在打Dota2的 OpenAI Five中。 ? 如视频所示，我们的智能体在玩蒙特祖玛的复仇。在大约12分钟的游戏中，智能体的最终得分是74500分（视频为双倍速）。...算法还展示了随着运行过程中产生的大量变化，有些过程并没有达到《蒙特祖玛的复仇》的要求。我们希望未来RL的进展将产生对随机噪声和超参数选择更健壮的算法。

3190 0

OpenAI：人工智能程序在Dota2的5V5比赛在中击败人类玩家

OpenAI的机器学习算法对抗五个小组：一个OpenAI员工团队，一群观看OpenAI员工比赛的观众成员，一个Valve员工团队，一个业余团队和一个半职业团队。...Dota在大型地图上连续播放，包含十个英雄，数十个建筑物，几十个NPC单位以及诸如符文，树木和病房等游戏长尾特征。...RL研究人员（包括我们自己）一般认为，长时间视野需要从根本上取得新的进展，如分层强化学习。我们的结果表明，我们并没有给今天的算法足够的信用，至少当它们以足够的规模和合理的探索方式运行时。...快速我们的系统被实施为通用RL培训系统Rapid，可应用于任何健身房环境。我们已经使用Rapid解决了OpenAI的其他问题，包括竞争的自我竞争。 ?...真实世界的人工智能部署将需要处理Dota提出的挑战，这些挑战并不反映在国际象棋，围棋，Atari游戏或Mujoco基准测试任务中。最终，我们将衡量Dota系统在应用于现实世界任务中的成功。

7454 0

Facebook开源游戏平台ELF：一个用于实时战略游戏研究的轻量级平台

在Python方面，ELF可以一次性返回一批游戏状态，使其对现代RL（强化学习）非常友好。另一方面，在其他平台（例如OpenAI Gym）中，一个Python接口只能包含一个游戏实例。...基于RTS引擎的简单的游戏（MiniRTS）在MacBook Pro上运行的话，每个核可以跑出每秒40K帧的速度。如果是从头开始训练一个模型，则使用6个CPU和1个GPU需花费一天的时间。...灵活性：环境和actor（演员，译者注：可以理解为执行某些固定操作的独立单元）之间的搭配非常灵活，例如，一个环境对应一个代理（例如Vanilla A3C）、一个环境对应多个代理（例如自动播放/MCTS）...该框架可以承载大多数现有的RL算法。在这个开源版本中，我们提供了用PyTorch编写的最先进的Actor-Critic（演员-评判家）算法。代码结构 ELF代码结构如下。 ?...文件夹atari包含了游戏Atari（需要ALE）的Python包装器和模型。文件夹rts/engine包含了RTS引擎。

1.1K7 0

用AI玩55款经典游戏是什么体验？

1976 年，Atari 公司在美国推出了 Atari 2600 游戏机，这是史上第一部真正意义上的家用游戏主机系统。...这样一个看似高大上的算法，咱们现在都能玩！ DreamerV2 刚刚开源，并且只需要一个 GPU 就能跑！本文，就先带大家简单学习一下 DreamerV2 的原理，以及如何让这个算法打游戏！...这种训练叫 Reinforcement Learning（强化学习，简称 RL ）。 DreamerV2 就是一种 RL 算法，举个简单的例子，说明下工作原理。上图的网络，最左边是输入，右边是输出。...RL 算法的任务就是找到最佳的策略。 DreamerV2 是一种理解环境的强化学习算法，我们称为 Model-Based RL。 DreamerV2 只需要输入游戏的图像画面，即可学习。...Tensorflow 2，版本为 2.3.1，用的游戏环境是 OpenAI 的 Gym。

8012 0

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

流式算法简单而优雅，但在深度学习中，RL 的首次重大成功并非来自流式算法。相反，像 DQN（深度 Q 网络）这样的方法将经验流切割成单独的转换（transitions），然后以任意批次进行存储和采样。...直到现在，阿尔伯塔大学的研究人员已经证明，在 Atari 和 Mujoco 任务上，流式强化学习（Streaming RL）算法可以与 DQN 一样有效。...克服流式障碍流式深度强化学习方法经常会遇到不稳定和学习失败的情况，称为流式障碍。图 2 显示了三个不同的具有挑战性的基准测试任务中的流障碍：MuJoCo、DM Control 和 Atari。...Stream-x 算法的样本效率该研究通过比较不同算法的学习曲线来研究 stream-x 方法的样本效率。图 3 显示了不同深度 RL 方法在四个连续控制 MuJoCo 任务上的性能。...实验结果如下图 5 所示：图 6 显示了不同智能体在总共经历 2 亿帧的 Atari 游戏上的性能：感兴趣的读者可以阅读论文原文，了解更多研究内容。

560 0

只需1500数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL模型，引爆AI社区

一种从MuZero模型改进而来的高效视觉RL算法—— EfficientZero，该模型从零开始训练，最终在Atari中仅用两个小时的训练数据上就超过了经过相同条件下的的人类平均水平。...新算法MuZero登顶Nature，AI离人类规划又近了一步。那为什么会选择Atari游戏呢？...是第一个在Atari 100k基准上优于人类平均性能的算法。强化学习在挑战性的问题上取得了巨大的成功。...如2015年DeepMind研发的DQN网络、击败了中国围棋世界冠军柯洁的AlphaGo、和会在Dota2中打团战的OpenAI Five等等。但这些都是站在巨大数据量的“肩膀上”训练出来的策略。...过去几年，我们在样本高效强化学习上已有许多成绩。来自真实环境的数据和来自模型的“想象数据”都可以训练策略。但大多数成功都是在基于状态的环境中。

7061 0

解近似策略优化(PPO)及其马里奥游戏环境实战

强化学习基本上分为两类，即策略梯度和价值函数，它们各有优缺点。在本文中，我们将讨论最先进的策略优化技术，即PPO或近似策略优化。...OpenAI对PPO的引用：近似策略优化(PPO)，其性能与最先进的方法相当或更好，而且实现和调优要简单得多。...为《超级马里奥兄弟》编写PPO 为了方便起见，我们将使用OpenAI给出的基线，因为OpenAI拥有大量的RL算法，并不断更新其GitHub存储库。...已经成功。...有关这些的更多信息，请参考RETRO和ATARI。

2K1 0

用AI玩55款经典游戏是什么体验？

可能有些朋友不知道 Atari，这里简单介绍一下。 1976 年，Atari 公司在美国推出了 Atari 2600 游戏机，这是史上第一部真正意义上的家用游戏主机系统。...这样一个看似高大上的算法，咱们现在都能玩！ DreamerV2 刚刚开源，并且只需要一个 GPU 就能跑！本文，就先带大家简单学习一下 DreamerV2 的原理，以及如何让这个算法打游戏！...这种训练叫 Reinforcement Learning（强化学习，简称 RL ）。 DreamerV2 就是一种 RL 算法，举个简单的例子，说明下工作原理。...RL 算法的任务就是找到最佳的策略。 DreamerV2 是一种理解环境的强化学习算法，我们称为 Model-Based RL。 DreamerV2 只需要输入游戏的图像画面，即可学习。...Tensorflow 2，版本为 2.3.1，用的游戏环境是 OpenAI 的 Gym。

2372 0

动态 | 谷歌 AI 最新博文：视频模型中的模拟策略学习

AI 科技评论按，深度强化学习（RL）技术可用于从视觉输入中学习复杂任务的策略，并已成功应用于经典的 Atari2600 游戏中。...在「基于模型的 Atari 强化学习」中，我们引入了模拟策略学习（SimPLe）算法，这是一个 MBRL 框架，用于训练 Atari 游戏机的代理，其效率显著高于当前最先进的技术，只需要使用与游戏环境的约...这个版本包含了一个预训练的 world 模型，可以用一个简单的命令行运行，也可以使用类似于 Atari 的界面来播放。...如果成功地训练了这样一个模型（例如视频预测器），那么一个人基本上拥有一个学习过的游戏环境模拟器，可以选择一系列行动，使游戏代理的长期回报最大化。...虽然 SimPLe 还达不到标准的无模型 RL 方法的性能要求，但它实际上更有效，我们希望将来能够进一步提高基于模型的技术的性能。

4732 0

业界 | OpenAI提出新型元学习方法EPG，调整损失函数实现新任务上的快速训练

选自OpenAI 机器之心编译参与：路雪、刘晓坤刚刚，OpenAI 提出一种实验性元学习方法 Evolved Policy Gradients（EPG），该方法演化学习智能体的损失函数，从而实现在新任务上的快速训练...OpenAI 发布一种实验性元学习方法 Evolved Policy Gradients（EPG），该方法从学习智能体的损失函数发展而来，可实现在新任务上的快速训练。...测试时，使用 EPG 训练的智能体可在超出训练范畴的基础任务上取得成功，比如学习从训练时某物体的位置导航至测试时该物体的位置（房间另一侧）。...OpenAI 展示了 EPG 可泛化至超出分布（out of distribution）的测试任务，其表现与其他流行的元学习算法有质的不同。...OpenAI 研究人员将 EPG 与另一种元学习算法 RL2 进行了对比，后者尝试直接学习可用于新型任务的策略。实验表明，RL2 确实可以成功地让智能体走向屏幕右侧的目标。

7589 0

动态 | 谷歌 AI 最新博文：视频模型中的模拟策略学习

5472 0

替代离线RL？Transformer进军决策领域，「序列建模」成关键

RL 基线方法。...评估也很容易：通过期望的目标返回值（例如成功或失败的 1 或 0）和环境中的起始状态进行初始化，展开序列（类似于语言模型中的标准自回归生成）以产生一系列要在环境中执行的动作。...离线强化学习基准的比较研究者扩展到了离线强化学习文献中常用的基准，即 Atari 学习环境、OpenAI Gym、Minigrid Key-To-Door 任务。...关于评估离散（Atari）和连续（OpenAI Gym）控制任务，前者涉及高维观察空间，需要长期的信用分配，而后者需要细粒度的连续控制，代表不同的任务集。...下图显示了当以指定的目标（期望）回报为条件时，Decision Transformer 累积的平均采样（评估）回报，上部为 Atari，底部为 D4RL 中重放数据集。

9391 0

OpenAI联合DeepMind发布全新研究：根据人类反馈进行强化学习

这就不再需要人类特意为了算法的进步去指定一个目标了。这一步很重要，因为在获取目标方面的微小差错也可能导致不想要的、甚至是危险的行为。...该智能体修改调整了它们的奖励函数，并决定出来回反复的击球要比得分或丢分更好理解这样的缺陷，对我们避免失败、建立想要的人工智能系统而言很重要。在测试并增强这个系统上，还有许多的工作要做。...但在创造由非专业用户教授的系统上，这是非常重要的第一步，节省了用户需要向系统给予反馈的数量，且可扩展到各种各样的问题上。...要让复杂的强化学习（RL）系统与真实世界环境进行有用的交互，我们需要与这些系统交流复杂的目标（goal）。...我们表明这种方法可以在无需访问奖励函数的情况下有效地解决复杂的强化学习任务，包括 Atari 游戏和模拟的机器人运动，同时还能在少于百分之一的我们的智能体与环境的交互上提供反馈。

1.2K8 0

谷歌大脑和DeepMind联合发布离线强化学习基准，将各种RL研究从线上转为线下

但是，这些成功很大程度上取决于智能体与环境的反复在线交互。尽管在模拟方面取得了成功，但在现实中很难推广。...因此，比较算法并确保其可重复性显得尤为重要，RL Unplugged的目的就是通过提出通用的基准，数据集，评估协议和代码来解决这些问题。具有强大基准的大型数据集一直是机器学习成功的主要因素。...RL Unplugged让离线强化学习成为现实 RL Unplugged的初始版本中包含了广泛的任务域，包括Atari游戏和模拟机器人任务。...例如，在Atari 2600上，使用的大型数据集是通过对多个种子进行策略外智能体培训而生成的。相反，对于RWRL套件，使用了来自固定的次优策略的数据。...Atari 2600，街机学习环境（ALE）套件，包含57套Atari 2600游戏（Atari57）。

8462 0

综合LSTM、transformer优势，DeepMind强化学习智能体提高数据效率

近些年，多智能体强化学习取得了突破性进展，例如 DeepMind 开发的 AlphaStar 在星际争霸 II 中击败了职业星际玩家，超过了 99.8% 的人类玩家；OpenAI Five 在 DOTA2...CoBERL 架构在自然语言处理和计算机视觉任务当中，transformer 在连接长范围数据依赖性方面非常有效，但在 RL 设置中，transformer 难以训练并且容易过拟合。...这种内存架构与 RL 机制的选择无关，研究者在开启和关闭策略（on and off-policy）设置中评估了这种架构。对于 on-policy 设置，该研究使用 V-MPO 作为 RL 算法。...鉴于其在 Atari-57 和 DMLab-30 上的竞争性能，研究者在 R2D2 的背景下实现了 CoBERL 架构。...R2D2-GTrXL 的中值（median）略优于 CoBERL，表明 R2D2-GTrXL 确实是 Atari 上的强大变体。

6101 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

强化学习的自然环境基准

【重磅】马斯克的AI野心——OpenAI Gym系统深度解析

【RL】基于迁移学习的强化学习（RL-TL）算法

切换JAX，强化学习速度提升4000倍！牛津大学开源框架PureJaxRL，训练只需GPU

OPENAI进化策略学习-强化学习的扩展替代-速度快！

DeepMind都拿不下的游戏，刚刚被OpenAI玩出历史最高分

OpenAI：人工智能程序在Dota2的5V5比赛在中击败人类玩家

Facebook开源游戏平台ELF：一个用于实时战略游戏研究的轻量级平台

用AI玩55款经典游戏是什么体验？

流式深度学习终于奏效了！强化学习之父Richard Sutton力荐

只需1500数据便可掌握Atari游戏！清华叉院助理教授提出小数据RL模型，引爆AI社区

解近似策略优化(PPO)及其马里奥游戏环境实战

用AI玩55款经典游戏是什么体验？

动态 | 谷歌 AI 最新博文：视频模型中的模拟策略学习

业界 | OpenAI提出新型元学习方法EPG，调整损失函数实现新任务上的快速训练

动态 | 谷歌 AI 最新博文：视频模型中的模拟策略学习

替代离线RL？Transformer进军决策领域，「序列建模」成关键

OpenAI联合DeepMind发布全新研究：根据人类反馈进行强化学习

谷歌大脑和DeepMind联合发布离线强化学习基准，将各种RL研究从线上转为线下

综合LSTM、transformer优势，DeepMind强化学习智能体提高数据效率

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐