首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

谷歌、DeepMind强强联手再发布Dreamer:性能远超“前辈”PlaNet,数据效率再创新高

该智能体已开源,开源代码:https://github.com/google-research/dreamer 2 Dreamer 的工作原理如何?...根据智能体由过去的经验而组成的数据集中的一系列图像、行为和奖励,Dreamer可以学习如下所示的世界模型: Dreamer 从经验中学习世界模型。...此外,Dreamer使用价值函数考虑超出规划范围的奖励,并利用反向传播进行高效的规划。...在计算时间上,相比于其他方法所需的24个小时,训练 Dreamer 仅需16个小时。...产生行为如下所示,表明了 Dreamer也能高效地学习解决这些更具挑战性的任务: Dreamer在Atari游戏和DeepMind Lab级别任务上学习成功的行为,DeepMind Lab级别的任务具有离散的动作和视觉上更加多样化的场景

52410

世界模型仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走,无需重置。10 分钟内适应扰动或快速翻身站立

Dreamer 算法最近显示出通过在学习的世界模型中进行规划从少量交互中学习的巨大潜力,在视频游戏中表现优于纯强化学习。...然而,Dreamer 是否可以促进物理机器人的更快学习尚不得而知。在本文中,我们将 Dreamer 应用到 4 个机器人上,在没有任何模拟器的情况下直接在现实世界中在线学习。...Dreamer 仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走,无需重置。然后我们推动机器人,发现 Dreamer 在 10 分钟内适应以承受扰动或快速翻身并重新站起来。...在两个不同的机械臂上,Dreamer 学习直接从相机图像和稀疏奖励中挑选和放置多个物体,接近人类的表现。在轮式机器人上,Dreamer 学习完全根据相机图像导航到目标位置,自动解决机器人方向的歧义。...在所有实验中使用相同的超参数,我们发现 Dreamer 能够在现实世界中进行在线学习,这建立了强大的基线。我们发布了我们的基础设施,以便未来将世界模型应用于机器人学习。

21020

谷歌重磅开源RL智能体Dreamer,仅靠图像学习从机器人到Atari的控制策略,样本效率暴增20倍

通过模型预测的反向传播,Dreamer 能够利用它学得的模型高效地展开行为学习。通过从原始图像中学习计算紧凑模型状态,Dreamer 仅使用一块 GPU 即可以高效地从预测到的并行序列中学习。...Google AI 也已经开源了 Dreamer 的源代码。...从智能体数据集中采样一系列过去的图像、动作以及奖赏值数据,Dreamer 的模型学习过程如下图所示: ? Dreamer 从过去的经验中学习出一个环境的模型。...Dreamer 则不同,它通过去耦化规划和行动规避了这一计算花销大的搜索过程。只要在预测序列上训练了它的策略网络,Dreamer 在无需额外搜索的情况下即可计算与环境进行交互的动作。...结果显示,Dreamer 能够学习这些具有挑战性的任务。 ? Dreamer 在雅达利游戏上有着成功的表现。

64520

1小时学会走路,10分钟学会翻身,世界模型让机器人迅速掌握多项技能

论文链接:https://arxiv.org/pdf/2206.14176.pdf Dreamer 世界模型是谷歌、多伦多大学等机构在 2021 年提出的一种。...总体来说,这项研究的贡献在于: 1、Dreamer on Robots。研究者将 Dreamer 应用于 4 个机器人,无需引入新算法直接在现实世界中展示了成功的学习成果。...与 Hafner et al. (2020) 相比,Dreamer 方法没有训练频率超参数,因为学习器优化神经网络与数据收集并行进行,没有速率限制。...Sphero 导航 此外,研究者还在视觉导航任务上评估了 Dreamer,该任务需要将轮式机器人操纵到固定目标位置,仅给定 RGB 图像作为输入。...2 小时内,Dreamer 学会了快速且始终如一地导航到目标,并保持在目标附近。如图 7 所示,Dreamer 与目标的平均距离为 0.15(以区域大小为单位测量并跨时间步求平均值)。

74330

DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

完整论文详见: https://arxiv.org/pdf/2301.04104v1.pdf 站在巨人的肩膀上,回顾Dreamer家族发展史  一代目:Dreamer 发布时间:2019 年 12 月...参与机构:多伦多大学、DeepMind、Google Brain 论文地址: https://arxiv.org/pdf/1912.01603.pdf 算法简介: Dreamer 是一个强化学习 agent...在 20 个极具挑战性的视觉控制任务中,Dreamer 在数据效率、计算时间和最终性能方面均超过了当时的主流方法。...Dreamer 与当时主流方法的性能比较 Dreamer 继承了 PlaNet 的数据效率,同时超过了当时最好的 model-free agent 的渐近性能 (asymptotic performance...5×106 个 environment step 后,Dreamer 在各个任务中的平均性能达到了 823,而 PlaNet 仅为 332,最高的 model-free D4PG agent 在 108

25020

DeepMind 发布强化学习通用算法 DreamerV3,AI 成精自学捡钻石

完整论文详见: https://arxiv.org/pdf/2301.04104v1.pdf 站在巨人的肩膀上,回顾Dreamer家族发展史 一代目:Dreamer 发布时间:2019 年 12 月...参与机构:多伦多大学、DeepMind、Google Brain 论文地址:https://arxiv.org/pdf/1912.01603.pdf 算法简介: Dreamer 是一个强化学习 agent...在 20 个极具挑战性的视觉控制任务中,Dreamer 在数据效率、计算时间和最终性能方面均超过了当时的主流方法。...Dreamer 与当时主流方法的性能比较 Dreamer 继承了 PlaNet 的数据效率,同时超过了当时最好的 model-free agent 的渐近性能 (asymptotic performance...5×106 个 environment step 后,Dreamer 在各个任务中的平均性能达到了 823,而 PlaNet 仅为 332,最高的 model-free D4PG agent 在 108

47730
领券