前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >世界模型仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走,无需重置。10 分钟内适应扰动或快速翻身站立

世界模型仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走,无需重置。10 分钟内适应扰动或快速翻身站立

作者头像
CreateAMind
发布2023-09-01 08:19:39
2480
发布2023-09-01 08:19:39
举报
文章被收录于专栏:CreateAMind

DayDreamer: World Models for Physical Robot Learning

https://danijar.com/project/daydreamer/

抽象

为了解决复杂环境中的任务,机器人需要从经验中学习。深度强化学习是机器人学习的常用方法,但需要大量的反复试验才能学习,限制了其在物理世界中的部署。因此,机器人学习的许多进步都依赖于模拟器。另一方面,在模拟器内部学习无法捕捉到现实世界的复杂性,容易出现模拟器不准确的情况,由此产生的行为也无法适应世界的变化。Dreamer 算法最近显示出通过在学习的世界模型中进行规划从少量交互中学习的巨大潜力,在视频游戏中表现优于纯强化学习。学习一个世界模型来预测潜在行动的结果可以在想象中进行规划,减少真实环境中所需的试错次数。然而,Dreamer 是否可以促进物理机器人的更快学习尚不得而知。在本文中,我们将 Dreamer 应用到 4 个机器人上,在没有任何模拟器的情况下直接在现实世界中在线学习。Dreamer 仅用 1 小时训练一个四足机器人从头开始翻滚、站立和行走,无需重置。然后我们推动机器人,发现 Dreamer 在 10 分钟内适应以承受扰动或快速翻身并重新站起来。在两个不同的机械臂上,Dreamer 学习直接从相机图像和稀疏奖励中挑选和放置多个物体,接近人类的表现。在轮式机器人上,Dreamer 学习完全根据相机图像导航到目标位置,自动解决机器人方向的歧义。在所有实验中使用相同的超参数,我们发现 Dreamer 能够在现实世界中进行在线学习,这建立了强大的基线。我们发布了我们的基础设施,以便未来将世界模型应用于机器人学习。

相关推荐:

code:通过进化、可塑性和 元 元学习 获得认知能力(4个时间维度的学习迭代)

代码:Learning to Learn and Forget (华为)

神经科学的深度学习框

代码:一个epoch打天下:深度Hebbian BP (华为实验室) 抗攻击

嵌套自我:产前发育中的自组织和共享马尔可夫毯

在突触学习和计算目标之间建立精确关系的框架

大脑中复杂适应动力学的神经调节控制

DeepMind Dreamer 系列为什么效果这么好

脑启发的ANN学习机制综述

DeepMind-代码:元学习认知模型 Meta-Learned Models of Cognition

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档