前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >开源世界模型dreamerv3 大杀器收集钻石不用GPT外挂

开源世界模型dreamerv3 大杀器收集钻石不用GPT外挂

作者头像
CreateAMind
发布2023-09-01 08:17:34
4440
发布2023-09-01 08:17:34
举报
文章被收录于专栏:CreateAMind

https://github.com/danijar/dreamerv3

第一个在没有人类数据或课程的情况下从头开始在 Minecraft 中收集钻石的算法

Mastering Diverse Domains through World Models

A reimplementation of DreamerV3, a scalable and general reinforcement learning algorithm that masters a wide range of applications with fixed hyperparameters.

DreamerV3 learns a world model from experiences and uses it to train an actor critic policy from imagined trajectories. The world model encodes sensory inputs into categorical representations and predicts future representations and rewards given actions.

DreamerV3 masters a wide range of domains with a fixed set of hyperparameters, outperforming specialized methods. Removing the need for tuning reduces the amount of expert knowledge and computational resources needed to apply reinforcement learning.

Due to its robustness, DreamerV3 shows favorable scaling properties. Notably, using larger models consistently increases not only its final performance but also its data-efficiency. Increasing the number of gradient steps further increases data efficiency.

论文摘要:

通用智能需要解决多个领域的任务。当前的强化学习算法具有这种潜力,但受到为新任务调整它们所需的资源和知识的阻碍。我们展示了 DreamerV3,这是一种基于世界模型的通用且可扩展的算法,它在具有固定超参数的广泛领域中优于以前的方法。这些领域包括连续和离散动作、视觉和低维输入、2D 和 3D 世界、不同的数据预算、奖励频率和奖励等级。我们观察到 DreamerV3 有利的扩展特性,更大的模型直接转化为更高的数据效率和最终性能。DreamerV3 开箱即用,是第一个在没有人类数据或课程的情况下从头开始在 Minecraft 中收集钻石的算法,人工智能领域的长期挑战。我们的通用算法使强化学习得到广泛应用,并允许扩展到困难的决策问题。

论文的四个主要贡献总结如下:

我们介绍了DreamerV3,这是一种通用算法,可以在使用 固定的超参数,使强化学习易于应用。

我们展示了DreamerV3良好的扩展特性,其中增加模型尺寸会导致 到最终性能和数据效率的单调改进。

我们进行了广泛的评估,显示DreamerV3优于更专业的 跨领域的算法,并发布所有方法的训练曲线以方便比较。

我们发现DreamerV3是第一个从零开始在《我的世界》收集钻石的算法 在没有人类数据或课程的情况下,解决人工智能领域的一个长期挑战。

阅读原文访问项目网站

相关推荐:

code:通过进化、可塑性和 元 元学习 获得认知能力(4个时间维度的学习迭代)

脑记忆产生和巩固建模研究总结(3假设3发现3创新符合13篇脑科学实验和假设)

代码:Learning to Learn and Forget (华为)

统一自监督学习框架 (华为)

神经科学的深度学习框

Self-building Neural Networks 代码

代码:一个epoch打天下:深度Hebbian BP (华为实验室) 抗攻击

嵌套自我:产前发育中的自组织和共享马尔可夫毯

在突触学习和计算目标之间建立精确关系的框架

人、鼠神经细胞差异对比 及神经元计算建模

大脑中复杂适应动力学的神经调节控制

改进GPT的底层技术

DhPC 一个脉冲脑皮质计算理论

生物躯体稳态控制的第一原理

下一代神经网络深度学习 技术亮点梳理-换道chatGPT

脑网络结构高清大图

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CreateAMind 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Mastering Diverse Domains through World Models
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档