超越OpenAI，我们是认真的：几千步就能学习游戏玩法，参数是现有模型1%的新AGI

CreateAMind

发布于 2024-02-26 17:14:31

1750

发布于 2024-02-26 17:14:31

文章被收录于专栏：CreateAMindCreateAMind

VERSES 通过基准测试挑战人工智能行业：

2024 年 2 月 22 日

不列颠哥伦比亚省温哥华 / 2024 年 2 月 22 日 / VERSES AI Inc. (CBOE:VERS) (OTCQB:VRSSF)（“VERSES”或“公司”）是一家开发下一代智能软件系统的认知计算公司，今天提供了研究路线图概述了衡量公司研发工作的进展和重要性的关键里程碑和基准，与传统的深度学习相比，以造福工业界、学术界和公众。

“我们制定了一个路线图，可以在https://www.verses.ai/rd-overview上访问，我们希望在今年用它来证明 VERSES 的人工智能方法能够匹配或超越VERSES 创始人兼首席执行官 Gabriel René 表示：“先进的人工智能模型在多个行业标准基准上的表现，同时使用的数据和能源大幅减少。” 鉴于 OpenAI 首席执行官 Sam Altman 最近表示人工智能的未来取决于能源突破 1 以及筹集 7 万亿美元重塑全球半导体行业的计划。2 René 先生进一步表示：“满足这些基准的意义在于提供科学证据，证明 VERSES 的方法可以产生更好、更便宜和更快的人工智能， “适用于更广泛的市场机会，并在我们的 Genius 平台中商业化。我们已经发布了我们的研究路线图，以便行业和公众都可以跟踪我们的进展。”

第一个基准：分类和生成任务

VERSES 旨在通过第一个基准测试来展示 MNIST 和 CIFAR 等图像分类和生成任务的计算和样本效率；特别是，展示了 VERSES 方法的计算效率优于其他现代贝叶斯推理工具箱（例如 NumPyro）。我们还打算展示这种方法如何与基于 PyTorch 等工具的传统深度学习方法的计算效率相竞争，但由于采用完全贝叶斯方法而提高了样本效率。公司计划于 2024 年第一季度至第二季度末在开放获取出版物中发布这些结果，展示我们的分类和生成任务方法的高效计算和改进的样本效率。

第二个基准测试：Atari 10k Challenge

通过第二个基准测试，Atari 10K Challenge，旨在证明 VERSES 的方法比其他替代方案具有更高的样本和计算效率。最初的 Atari 基准挑战于 2015 年推出，涉及生产一个可以在 26 种经典 Atari 游戏中达到或超过人类水平表现的人工智能系统。人工智能模型必须直接从像素数据中学习，仅使用分数作为奖励信号。为此设计的初始架构是数据密集型的，使用了多年的游戏玩法——通常比人类玩家可能访问的数据还要多。为了解决这个问题，引入了 Atari 100k 基准，它将学习中使用的游戏数量限制为 100,000 个环境步骤。Atari 100k 是展示主动推理方法的功耗和样本效率特性的良好基准。公司预计将展示效率提升的两个来源。第一个来自于对游戏世界模型的快速在线学习。第二个来自高效的策略估计，它不需要传统基于梯度的方法（例如 Q 学习）所使用的定期重置。

尽管 Atari 100k（2 小时游戏）是业界领先的基准，并且 VERSES 计划在 100k 基准上展示竞技性游戏，但公司打算进一步展示基于主动推理的 AI 的独特优势，即快速学习和通过提出 Atari 10k 基准挑战（大约 12 分钟的游戏时间），仅使用原始像素数据和分数作为输入，提高了样本效率。我们面临的挑战是在相同数量的游戏中达到人类水平（或更高）的表现。人类可以很快地达到胜任的水平，但是先进的架构如何表现呢？VERSES 旨在证明我们的系统可以在 10k 基准上超越复杂的深度学习——学习如何用很少的数据高效地玩游戏。我们目前的初步结果表明，我们的智能体只需几千步就能学习游戏玩法的动态并在简单游戏中得分，证明使用参数大小比领先竞争对手小 99% 的模型可以更有效地学习，并且能够在没有大型 GPU 基础设施的笔记本电脑上进行训练。

公司计划于 2024 年第三季度以及在开放获取出版物中分享最终结果。

第三个基准测试：NeurIPS 2024 Melting Pot Challenge

前两个基准迎合了深度学习方法的优势，即它们通常涉及完全观察（没有歧义）的无噪声任务，并且涉及明确定义的奖励函数。

这些基准测试并没有展示主动推理的力量。对于第三个基准，VERSES 打算使用新的多智能体 NeurIPS Melting Pot Challenge 基准，因为最终目标是开发更自然的基准，展示主动推理智能体处理不确定环境的能力。具体来说，构建直接在具有明确表示结构的信念空间中工作的主动推理代理的主要优点之一是可以在代理之间共享信念。

该公司相信，这一基准测试将展示主动推理为设计多智能体系统带来的好处，并符合 VERSES AI 研究的中心目标：创建 AI 系统生态系统。

VERSES 计划在 2024 年第 4 季度至 2025 年第 1 季度左右分享这些结果，展示主动推理代理为智能多代理系统奠定基础的独特能力，此外还在开放获取出版物中分享。

VERSES之前也有介绍：