经过近3.8亿次的捉迷藏游戏,人工智能自己学会了使用工具

OpenAI

OpenAI的算法进化出了复杂的行为,为开发更复杂的人工智能提供了一种有前景的方法。

在地球生命的早期,生物有机体非常简单。它们是微小的单细胞生物,几乎没有协调能力。然而,数十亿年的进化中通过竞争和自然选择最终发展成为了我们今天所拥有的复杂的生命形式,以及复杂的人类智能。

总部位于旧金山的盈利性人工智能研究实验室OpenAI的研究人员目前正在测试一个假设:如果你能在虚拟世界中模拟出这种竞争,它是否也会催生出更为复杂的人工智能?

该实验基于人工智能领域现有的两种理念:多智能体学习(multi-agentlearning)和强化学习(reinforcement learning)。前者多智能体学习是将多个算法置于竞争或协调中以激发智力行为;后者强化学习是机器学习中的一种具体技术,它通过反复试验来学习经验并实现目标。(DeepMind凭借其突破性的程序AlphaGo推广了后者,AlphaGo打败了中国古代棋类游戏围棋中最优秀的人类棋手)

经过大约2500万回合的捉迷藏,这些躲藏者学会了建造堡垒来赢得比赛

OpenAI在今天的一篇新论文中公布了它的初步结果。通过几亿次简单的捉迷藏游戏,两个相互竞争的AI智能体团队开发出了复杂的捉迷藏策略,其中涉及到工具的使用和协作。OpenAI主导的这项研究大幅扩展了现有的人工智能技术。

策略的六个阶段

为了创造这款游戏,研究人员设计了一个虚拟环境,包括一个封闭的空间,里面有各种各样的物体,比如积木、坡道、移动障碍物和固定障碍物。这些智能体本身由强化学习算法控制。在每一场比赛中,智能体被分成两组:躲避者会因躲避或未能躲避追捕者而得到奖励或惩罚;寻找者也会因为找到或没有找到隐藏者而受到奖励或惩罚。和经典的捉迷藏游戏一样,藏人也有几秒钟的领先时间。研究人员没有给这些智能体其他指示。

在几亿回合的博弈过程中,智能体们制定了多种策略和反策略。在第一阶段,隐藏者和寻找者通过在空间中移动而不操纵任何物体,发展出非常粗糙的躲避和追逐策略。

在第三阶段,搜寻者学会了用斜坡爬过堡垒的围墙

但是在2500万场比赛之后,比赛变得更加复杂。躲藏者学会了移动和锁住环境中的箱子和障碍物,在自己周围建造堡垒,这样寻找者就永远不会看到它们。不仅如此,他们还制定了协调策略,如互相传递物体,以加快堡垒的建设过程。

然而,又进行了7500万场比赛后,寻找者发现了一个反策略,从而将搜索过程推进到第三阶段。他们学会了移动隐藏者堡垒旁边的斜坡,并用它爬过墙。到第四阶段,也就是1.1亿回合之后,隐藏者们已经学会了在建造堡垒之前把坡道锁好。(两队都无法解锁对方锁定的物体)

起初,OpenAI的研究人员认为这是游戏玩法的最后阶段,但最终,在3.8亿次比赛的时候,又出现了两种策略。搜索者们再一次发展出一种策略,通过使用一个锁着的斜坡爬上一个锁着的盒子,然后“冲浪”到盒子顶部的堡垒和堡垒的墙壁上,从而进入隐藏者的堡垒。在最后阶段,隐藏者们再次学会了在建造堡垒之前把所有的坡道和箱子锁好。

最后,经过3.8亿轮的训练,搜寻者学会了“箱形冲浪”,爬过堡垒的围墙

智力

研究人员认为,这些初步结果表明,在进化更复杂的人工智能方面,这是一种有前景的新方法。论文的作者之一鲍文•贝克说:“我们没有告诉躲藏者或寻找者要跑到盒子附近,也没有告诉他们要和盒子互动,但通过多智能体竞争,他们为彼此创造了新的任务,使得另一个团队不得不适应。”

本研究对于OpenAI的人工智能研究方法来说是比较独特的。尽管该实验室也投资开发了相对于其他实验室的新技术,但它主要是通过大幅扩展现有技术而出名的。例如,该实验室广为人知的语言模型GPT-2,大量借鉴了早期语言模型的算法设计,包括谷歌的BERT;OpenAI的主要创新是将工程和海量计算资源的巧妙结合。

在某种程度上,这项研究重申了大规模测试现有技术极限的价值。该小组还计划继续执行这一战略。研究人员说,第一轮的实验并没有接近他们所能投入的计算资源的极限。

贝克说:“我们想让人们想象,如果你在一个复杂得多的环境中引发这种竞争,会发生什么。他们学到的行为可能最终能够解决一些我们可能还不知道如何解决的问题。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190918A06FOK00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券