首页
学习
活动
专区
工具
TVP
发布

用人工智能捉迷藏,结果出人意料,游戏思维如何使AI为人类服务

老外某个叫OpenAI的AI实验室发布了他们的最新项目:可以玩捉迷藏的AI。使用机器学习技术,产生多种让人无法预料的游戏结果,这是该公司最新的研究成果。

据悉,该游戏非常简单,只要“ hiders”在他们的视野内,“寻求者”就会获得积分。“躲藏者”一开始就有一点时间来建立一个藏身之处,并在成功藏匿自己之后获得积分。双方都可以在运动场周围移动对象(例如块,墙和坡道),从而获得藏匿优势。

就这么简单的设置结果却让人难以预料,令人印象深刻。在4.81亿次“捉迷藏”游戏中,人工智能似乎正在制定战略和对策,并且人工智能特工,从随机奔跑转向与盟友协调,制定个人的游戏战略,在几亿次的测试中,参与者还曾用非常规方式打破游戏物理学原理。

这是一个最新的案例,说明一种简单的AI技术(称为强化学习)可以完成多少工作,在该技术中,AI系统获得所需行为的“奖励”,并且可以轻松学习数百万种游戏,以获取最大回报。

强化学习非常简单,但是它产生的战略行为却并不简单。过去,研究人员在其他技术中利用强化学习来构建可以玩复杂的战时策略游戏的 AI系统,一些研究人员认为,仅通过强化学习就可以构建高度复杂的系统。这个简单的捉迷藏游戏很好地说明了强化学习如何在行动中起作用以及简单的指令如何产生令人震惊的智能行为。人工智能的能力无论好坏都在不断前进。

以下是该人工智能的一些视频片段:

如何追逐和隐藏

可能已经进行了数百万次“捉迷藏”游戏,但最终AI代理发现了游戏的基本原理:在地图上互相追逐。

如何建立防御性庇护所

AI代理可以将块“锁定”到位。只有锁定方块的团队才能解锁它。经过数百万次的练习后,AI代理学会了在可用的区块之外建造庇护所。您可以在这里看到他们这样做。在庇护所中,“寻求者”特工找不到他们,因此这对“隐藏者”是一种胜利-至少在有人提出新想法之前。

使用坡道突破掩体

几百万代后,寻求者已经找到了如何通过“躲藏者”来处理这种行为:他们可以拖过斜坡,爬上斜坡并找到藏身者。

一段时间之后,藏匿者学会了反击:他们可以将坡道冻结在适当的位置,以使搜寻者无法移动它们。OpenAI的团队注意到他们认为这将是游戏的结局,但是他们错了。

箱子冲浪突破避难所

最终,搜寻者学会了将箱子推到冰冻的坡道上,爬上箱子,然后将其“冲浪”到避难所,在那里他们可以再次找到藏身处。

防止冲浪

这里的藏身者有一个明显的对策:冻结周围的一切,使寻找者没有任何可使用的工具。确实,这就是他们学习如何做的事情。

这就是AI代理和数百万游戏经验之间的捉迷藏游戏。有趣的是,所显示的任何行为都不是直接受教的,甚至没有直接得到奖励的。代理商只有在赢得比赛时才能获得奖励。但是,这种简单的激励措施足以鼓励许多创造性的游戏行为。

许多AI研究人员认为,强化学习也可以用于解决具有现实意义的复杂任务。从简单的指令中产生强大的战略决策的方式是有希望的-但它也令人担忧。如前所述,通过强化学习解决问题会导致许多意想不到的行为- 令人捉迷藏,但可能会警告一种用于治疗癌症的药物(如果意外行为导致危及生命的并发症) ) 或旨在提高发电厂输出的算法(如果AI安排在其目标中利用某些晦涩的条件,而不是简单地提供一致的功率)。

这是强化学习等技术的危险方面。一方面,它们是强大的技术,可以从简单的起点产生高级行为。另一方面,它们是强大的技术,可以从简单的起点产生意外的(有时是不希望的)高级行为。

随着AI系统变得越来越强大,我们需要仔细考虑如何确保它们,人类的意愿行事。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190921A06GNM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券