业界 | 谷歌“邪恶”实验:囚徒困境下的 AI,会选择背叛还是合作?

近些年来,人工智能正在一步步走入我们的生活,因此我们必须了解这些聪明的“大脑”在面对两难境地时会如何选择。为此,谷歌的 DeepMind 团队专门进行了针对性的实验。实验中的两款游戏,都是在博弈论中囚徒困境的理论基础上开发的。

所谓的囚徒困境是两个被捕的囚徒之间的一种特殊博弈,两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱五年;若互相揭发,则因证据确实,二者都判刑两年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。这一经典理论说明了为什么在合作对双方都有利时,保持合作也是困难的。

游戏 1:红蓝色两个 AI 收集绿色苹果

“在现实生活中,无论是合作还是相互攻讦都需要复杂的行为特性,因此 AI 需要掌握执行一系列动作的先后顺序。”DeepMind 团队在博客中写道。“我们将这一全新设定看作连续的社会困境,并利用深层强化学习训练过的AI对其进行研究。”

在实验中,研究人员发现 AI 会逐渐展示自己理性的一面,在必要时它们会选择合作。

在第一个名为“Gathering”的游戏中,参与实验的 AI 们会在同一区域执行收集苹果的任务,它们可以尾随在对手身后用炮弹攻击它们,被击中的玩家会短暂出局。不过,这里有个前提条件,即收集苹果可以得分,但攻击它人则不会。

AI 被扔在这个游戏中数千次,直到它们通过深度强化学习学会理性。研究结果表明,这些家伙有时也会被利益冲昏头脑。

举例来说,当某区域有很多苹果时,AI 们会齐心协力收集苹果来得高分。一旦苹果数量下降,它们就会做出抉择,开始互相攻击以保护自己的胜利果实。

游戏 2:需要两个 AI 紧密配合

第二款游戏名为 Wolfpack,该游戏更需要 AI 们的亲密合作。AI 们需要在混乱的瓦砾堆中寻找猎物。如果你能抓到自己的猎物就能得分,此外猎物被抓到时如果你离猎物很近,也能得分。

在这款游戏中,研究人员发现,随着应对复杂战略能力的提升,AI 们更倾向于相互合作。

通过以上实验也让我们得出一个结论,那就是 AI 会根据自己所处的环境进行抉择,虽然有时它们会为了自己的利益相互攻讦,但大多数时候它们还是倾向于相互合作。

DeepMind 的研究团队表示:“这样的模型让我们能在模拟系统中测试策略和干预措施。”如果一切顺利,未来人类对复杂的多因素系统如经济、交通系统或生态健康都能有一个深刻的把握,因为它们都需要持续的合作。

Via. Dailymail

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-02-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏leland的专栏

游戏与人工智能

在人工智能的发展上的道路上,游戏到底扮演着一个怎样的角色?也许接下来五分钟的阅读(多图预警),会让你得到一个较为清晰的答案。

39224
来自专栏大数据文摘

【译】Science:当大数据遇上公共卫生

1644
来自专栏大数据文摘

回顾:十大重要的脑科学研究

1476
来自专栏机器之心

现场直击 | 谷歌云大会最后一天解读开放性:从TensorFlow开源到开放云平台

机器之心报道 记者:CZ 当地时间 3 月 10 日,Google Cloud Next '17 在美国旧金山顺利闭幕。机器之心作为受邀媒体对这场为期 3 天...

3117
来自专栏罗超频道

【软文慎入】李彦宏“赏花”,看视觉搜索未来!

在百度第五届Hackathon(百度内部编程马拉松)上,李彦宏一如既往地参与点评。据百度内部同学爆料,这次李彦宏尤其被一个美女博士领衔的学生团队“赏花宝典”应用...

3536
来自专栏三杯水

跃迁:成为高手的技术

732
来自专栏PPV课数据科学社区

【涨姿势】绝不装逼的大数据科普(一)

那就从去年9月说起,花正好, 月正圆的时候,桑尼在西班牙巴塞罗那听过一个大数据的课程(是的,您没看错,我跑去建筑鬼才高迪的城学习大数据。。。) 那个西班牙叫兽...

3185
来自专栏专知

我是如何失败的 —— Ian Goodfellow 访谈(PhD’14, Computer Science)

1765
来自专栏机器之心

MIT研发出脑控机器人:可使用脑波为机器人纠错

选自news.mit.edu 作者:Adam Conner-Simons 机器之心编译 参与:微胖、晏奇、吴攀 MIT 研发出的反馈系统能够让人类操作者仅通过...

3416
来自专栏灯塔大数据

谷歌 Ngrams :大数据如何创造错觉?

大数据如果我说美国人现在开始越来越以自我为中心了,你也许会想这个老家伙肯定又要嘟囔些「过去才是好日子」之类的。但是,如果我说我有着对1500亿个文本词语的分...

29610

扫码关注云+社区