【AI比人更擅长妥协】Nature子刊全新机器学习算法探讨人机合作

编辑:闻菲、张乾

【新智元导读】BYU计算机科学教授Jacob Crandall和Michael Goodrich以及麻省理工学院和其他大学的同事创造了一种新算法,这个算法可以和人、其他算法一起,在各种双人重复的随机博弈中,达到人类合作的水平。

电脑可以轻松在国际象棋中取胜,并能够很快在其他零和游戏中成为人们的对手。因为教它们竞争很容易,但教它们合作和妥协就不一定了。

BYU计算机科学教授Jacob Crandall和Michael Goodrich以及麻省理工学院和其他大学的同事创造了一种新算法,让机器的妥协和合作不仅变成可能,而且有时甚至比人类更有效。

研究人员使用S#算法对机器进行编程,并通过各种双人游戏运行它们,以了解它们在某些关系中的合作程度。该团队测试了机器之间、人机之间和人与人之间的相互作用。在大多数情况下,使用S#编程的机器在寻找让双方都受益的妥协方面胜过了人类。

Crandall说:“最终的目标是我们了解与人合作背后的数学,人工智能需要用什么来培养社交技能。”他的研究是关注人工智能需要能够对我们做出回应并阐明它在做什么,它必须能够与其他人进行互动。

这项研究最近发表在Nature Communications上,以下是对研究的要点介绍。

研究概述:开发能够与人合作的机器学习算法

自从图灵提出人工智能开始,技术进步往往是通过在零和博弈(例如,象棋、扑克或围棋)中,机器击败人类的能力来衡量。较少有人关注人机合作这一有利且重要的情景,例如人类与机器的利益偏好既不完全一致,但也不完全冲突的情景。要进行合作,需要的不是纯粹的计算力,而是由直觉、文化习俗、情绪、信号等等。

在这里,我们开发了一种将最先进的强化学习算法与信号传输机制相结合的算法。我们证明,这个算法可以和人、其他算法一起,在各种双人重复的随机博弈中,达到人类合作的水平。这些结果表明,通过使用一种重要但十分简单的算法机制,一般的人机合作是可以实现的。

算法与人合作的三大难点:通用性、灵活性和短时间内学习

开发出能够与人和其他机器长期合作的算法十分重要,但是难度也很高。一个成功的算法需要具备以下几个属性。

首先,不能仅针对特定领域,这种算法必须在各种情况下具有优越的性能(通用性)。

其次,这种算法必须学会在事先不了解人的行为的情况下,学会与人和机器建立有效的关系(灵活性)。而要做到这一点,它必须能够阻止其合作伙伴出现的潜在剥削行为,并在有利的时候决定如何从可能不愿合作的(可能不信任的)合作伙伴那里寻求合作。

第三,当与人交互时,算法必须在非常短的时间内学习有效的行为,你可以考虑自动驾驶的场景。这也带来了许多技术上的挑战,包括需要处理合作伙伴也在学习的情况,以及快速在重复游戏固有的大型战略空间中,对可能无限个均衡解决方案进行推理。

这些挑战加起来,往往导致人工智能算法不能与人或其他机器合作,尽管我们都知道合作会对算法的长期收益有利。

由于人在合作时通常靠的是“谈话”,研究人员便考虑也从这个角度入手,让机器能够在玩游戏的时候与人沟通。

他们事先确定好了一套语句(speech act),让机器在游戏的不同阶段,从这个数据库中选题合适的语句发送给人类对手,与对手建立关系,从而影响对手的行为。

他们的机器学习算法S++,内部有一个算法动态策略的高级表示,而其动态策略能用底层专家的动态来描述。由于每个专家都能编码一个高层概念,S++就能产生描述其意向性的信号(也即游戏中的闲聊)。S++还将把合作伙伴的言语行为与其内部的专家的概念相比较,从而改善对专家的选择机制。 通过这种方式,研究人员就增强了S++的通信框架,让系统能够在游戏过程中生成闲聊,并且回应对手的闲聊。

新生成的算法S#架构示意图见下:

为了确定S#与人建立合作关系的能力,研究人员进行了一系列用户研究,调查了220个参与者,共计进行了472次重复游戏。

结果发现,S#确实能够与人合作。

该总结给出了每个算法相对于我们考虑的每个游戏长度的六个性能度量中的每一个的相对等级。 较低的等级表示较高的性能。 对于每个度量标准,算法分别排在100轮,1000轮和50000轮比赛中。 例如,三元组3,2,1表示算法分别在100,1000和50,000轮游戏中分别排名第三,第二和第一。

研究意义

这项工作主要有三方面的贡献。首先,对现有的重复游戏算法进行了深入的比较。其次,开发并分析了一种学习算法,该算法将最先进的机器学习算法与特定的机制相结合,这些机制能够让算法在特定阶段产生响应,而这些响应能够被人类解读,有助于促使人类产生合作意愿。

最后,通过大量的模拟和用户调查,研究人员发现,这种学习算法学习能够与人类和其他机器在各种RSG中建立和维持有效的关系,这些关系与人类合作的水平相当,这是现有算法所不能达到的。

论文地址:

https://www.nature.com/articles/s41467-017-02597-8

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-01-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

人工智能与机器学习:两者有何不同?

在过去几年,人工智能和机器学习频繁出现在技术新闻和各种网站上。两者常常被用作同义词,但许多专家认为它们存在微妙且重大的区别。 当然,专家们自己有时对于那些区别到...

2297
来自专栏hadoop学习笔记

机器学习的趋势和人工智能的未来

每家公司现在是一个数据公司,在一定范围能够使用机器学习在云中部署智能应用程序,这归功于三个机器学习的趋势:数据飞轮,算法经济,和智能云托管。

911
来自专栏腾讯大讲堂的专栏

人工智能连接内容创作与消费

引言:6.14日“腾讯创新日:科技年技术盛宴”代表腾讯各个事业群技术实力的四级专家、腾讯微创新2016年度创意获奖团队欢聚一堂,一起畅谈AI、系统安全、架构设计...

3957
来自专栏机器学习算法与Python学习

视频 | Yann LeCun:人工智能下一站——无监督学习

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 ?

3076
来自专栏PPV课数据科学社区

技术 | R vs Python:R是现在最好的数据科学语言吗?

导读 Sharp Sight Labs 近日在 r-bloggers 上发表了一篇文章,论述了为什么当今的数据科学工作者应该学习 R 语言的原因。为了给大家提供...

4025
来自专栏新智元

微软前副总裁:机器学习和人工智能5大关键 | 黑箱不黑

【新智元导读】微软前副总裁S. Somasegar从智能应用开发的角度,总结了2016机器学习和人工智能的5大发展趋势:算法和数据结合的微智能,将能灵活地在应用...

3369
来自专栏ATYUN订阅号

语音识别技术里程碑:微软识别错误率降至5.1%

8月21日,微软宣布该公司的语音识别系统的错误率已经降至5.1%,这是目前为止错误率最低的,已经超过了去年由微软AI研究团队所创造的5.9%的成绩。 这两项研究...

3836
来自专栏CDA数据分析师

如何系统的学习 R 语言数据挖掘

“虽然是本科毕业,但是在看数据挖掘方面的算法理论时经常感觉一些公式的推导过程如天书一般,例如看 svm 的数学证明,EM算法,凸优化… 感觉知识跳跃比较大, 是...

2106
来自专栏灯塔大数据

TA是什么“鬼”?一个优秀数据科学家的主要构成特点

? 根据三位作者的咨询和研究经验,以及与许多大数据和分析主题的公司合作,了解一个良好的数据科学家具有哪些主要特征。 大数据分析已经满天都是,IBM项目,每天...

2959
来自专栏数据科学与人工智能

机器学习如何改变数字化企业的未来

根据《IDC Futurescapes》报告的预测,三分之二的全球2000强企业CEO将把数字化转型作为公司战略的重心。而战略的其中一个重要组成部分应该会包含机...

2725

扫码关注云+社区

领取腾讯云代金券