论文控|谷歌DeepMind成员、牛津学者发表新论文——探讨AI系统的目标控制

GAIR

今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人工智能实验室负责人将莅临深圳,向我们零距离展示国外人工智能震撼人心、撬动地球的核心所在。在此之前雷锋网将网罗全国顶尖的人工智能和机器人专家,同这些国际大拿同台交流,如果你不想错过这个机会,请用邮件直戳我心,lizongren@leiphone.com

图片来源:inteligencia

编者按:机器智能研究院(MIRI)的研究宗旨是,确保比人类更加智能的机器系统会带来积极影响,研究领域包括:可靠的代理设计,如何设计可靠的AI系统执行人类交给它的任务;价值学习,如何设计学习系统,让系统能够学会人类的价值观;错误包容,如何设计配合人类操作员的系统,能够包容程序员不可避免的错误。

MIRI的研究人员来自全球顶尖大学及企业,《人工智能:现代方法》的联合作者Stuart Russel教授担任其研究顾问。今年8月,Russel教授和谷歌DeepMind CEO Demis Hassabis都将参加雷锋网在深圳举办的人工智能与机器人创新大会。

谷歌DeepMind研究科学家Laurent Orseau和牛津大学研究副教授、机器智能研究院(MIRI)Stuart Armstrong博士共同发表了一篇新论文,探讨包容错误的智能代理设计。论文《可安全干预的智能代理》将于本月底在纽约的第32届“人工智能中的不确定性”大会上呈现。论文摘要如下:

“强化学习中的智能代理在与复杂环境(例如真实世界)互动时,不可能永远都在最佳状态上。如果代理在人类的监督下进行实时操作,系统会时不时地需要人类来按下暂停键,防止代理持续进行一系列有害的行为——对代理或对环境有害的行为——并由人类来将代理带往安全的环境。然而,如果学习中的代理期望从原本要执行的行为中获得奖励,长此以往,它可能会学会避免此类的人类干预,例如,代理会让暂停键失效——这是我们不想要的结果。

这篇论文探索了一种方法,可以确保代理不会学会如何避免(或寻求)环境或者人类操作员对其进行干预。我们提供了安全干预的定义,探索了无监管下的学习特性,并证明有些代理已经可以安全地进行干预,例如Q-learning,或者可以简单转变为可安全干预的代理,例如Sarsa。我们的结论是,即便是理想的、不可计算的强化学习代理,在总体可计算的(决定论的)环境中,也可以转变为可安全干预的代理。”

Orseau和Armstrong的论文为解决矫正问题带来了一个新的视角。可矫正的代理指的是,能够识别到自身有缺陷、或者正在开发中的代理,并能帮助其操作员进行维护、改善或者自我替换,而不是抗拒这些操作。

在强人工智能系统中,矫正主要是为了在系统终极目标不正确的时候,避免不安全的收敛工具性政策(例如,保护其当前的目标系统未来不受修改影响的政策)。这让我们能够实施基于试错和学习的恰当方法,来解决AI价值规范的问题。

干预是为了让直觉性的矫正概念形式化。例如,“无关用途”是过往对另一种矫正的定义:系统不介意程序员修改其终极目标,因此能避免强迫程序员进行修改、或避免修改。而“可安全干预的代理”则试图定义另一种系统,不介意程序员修改其政策,不会阻止程序员干预它们的日常行为(也不会强迫程序员去干预)。

这样做的目标是,让代理认为没有未来干预时选择最优的政策。即便代理过去经历过干预,也会好像未来不会有任何干预一样行动。Orseau和Armstrong在论文中让我们看到,若干类型的代理是可以安全干预的,或者可以简单转变为可安全干预的代理。

点击“阅读原文”下载Orseau和Armstrong的论文全文。

VIA MIRI

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-06-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

从《西部世界》谈起,仿生机器人十二问 | CCF-GAIR 2018

普渡大学副教授邓新燕结合自己的实际工作,分享了她在生物运动机理和仿生机器人的研究突破和最新进展。

672
来自专栏FreeBuf

Facebook反垃圾实践:人工治理与机器算法齐飞

2016年末,Facebook上的假新闻帮助特朗普胜选的消息,将这家社交网站推到一个尴尬的境地,迫使它上线一个“争议(Disputed)标签”功能,用来标记被认...

2349
来自专栏美团技术团队

美团点评运营数据产品化实战

背景 美团点评作为全球最大的生活服务平台,承接超过千万的POI,服务于数量庞大的活跃用户。在海量数据的前提下,定位运营业务、准确找到需要数据的位置,并快速提供正...

39810
来自专栏数据派THU

【数据蒋堂】1T数据到底有多大?

转载来源:数据蒋堂 作者:蒋步星 本文共1495字,建议阅读3分钟。 本文蒋步星老师从时间与空间上讲解了1T数据到底有多大。 一英里不是个很长的距离,一立方英里...

1968
来自专栏数据猿

聚道科技创始人兼CEO李厦戎:为生命计算,基因数据独特的魅力在于造福个体

数据猿导读 每个人如果在刚出生时采集的基因数据,会在整个生命中都产生价值,甚至还能帮助到后代分析家族遗传特征,对于遗传疾病的诊断和治疗会有很大的帮助。个体数据聚...

2554

推荐引擎如何工作?

对每个人而言,购物是必不可少的一件事。而当我们购物时,我们通常会购买我们所信任的人推荐的商品。如今是数字时代,人们网上购物时常会使用购物推荐引擎。

28711
来自专栏PPV课数据科学社区

独家解析:一个资深架构师为何面试失败?

最近参加了一次面试,应聘架构师的职位,不是很爽,倒不是因为问题本身,而是面试官的态度。面试基本的礼仪,握个手,自我介绍一下,是最基本的吧。感觉对方很傲慢,其实从...

2903
来自专栏鹅厂网事

浅谈端到端质量检测和故障诊断

“鹅厂网事”由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网...

1906
来自专栏ATYUN订阅号

【业界】创建深度学习数据平台时,你需要考虑的五个因素

AiTechYun 编辑:nanan 随着AI应用程序和深度学习算法的成熟,许多组织正在制定计划,以弄清楚它们将如何从数据中提取差异化竞争优势。 ? 事实上,在...

3136
来自专栏一名叫大蕉的程序员

赵淦森博士的讲座分享整理No.32

我是小蕉。 先稍微介绍一下赵老师哈。 赵淦(gan)森,计算机安全博士,毕业于英国肯特大学。在英国期间曾任英国Nexor公司的兼职高级安全技术顾问、甲骨文英国(...

1736

扫描关注云+社区