动态 | 你做我评:OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习

AI 科技评论消息,近日OpenAI和DeepMind各自在网站上发文,介绍一篇他们合作研究、撰写的论文《Deep reinforcement learning from human preferences》(根据人类偏好进行的深度增强学习)。在这篇论文里,他们展示了一种根据人类反馈进行强化学习的新方法,不仅学习过程相对高效,而且OpenAI和DeepMind的研究人员们共同认为这种方法长远来看能够提高智能系统的安全性。

下面 AI 科技评论就带大家一起具体看一下OpenAI对这种方法的介绍和演示。

要建立一个安全的AI系统,其中很重要的一步是不再让人类给AI系统写目标函数。这是因为如果用了简单的策略来达到复杂的目标,又或者对复杂目标的理解出现了偏差,都可能导致AI系统做出人们不希望看到的行为,有时候甚至会引发危险。OpenAI跟DeepMind的安全团队一起协作开发了一种算法,只需要人类逐步告诉它两种它推荐的动作中哪一种更好,它就可以由此推测人类的需求进行学习。

方法介绍

这篇论文中介绍了一种算法,它可以用相对少量的人类反馈解决现代的强化学习问题。学者们以前就研究过如何使用人类反馈来建立机器学习系统,但这次两个团队合作做了高级别的解决方案,这样它也可以用来完成复杂得多的任务。他们的算法用来自人类评价员的900次二选一反馈学会了后空翻 —— 一个看起来简单、很容易评价,但是很难精确描述的任务。

训练过程总体是一个人类、智能体对目标的理解、增强学习训练之间的三步反馈循环。

根据OpenAI跟DeepMind联合开发的算法,这个智能体一开始先在环境中随机运动。然后周期性地把两段它的动作视频给人类看,人类要分辨两个视频的两种动作里的哪一种更接近它的目标——在这个例子中就是后空翻——然后通过选择给出反馈,人工智能就会根据反馈寻找能最好地描述人类判断的奖励函数,这样逐渐给任务目标建立模型。然后它就会通过强化学习来学习达到它自己建立的目标。随着智能体的动作有了进步,它会继续拿出自己觉得最不确定的一对轨迹来让人类反馈哪一个更好,然后让自己对任务目标的理解进一步完善。

他们的方案展现出了喜人的学习效率,像前文所说,只需要不到1000次二选一的人类反馈就可以学会后空翻。人类评价员所花的时间只有不到一个小时,而在后台,这个策略已经同步积累了70小时的总体经验(后台仿真时的速度比真实速度快得多)。接下来他们会继续研究如何减少人类所需提供的反馈数量。下面的动图里演示的就是他们的训练过程(加速版)。

游戏环境中的训练结果

他们也用模拟机器人和Atari游戏中的几个任务测试了他们的方法(而且没有让程序用到环境本身的反馈函数,具体在Atari中就是不考虑游戏得分)。在多个测试环境里,智能体能通过人类的反馈学到优秀的表现,有时候甚至比人类表现还好。下面几张图就是用他们的方法训练的智能体玩各种Atari游戏的画面。每个画面最右侧竖向运动的小条是一个指示器,它显示的是智能体预测人类评价者对它当前动作的认可度有多高。这些动图就体现了这些智能体根据人类的反馈学到的东西:在Seaquest中知道去水面上补足氧气(左图),在打砖块和弹球中学到如何得高分(中间两图),或者在Enduro中学到撞车以后怎么恢复(右图)。

Seaquest

打砖块

弹球

Enduro

值得注意的是,人类提供的反馈可以不用跟环境正常的奖励函数一致。比如他们就在Enduro中训练了一个精确跟其它车辆保持齐平的智能体,它并不会像“正常”那样不断超过其它车辆获得最高分数。他们还发现,有时候从人类反馈中学习的智能体,比从正常的环境反馈里进行增强学习的智能体表现还要好,因为人类对奖励的表述要比环境本来的奖励更好。

待解决的问题

人类评价员要凭直觉判断哪些动作看起来正确,那么算法的表现也就受限于此,如果人类对任务没有什么深入的理解,那他们提供的反馈能起到的帮助也就很有限。有个相关的情况就是,在有一些领域这个系统最后会训练出一个学会了欺骗评价员的智能体。举个例子,一个机器人本来应该把物体拿起来,但它把机械手放到了目标物体和观察者中间,这样的机械手就只是看起来仿佛在抓它一样,下面这张图就是这样。

对这个问题,他们想了一个改进措施是加一些视觉标识(图中的白色实线),这样人类评价员就更容易判断深度了。不过更通用的办法还需要做更多研究。

OpenAI和DeepMind两个组织打算在对AI安全性有长期影响的方面继续进行合作。在他们看来,这样的方法是开发出人类为中心进行学习的安全AI的又一项进步,而且可以对现有强化学习、模仿学习这样的方法进行补充和拓展。

via OpenAI Blog,AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-06-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 定量研究:当前机器学习领域十大研究主题

选自arXiv 作者:Patrick Glauner等 机器之心编译 参与:韩小西、李泽南 机器学习的发展日新月异,目前最热门的研究方向是什么?近日,来自卢森堡...

2393
来自专栏大数据挖掘DT机器学习

微博推荐算法如何设计

在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法。有这样一些问题:推荐系统适用哪些场景?用来解决什么问题、具有怎样的价值?效果如何衡量? 推荐系统诞生很早...

38112
来自专栏CDA数据分析师

神经网络的优点和缺点

在本文中我们将探讨如今深度学习如此受欢迎的原因。在读完本文后,你将了解神经网络的主要优缺点,并且当你为解决机器学习问题选择合适类型的算法时,你将做到心中有数。你...

1663
来自专栏应兆康的专栏

开发集和测试集应该多大?

1051
来自专栏PPV课数据科学社区

AI时代就业指南:如何成为一名优秀的算法工程师?

1、算法工程师是做什么的? 广义上是指搞软件算法的,也就是开发和应用软件算法实现工业控制和程序处理。除了机器学习之外 还包括控制算法、图形算法等,狭义上现在谈算...

4148
来自专栏大数据挖掘DT机器学习

程序员初学机器学习的四种方式

本文由 伯乐在线 - XiaoxiaoLi 翻译自 Jason Brownlee 网址 http://machinelearningmastery.com/...

4257
来自专栏Albert陈凯

普通程序员如何转向AI方向

原文地址:http://www.cnblogs.com/subconscious/p/6240151.html 眼下,人工智能已经成为越来越火的一个方向。普通程...

3825

如何研究机器学习算法

您需要了解哪些算法在那里,以及如何有效地使用它们。

2786
来自专栏新智元

Geoff Hinton 专访:Waston 系统和深度学习有什么区别?

关键词还没输入完毕,Google已经返回了你想要的搜索结果;Facebook能将你上传的照片自动打上标签;无人驾驶汽车都已经开上路了。这些所有令人觉得不可思议的...

3566
来自专栏全栈数据化营销

100个必备的营销、数据分析模型和工具,让思维更加清晰

1544

扫码关注云+社区