动态 | 你做我评:OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习

AI 科技评论消息,近日OpenAI和DeepMind各自在网站上发文,介绍一篇他们合作研究、撰写的论文《Deep reinforcement learning from human preferences》(根据人类偏好进行的深度增强学习)。在这篇论文里,他们展示了一种根据人类反馈进行强化学习的新方法,不仅学习过程相对高效,而且OpenAI和DeepMind的研究人员们共同认为这种方法长远来看能够提高智能系统的安全性。

下面 AI 科技评论就带大家一起具体看一下OpenAI对这种方法的介绍和演示。

要建立一个安全的AI系统,其中很重要的一步是不再让人类给AI系统写目标函数。这是因为如果用了简单的策略来达到复杂的目标,又或者对复杂目标的理解出现了偏差,都可能导致AI系统做出人们不希望看到的行为,有时候甚至会引发危险。OpenAI跟DeepMind的安全团队一起协作开发了一种算法,只需要人类逐步告诉它两种它推荐的动作中哪一种更好,它就可以由此推测人类的需求进行学习。

方法介绍

这篇论文中介绍了一种算法,它可以用相对少量的人类反馈解决现代的强化学习问题。学者们以前就研究过如何使用人类反馈来建立机器学习系统,但这次两个团队合作做了高级别的解决方案,这样它也可以用来完成复杂得多的任务。他们的算法用来自人类评价员的900次二选一反馈学会了后空翻 —— 一个看起来简单、很容易评价,但是很难精确描述的任务。

训练过程总体是一个人类、智能体对目标的理解、增强学习训练之间的三步反馈循环。

根据OpenAI跟DeepMind联合开发的算法,这个智能体一开始先在环境中随机运动。然后周期性地把两段它的动作视频给人类看,人类要分辨两个视频的两种动作里的哪一种更接近它的目标——在这个例子中就是后空翻——然后通过选择给出反馈,人工智能就会根据反馈寻找能最好地描述人类判断的奖励函数,这样逐渐给任务目标建立模型。然后它就会通过强化学习来学习达到它自己建立的目标。随着智能体的动作有了进步,它会继续拿出自己觉得最不确定的一对轨迹来让人类反馈哪一个更好,然后让自己对任务目标的理解进一步完善。

他们的方案展现出了喜人的学习效率,像前文所说,只需要不到1000次二选一的人类反馈就可以学会后空翻。人类评价员所花的时间只有不到一个小时,而在后台,这个策略已经同步积累了70小时的总体经验(后台仿真时的速度比真实速度快得多)。接下来他们会继续研究如何减少人类所需提供的反馈数量。下面的动图里演示的就是他们的训练过程(加速版)。

游戏环境中的训练结果

他们也用模拟机器人和Atari游戏中的几个任务测试了他们的方法(而且没有让程序用到环境本身的反馈函数,具体在Atari中就是不考虑游戏得分)。在多个测试环境里,智能体能通过人类的反馈学到优秀的表现,有时候甚至比人类表现还好。下面几张图就是用他们的方法训练的智能体玩各种Atari游戏的画面。每个画面最右侧竖向运动的小条是一个指示器,它显示的是智能体预测人类评价者对它当前动作的认可度有多高。这些动图就体现了这些智能体根据人类的反馈学到的东西:在Seaquest中知道去水面上补足氧气(左图),在打砖块和弹球中学到如何得高分(中间两图),或者在Enduro中学到撞车以后怎么恢复(右图)。

Seaquest

打砖块

弹球

Enduro

值得注意的是,人类提供的反馈可以不用跟环境正常的奖励函数一致。比如他们就在Enduro中训练了一个精确跟其它车辆保持齐平的智能体,它并不会像“正常”那样不断超过其它车辆获得最高分数。他们还发现,有时候从人类反馈中学习的智能体,比从正常的环境反馈里进行增强学习的智能体表现还要好,因为人类对奖励的表述要比环境本来的奖励更好。

待解决的问题

人类评价员要凭直觉判断哪些动作看起来正确,那么算法的表现也就受限于此,如果人类对任务没有什么深入的理解,那他们提供的反馈能起到的帮助也就很有限。有个相关的情况就是,在有一些领域这个系统最后会训练出一个学会了欺骗评价员的智能体。举个例子,一个机器人本来应该把物体拿起来,但它把机械手放到了目标物体和观察者中间,这样的机械手就只是看起来仿佛在抓它一样,下面这张图就是这样。

对这个问题,他们想了一个改进措施是加一些视觉标识(图中的白色实线),这样人类评价员就更容易判断深度了。不过更通用的办法还需要做更多研究。

OpenAI和DeepMind两个组织打算在对AI安全性有长期影响的方面继续进行合作。在他们看来,这样的方法是开发出人类为中心进行学习的安全AI的又一项进步,而且可以对现有强化学习、模仿学习这样的方法进行补充和拓展。

via OpenAI Blog,AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-06-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

3个必须知晓的数据分析概念,无论资深还是小白

介绍 在过去的几年中,人们对数据分析方法越来越重视。通过深入洞察数据情况,帮助很多企业改善了其经营状况。 通过分析数据,企业可以对其企业过往以及未来的表现有了...

2125
来自专栏新智元

视频 | 谷歌最新研究曝光: 合作式增强学习让机器人掌握通用技能

【新智元导读】谷歌大脑、DeepMind和 Google X 的研究员正在设计一种新的实验,探讨使用多个机器人共同学习通用技能的三种可行的方法:直接从经验中学习...

3397
来自专栏数据猿

实现财务自由,这个工作是我们未来几年最好的选择

1973
来自专栏数据的力量

如何成为一名卓越的数据科学家——开篇七剑

1445
来自专栏专知

教你构建机器学习项目:吴恩达新书《Machine Learning Yearning》

【导读】本文主要介绍吴恩达最近正在编写的新书《Machine Learning Yearning》,旨在教你如何构建机器学习项目,它与吴恩达之前机器学习课程有所...

3829
来自专栏人工智能头条

Yann LeCun高端私享会纪实:预测学习才是AI的未来

1573
来自专栏大咖说

阿里盖坤:用深度学习打造真正的智能化广告系统

文章原创首发于微信公众号「 TGO 鲲鹏会」,原文地址:阿里盖坤:用深度学习打造真正的智能化广告系统

2083
来自专栏大数据文摘

机器学习不是万能的!谷歌工程师:激发人的想象力才能创造惊艳的用户体验

1633
来自专栏软件成本造价评估

4种软件成本估算方法解析

 当下行业内在进行软件成本估算时,常用的有4种估算方法。这4种软件成本估算方法分别是:

961
来自专栏小鹏的专栏

开启聊天机器人模式

聊天机器人系统框架图 今天看到了一篇关于聊天机器人的一个不错的资源汇总: https://www.52ml.net/20510.html 进去看看先大概了解了...

1916

扫码关注云+社区