动态 | 你做我评:OpenAI和DeepMind全新的强化学习方法,根据人类反馈高效学习

AI 科技评论消息,近日OpenAI和DeepMind各自在网站上发文,介绍一篇他们合作研究、撰写的论文《Deep reinforcement learning from human preferences》(根据人类偏好进行的深度增强学习)。在这篇论文里,他们展示了一种根据人类反馈进行强化学习的新方法,不仅学习过程相对高效,而且OpenAI和DeepMind的研究人员们共同认为这种方法长远来看能够提高智能系统的安全性。

下面 AI 科技评论就带大家一起具体看一下OpenAI对这种方法的介绍和演示。

要建立一个安全的AI系统,其中很重要的一步是不再让人类给AI系统写目标函数。这是因为如果用了简单的策略来达到复杂的目标,又或者对复杂目标的理解出现了偏差,都可能导致AI系统做出人们不希望看到的行为,有时候甚至会引发危险。OpenAI跟DeepMind的安全团队一起协作开发了一种算法,只需要人类逐步告诉它两种它推荐的动作中哪一种更好,它就可以由此推测人类的需求进行学习。

方法介绍

这篇论文中介绍了一种算法,它可以用相对少量的人类反馈解决现代的强化学习问题。学者们以前就研究过如何使用人类反馈来建立机器学习系统,但这次两个团队合作做了高级别的解决方案,这样它也可以用来完成复杂得多的任务。他们的算法用来自人类评价员的900次二选一反馈学会了后空翻 —— 一个看起来简单、很容易评价,但是很难精确描述的任务。

训练过程总体是一个人类、智能体对目标的理解、增强学习训练之间的三步反馈循环。

根据OpenAI跟DeepMind联合开发的算法,这个智能体一开始先在环境中随机运动。然后周期性地把两段它的动作视频给人类看,人类要分辨两个视频的两种动作里的哪一种更接近它的目标——在这个例子中就是后空翻——然后通过选择给出反馈,人工智能就会根据反馈寻找能最好地描述人类判断的奖励函数,这样逐渐给任务目标建立模型。然后它就会通过强化学习来学习达到它自己建立的目标。随着智能体的动作有了进步,它会继续拿出自己觉得最不确定的一对轨迹来让人类反馈哪一个更好,然后让自己对任务目标的理解进一步完善。

他们的方案展现出了喜人的学习效率,像前文所说,只需要不到1000次二选一的人类反馈就可以学会后空翻。人类评价员所花的时间只有不到一个小时,而在后台,这个策略已经同步积累了70小时的总体经验(后台仿真时的速度比真实速度快得多)。接下来他们会继续研究如何减少人类所需提供的反馈数量。下面的动图里演示的就是他们的训练过程(加速版)。

游戏环境中的训练结果

他们也用模拟机器人和Atari游戏中的几个任务测试了他们的方法(而且没有让程序用到环境本身的反馈函数,具体在Atari中就是不考虑游戏得分)。在多个测试环境里,智能体能通过人类的反馈学到优秀的表现,有时候甚至比人类表现还好。下面几张图就是用他们的方法训练的智能体玩各种Atari游戏的画面。每个画面最右侧竖向运动的小条是一个指示器,它显示的是智能体预测人类评价者对它当前动作的认可度有多高。这些动图就体现了这些智能体根据人类的反馈学到的东西:在Seaquest中知道去水面上补足氧气(左图),在打砖块和弹球中学到如何得高分(中间两图),或者在Enduro中学到撞车以后怎么恢复(右图)。

Seaquest

打砖块

弹球

Enduro

值得注意的是,人类提供的反馈可以不用跟环境正常的奖励函数一致。比如他们就在Enduro中训练了一个精确跟其它车辆保持齐平的智能体,它并不会像“正常”那样不断超过其它车辆获得最高分数。他们还发现,有时候从人类反馈中学习的智能体,比从正常的环境反馈里进行增强学习的智能体表现还要好,因为人类对奖励的表述要比环境本来的奖励更好。

待解决的问题

人类评价员要凭直觉判断哪些动作看起来正确,那么算法的表现也就受限于此,如果人类对任务没有什么深入的理解,那他们提供的反馈能起到的帮助也就很有限。有个相关的情况就是,在有一些领域这个系统最后会训练出一个学会了欺骗评价员的智能体。举个例子,一个机器人本来应该把物体拿起来,但它把机械手放到了目标物体和观察者中间,这样的机械手就只是看起来仿佛在抓它一样,下面这张图就是这样。

对这个问题,他们想了一个改进措施是加一些视觉标识(图中的白色实线),这样人类评价员就更容易判断深度了。不过更通用的办法还需要做更多研究。

OpenAI和DeepMind两个组织打算在对AI安全性有长期影响的方面继续进行合作。在他们看来,这样的方法是开发出人类为中心进行学习的安全AI的又一项进步,而且可以对现有强化学习、模仿学习这样的方法进行补充和拓展。

via OpenAI Blog,AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-06-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

2016:深度学习统治人工智能?附深度学习十大顶级框架

2015 年结束了,是时候看看 2016 年的技术趋势,尤其是关于深度学习方面。新智元在 2015 年底发过一篇文章《深度学习会让机器学习工程师失业吗?》,引起...

3396
来自专栏企鹅号快讯

深度学习的核心:掌握训练数据的方法

Hello World! 今天我们将讨论深度学习中最核心的问题之一:训练数据。深度学习已经在现实世界得到了广泛运用,例如:无人驾驶汽车,收据识别,道路缺陷自动检...

1838
来自专栏CDA数据分析师

数据科学人才: 如何顺藤摸瓜提高你的竞争力

摘要 基于一项针对620多位数据专家的调查研究,我们发现数据科学技能分为三个分支:行业知识背景(本文特指商业),技术/编程和数学/统计。这项研究将影响目前数据科...

19210
来自专栏AI科技评论

干货 | 5年提速500倍,英伟达GPU创纪录突破与技术有哪些?

英伟达 Volta Tensor Core GPU 在深度学习社群取得了哪些巨大突破?这些突破背后有什么核心技术?

1013
来自专栏华章科技

人工智能大拿解答机器学习30个问答

这次参加的是 Yoshua Bengio,计算机科学家,毕业于麦吉尔大学,在MIT和AT&T贝尔实验室做过博士后研究员,自1993年之后就是蒙特利尔大学任教,与...

511
来自专栏镁客网

MIT人工智能实验室发力!让机器人告诉你5秒后的世界

1996
来自专栏人工智能LeadAI

可解释性与deep learning的发展

大家好,我叫张拳石,UCLA博士后。目前在朱松纯老师的实验室,带领一个团队,做explainable AI方向。本文的题目有些大,这篇短文中,我只简单谈谈个人对...

3697
来自专栏CDA数据分析师

应用 AI 之前,你必须了解的 10 项准备工作

? 这篇文章对你的人工智能和机器学习项目进行分解,讨论其各个部分所带来的影响,从而帮助你确定公司是否真正准备利用机器学习、深度学习或人工智能。 不是每一个问题...

1829
来自专栏企鹅号快讯

深度学习的核心工作流程之一:如何训练数据!

-免费加入AI技术专家社群>> 今天我们将讨论深度学习中最核心的问题之一:训练数据。深度学习已经在现实世界得到了广泛运用,例如:无人驾驶汽车,收据识别,道路缺陷...

2045
来自专栏CreateAMind

可解释性与deep learning的发展

大家好,我叫张拳石,UCLA博士后。目前在朱松纯老师的实验室,带领一个团队,做explainable AI方向。本文的题目有些大,这篇短文中,我只简单谈谈个人对...

1084

扫描关注云+社区