高明!OpenAI提出HER算法,AI系统学会从错误中学习


新智元报道

来源:OpenAI

编译:小潘

【新智元导读】OpenAI在利用增强学习训练人工智能系统任务上不断地取得进步。他们发布的新平台显示,可以允许人工智能系统从错误中吸取教训,并将错误视为系统的目标而非失败。

失败是成功之母:HER有自我审视能力

最近几个月,OpenAI的研究人员集中精力于构建具有更强的学习能力的人工智能。得益于他们的增强学习系统OpenAI baselines,机器学习算法可以进行自主学习。目前,这个新的算法保证人工智能可以像人类一样从自己的错误中汲取教训。

这个进步源于OpenAI的研究人员在近期公布的名为“后见之明经验复现(Hindsight Experience Reply, HER)”的开源算法。正如名字所示,HER帮助人工智能系统在完成一项任务后,具有自我审视的能力。OpenAI的博客中提到,人工智能认为失败乃成功之母。

以下是视频介绍:

研究人员写到:“构建HER的关键在于利用人类的直觉:在实现某个任务时,虽然我们没有成功,但是在这个过程中我们学到一些不一样的东西,既然如此,为何不能将我们最终学到的知识作为我们最初的目标呢?“

简而言之,这意味着每一次失败的尝试都是为了实现一个意想不到的“虚拟”目标,而非既定目标。

回想一下你学骑单车的经历,在最开始的几次尝试中,你无法掌握平衡。但是这些经验告诉了你怎么骑车是不正确的,怎么做不能保持平衡。就像在人类的学习过程中,每一次的失败让我们距离成功更进一步。

奖励每一次失败,并且失败也不沮丧

通过使用HER,OpenAI希望他们的人工智能系统可以利用上述的方法来学习。与此同时,这种算法也被作为增强学习模型中的奖励机制的替代算法。为了训练人工智能,使其具有独立的学习能力,它需要包含一个奖励机制:如果人工智能算法达到了预期目标,就可以得到一个小奖励,就像奖励给小孩子一块奶油饼干一样,否则就什么都得不到。另外一个系统根据人工智能距离预期目标的距离来给出奖励。

但是这两种算法并不是完美的。第一个算法会阻碍学习,因为一个人工智能算法在训练过程中要么得到奖励,要么没得到。另一方面,根据IEEE Spectrum报道的内容显示,第二系统在实现时,需要衡量与目标的距离并给出奖励,这个过程是很需要技巧的。如果把每一个任务都当作是后见之明的目标,即使人工智能系统没有完成指定的任务,HER也会提供一个奖励。这样帮助人工智能更快更好地学习。

OpenAI 在他的的博客中提到:“通过进行这种奖励机制的替换,强化学习算法在实现某些目标后会获得一个学习信号,即使这个学习任务不是它最初希望实现的。如果重复这个过程,系统最终可以实现任意的目标,包括最初的既定目标。

这种方法并不意味着使用HER方法可以完全简化人工智能系统学习某个任务的过程。研究者表示:“在机器人上使用HER进行学习仍然很难实现,因为这个过程需要大量的数据“。

无论如何,正如OpenAI的模型所显示的,HER有助于鼓励人工智能系统像人类一样从错误中学习,两者的主要区别在于人工智能在面对失败的时候不会像一些脆弱的人类那样伤心沮丧。

原文链接:

https://futurism.com/ai-learn-mistakes-openai/

https://blog.openai.com/ingredients-for-robotics-research/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-03-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

资源 | 从论文发布、学术会议到创业,斯坦福发布了一份「AI指数」年度报告

3477
来自专栏人工智能头条

TalkingData张夏天:不要专职算法工程师,要数据科学家

1322
来自专栏计算机视觉战队

人工智能在《LOL&王者荣耀》游戏中的角色

近期LOL和王者荣耀游戏已经充斥着真个朋友圈,但是谁又知道在火热的游戏进行中,又有一批批IT男在完成另一项重要的任务,那就是利用深度学习的知识去完成游戏直播的智...

2656
来自专栏PPV课数据科学社区

大数据告诉你,如何写论文能上核心期刊

评职称要发论文,可是为什么论文投出去,都石沉大海、毫无音讯了呢?隔壁的王教授、张老师,为什么写一篇论文,核心期刊就发一篇,他有什么秘诀? 各位老师、同学,是不...

2543
来自专栏腾讯高校合作

以“犀牛鸟的名义”,为青年学者打call

2016年度CCF-腾讯犀牛鸟基金共计支持18项科研基金,22项创意基金。在过去的一年中,基金获奖者与腾讯研发团队在前沿科技领域的开展深入合作。 双方根据共同关...

3346
来自专栏专知

【重磅】DeepMind发布Nature论文: 博弈网络让智能体成为游戏大咖

【导读】近日,DeepMind在《Nature Science》发布最新论文,研究将博弈论应用在multi-agent的游戏中,利用纳什均衡在自我对局中消除分歧...

3487
来自专栏ATYUN订阅号

【学术】麻省理工学院的学生们愚弄了谷歌图像识别技术 计算机视觉算法仍然很容易被骗

人工智能图像识别技术已经取得了一些令人惊叹的进步,但正如一项新的研究表明的那样,这些系统仍然可以被那些愚弄的例子所绊倒。 一群麻省理工学院的学生最近愚弄了谷歌开...

2583
来自专栏机器之心

深度 | 以人为本的机器学习:谷歌人工智能产品设计概述

选自Google Design 作者:Jess Holbrook 机器之心编译 参与:王宇欣、林静、李泽南 取代了手动编程,机器学习(ML)是一种帮助计算机发...

2414
来自专栏腾讯数据中心

深度剖析Google数据中心如何利用神经网络压榨PUE——上

互联网的飞速发展拉动了对大规模数据中心的胃口,同时也带来能耗的巨幅上升,目前数据中心的能耗已经超过了全球能源使用量的1.3%。Google的数据中心以高能效著称...

3428
来自专栏新智元

深度强化学习试金石:DeepMind和OpenAI攻克蒙特祖玛复仇的真正意义

【新智元导读】《蒙特祖玛的复仇》是一个出了名困难的游戏,是强化学习的一大挑战。本文作者长期从事深度强化学习研究,他认为DeepMind和OpenAI攻克蒙特祖玛...

512

扫描关注云+社区