高明!OpenAI提出HER算法,AI系统学会从错误中学习


新智元报道

来源:OpenAI

编译:小潘

【新智元导读】OpenAI在利用增强学习训练人工智能系统任务上不断地取得进步。他们发布的新平台显示,可以允许人工智能系统从错误中吸取教训,并将错误视为系统的目标而非失败。

失败是成功之母:HER有自我审视能力

最近几个月,OpenAI的研究人员集中精力于构建具有更强的学习能力的人工智能。得益于他们的增强学习系统OpenAI baselines,机器学习算法可以进行自主学习。目前,这个新的算法保证人工智能可以像人类一样从自己的错误中汲取教训。

这个进步源于OpenAI的研究人员在近期公布的名为“后见之明经验复现(Hindsight Experience Reply, HER)”的开源算法。正如名字所示,HER帮助人工智能系统在完成一项任务后,具有自我审视的能力。OpenAI的博客中提到,人工智能认为失败乃成功之母。

以下是视频介绍:

研究人员写到:“构建HER的关键在于利用人类的直觉:在实现某个任务时,虽然我们没有成功,但是在这个过程中我们学到一些不一样的东西,既然如此,为何不能将我们最终学到的知识作为我们最初的目标呢?“

简而言之,这意味着每一次失败的尝试都是为了实现一个意想不到的“虚拟”目标,而非既定目标。

回想一下你学骑单车的经历,在最开始的几次尝试中,你无法掌握平衡。但是这些经验告诉了你怎么骑车是不正确的,怎么做不能保持平衡。就像在人类的学习过程中,每一次的失败让我们距离成功更进一步。

奖励每一次失败,并且失败也不沮丧

通过使用HER,OpenAI希望他们的人工智能系统可以利用上述的方法来学习。与此同时,这种算法也被作为增强学习模型中的奖励机制的替代算法。为了训练人工智能,使其具有独立的学习能力,它需要包含一个奖励机制:如果人工智能算法达到了预期目标,就可以得到一个小奖励,就像奖励给小孩子一块奶油饼干一样,否则就什么都得不到。另外一个系统根据人工智能距离预期目标的距离来给出奖励。

但是这两种算法并不是完美的。第一个算法会阻碍学习,因为一个人工智能算法在训练过程中要么得到奖励,要么没得到。另一方面,根据IEEE Spectrum报道的内容显示,第二系统在实现时,需要衡量与目标的距离并给出奖励,这个过程是很需要技巧的。如果把每一个任务都当作是后见之明的目标,即使人工智能系统没有完成指定的任务,HER也会提供一个奖励。这样帮助人工智能更快更好地学习。

OpenAI 在他的的博客中提到:“通过进行这种奖励机制的替换,强化学习算法在实现某些目标后会获得一个学习信号,即使这个学习任务不是它最初希望实现的。如果重复这个过程,系统最终可以实现任意的目标,包括最初的既定目标。

这种方法并不意味着使用HER方法可以完全简化人工智能系统学习某个任务的过程。研究者表示:“在机器人上使用HER进行学习仍然很难实现,因为这个过程需要大量的数据“。

无论如何,正如OpenAI的模型所显示的,HER有助于鼓励人工智能系统像人类一样从错误中学习,两者的主要区别在于人工智能在面对失败的时候不会像一些脆弱的人类那样伤心沮丧。

原文链接:

https://futurism.com/ai-learn-mistakes-openai/

https://blog.openai.com/ingredients-for-robotics-research/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-03-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云时之间

深度学习的应用总结(翻译)

原文地址:https://en.wikipedia.org/wiki/Intelligent_personal_assistant 当首次介绍深度学习时,我们...

3046
来自专栏AI科技评论

开发 | Facebook 的“自然语言理解”如何让Messenger更懂人类?(6500字演讲全文)

AI科技评论按:Facebook的AML和FAIR团队合作进行自然语言处理对自然语言理解进行着合作研究。在2017年4月19日举办的F8开发者大会上,Faceb...

3609
来自专栏机器之心

业界 | 让机器在对话中学习自然语言:百度提出交互式学习方法

选自baidu.research 机器之心编译 参与:黄小天、李泽南 自然语言处理一直是人工智能发展道路上面临的巨大挑战。此前,大多数研究都是让机器学习模型...

3798
来自专栏新智元

人工神经网络完爆人类的6大领域:看车都能预测选举

编辑: frances 【新智元导读】来自Venturebeat的盘点,人工智能都在哪些领域超越了人类?欢迎补充。 目前,不同于一次处理多个事物的人脑,机...

4019
来自专栏企鹅号快讯

PyTorch一周年战绩总结:是否比TensorFlow来势凶猛?

选自PyTorch 机器之心编译 今天 PyTorch 刚好一周年。自发布以来,由于调试、编译等多方面的优势,它成为 2017 年热度极高的框架之一。本文内容介...

2228
来自专栏AI研习社

Tensorflow框架平台的综合对比 | Tensorflow 最全资料汇总【3】

【AI研习社】关注AI前沿、开发技巧及技术教程等方面的内容。欢迎技术开发类文章、视频教程等内容投稿,邮件发送至:zhangxian@leiphone.com 作...

3558
来自专栏机器人网

推荐:10种机器学习的工具和框架(附;链接)

AWS re:Invent 2017上宣布的一款重大产品就是正式发布的亚马逊Sagemaker,这种新的框架简化了构建机器学习模型并部署到云端的任务。

1361
来自专栏机器人网

有望在2018年大行其道的10种机器学习工具和框架

2017年是机器学习大放异彩的一年,这归功于众多公司广泛而深入地研究和开发更新颖、更高效的工具和框架。这里介绍,有望在2018年大行其道的10种机器学习的工具和...

3955
来自专栏量子位

Facebook和微软发布机器学习工具ONNX,PyTorch训练的模型轻松转到Caffe2

陈桦 编译整理 量子位 出品 | 公众号 QbitAI ? Facebook和微软周四在各自的博客中发布了ONNX,即“开放神经网络转换”工具。 简单地说,这...

3729
来自专栏华章科技

极度烧脑+惊人发现:4个颠覆你世界观的量子理论实验

导读:最近,“量子”这个词成了网红。科幻作家们用量子理论虚构一个神奇的世界;量子计算是最火热的前沿技术之一;量子纠缠也成了伪科学用来忽悠人的幌子……

851

扫码关注云+社区