业界 | 百度IDL最新成果:从自然语言入手,教AI智能体像人类一样学习

尽管人工智能取得了巨大的进步,但在许多方面仍然存在局限。例如,在电脑游戏中,如果AI智能体未预先编程游戏规则,则必须尝试数百万次才能确定正确的选择。人类可以在更短的时间内完成相同的壮举,因为我们擅长通过使用语言将过去的知识转移到新的任务中。

在一个屠龙游戏中,AI智能体需要尝试许多其他的动作(对着墙或是花丛喷火),才能理解它必须杀死龙。然而,如果AI智能体理解语言,人类可以简单地使用语言来指示它:“杀死龙才能使游戏获胜”。

在人类如何概括技能并将其应用于新任务方面上,基于视觉的语言发挥着重要作用,这对于机器仍然是一个重大挑战。开发复杂的语言系统对于机器变得真正智能,并获得像人类一样学习的能力至关重要。

作为实现这一目标的第一步,百度IDL实验室开发了一个使用监督学习和强化学习的组合系统,允许虚拟教师向虚拟AI智能体教授语言,通过将语言与感知和动作连接起来,就像父母教他们的宝宝一样。

IDL实验室的结果表明,在训练结束后,AI智能体能够以自然的语言正确地解读老师的指令,并采取相应的行动。更重要的是,AI智能体开发了“zero-shot学习能力”,这意味着智能体能够理解潜在的语句,研究院发现,“这项研究使我们向教机器像人类一样学习迈进一步。”

论文链接:http://arxiv.org/abs/1703.09831

学习概况

该研究在称为XWORLD的2D迷宫般的环境中进行,百度的虚拟智能体需要根据虚拟教师发出的自然语言命令进行导航。一开始,智能体对这种语言一无所知,每一个字都同等的没有任何意义。 然而,当它探索环境时,如果执行命令成功(或失败),老师会给出积极的(或消极的)回应。

为了帮助智能体学习得更快,老师还会在智能体导航时询问有关环境的简单问题。智能体需要正确的回答问题。通过鼓励正确的行动/答案,惩罚不正确的行动/回答,经过多次试验和错误,老师得以训练智能体去了解自然语言。

一些示例命令包括:

  • 请移动到苹果处。
  • 你可以移动到苹果和香蕉之间的网格吗?
  • 你能移动到红苹果处吗?

一些Q&A的例子:

  • 问:北方的物体是什么?答:一根香蕉。
  • 问:香蕉在哪里?答:北边。
  • 问:苹果西边物体的颜色是多少? 答:黄色

结果

最后,智能体能够正确地解释教师的命令并导航到正确的地方。更重要的是,智能体开发了研究团队的所谓的“zero-shot learning ability”,这意味着即使是以前没有看到的全新命令,如果有足够的以前看过的相似形式的句子,仍然能够正确的执行任务。换句话说,智能体能够以已知的方式(语法)理解用已知单词组合的新句子。

例如,一个学习如何用刀切一个苹果的人将会知道如何用刀切火龙果。将过去的知识应用于新任务对于人来说非常容易,但是对于目前的端到端学习机器来说仍然是困难的。

虽然机器可能知道“火龙果”的样子,但是除非它已经使用包含该命令的数据集进行了明确的训练,否则它无法执行“用刀切割火龙果”的任务。相比之下,我们的智能体表现出能够转移它所知道的关于火龙果的视觉外观,以及“用刀切”的任务,即使没有经过确切的的训练,仍然可以成功进行用“用刀切割龙果”的任务 。

下图展现了我们的智能体成功执行导航任务测试。

导航语句

请移动到卷心菜的西边。

请移动到无花果的东边。

识别语句

Q:东南边是什么?

A:西瓜。

导航测试

请移动到无花果的西边。

导航语句

你可以移动到椰子处吗?

你可以移动到苹果处吗?

导航测试

你可以移动到西瓜处吗?

百度研究院的后续研究有两个方向:

  • 一个是在当前2D环境中用自然语言命令教授智能体更多的能力,
  • 另一个是将其迁移到虚拟3D环境。虚拟3D环境带来更多的挑战,而且更像是我们现实生活的环境。

而百度的最终目标,是让人类在现实环境中,采用自然语言来训练一个真正意义上的机器人。

Via research.baidu

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-03-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SDNLAB

换个角度谈边缘计算:电力供给压力与计算能力占比率不高,它是过度炒作吗?

编者按:边缘计算近年来日趋火热,互联网公司、电信运营商、设备商等众多领域都在讨论边缘计算。

1402
来自专栏人工智能头条

谷歌工智能开源项目Tensorflow预示着硬件领域的重大变革

1553
来自专栏EAWorld

微服务下软件度量系统设计与商业智能技术新发展

? ? 书接上回,在之前发表的文章《在微服务世界度量DevOps,你准备好了吗?》一文中,我们介绍了如何以GRE理论评价DevOps的实施情况,以及度量驱动和...

3486
来自专栏数据科学与人工智能

【陆勤学习】推荐系统开发的十个关键点

亚马逊的CEO Jeff Bezos曾经说过,他的梦想是“如果我有100万个用户,我就要为他们做100万个亚马逊网站”。智能推荐系统承载的就是这个梦想,即通过数...

38710
来自专栏华章科技

分布式实时处理系统浪潮——浅析“深度学习”看未来发展

Autodesk资深系统研发工程师,从事平台架构方面的研发工作。曾在思科系统(中国)研发中心云产品研发部工作多年,全程参与了海量数据实时处理、分析系统的构建与实...

752
来自专栏人工智能

如何充分利用机器学习的书籍和课程

如今,在网上网下,我们有许多机器学习书籍和课程可用来学习,而同时网上又掀起了大学课程和电子书逐渐免费的趋势。太多的优秀资源可以使用也许会让您感觉到要被压倒。而这...

2156
来自专栏MixLab科技+设计实验室

人工智能设计师v0.0.2

本文是DIY一个人工智能设计师_v0.0.1的升级版本。将结合推荐系统,梳理人工智能设计师的具体使用场景之一。 先看下近期人工智能+设计的热点事件: 下面是新榜...

3376
来自专栏人工智能头条

去苹果做 AI 一共分几步?看看这套面试指南吧(附面试题)

1692
来自专栏PPV课数据科学社区

Python数据分析和数据挖掘学习路线图

Python是一种面向对象、直译式计算机程序设计语言,由Guido van Rossum于1989年底发明。由于他简单、易学、免费开源、可移植性、可扩展性等特点...

5898
来自专栏何俊林

程序员如何和产品经理优雅的干架

最近,平安产险科技一名外包程序员和一名外包产品经理干架的视频几乎在互联网圈都传遍了,因为产品提了一个需求:要求用户App的主题颜色能根据手机壳自动调整。让我们再...

963

扫码关注云+社区