教授机器视物和理解——Facebook人工智能研究进展

许多人认为Facebook只是一个蓝色图标的大型应用,或者认为只是个网站,但是近年来,我们已经建立了一套应用和服务体系,为用户之间相互交流和分享提供了广泛的方式。从文本到照片,再到视频以及将来的虚拟现实(VR),这个世界产生的信息量无时不刻都在增加。事实上,我们为您提供新闻材料所需要的数据量以每年50%的增量增长——因此我可以说,我们的标准工作时间跟不上这增长速度来处理这些数据。我能够想到跟上这种速度的最好方法是,构建一套智能系统来帮助我们清理泛滥的数据。

为了解决这个问题,Facebook AI研究院(FAIR)正在指导展开雄心勃勃的研究,诸如图像识别和自然语言理解等领域。他们在这些领域发表了一系列开创性的论文,而今天,我们将要宣布另外一些里程碑式的研究成果。

目标检测和记忆网络

第一个里程碑是计算机视觉的子领域,也就是目标检测。

目标检测是件困难的事情,以下图为例:

在图中你看到了多少匹斑马?很难看清,对吗?想想这对计算机有多么艰难,它压根就看不到条纹——它只能看到像素点。我们的研究人员一直在努力训练系统来识别像素中的模式,让计算机在一张又一张的照片中,区分物体的能力能够与人类不相上下甚至超过人类——业内叫做“分割”——然后识别每一个物体。我们最新的系统在分割图像的时候比其他大多数系统快30%,而使用的训练数据则是十分之一,这套系统将在下个月的NIPS上展示。

下一个里程碑式的研究是自然语言理解,使用了新技术记忆网络(即MemNets)带来了新的进展。MemNets在卷积神经网络中加入了一种短期记忆来推动深度学习系统,让这些系统可以像人类那样理解语言。今年的早些时候,我展示了MemNets工作的案例,阅读和回答关于《指环王》简短概要的问题。现在,我们已经将系统基于十多行文字阅读和回答问题扩展到能够在数据集上回答超过10万个问题,比之前要大几个数量级。

在计算机视觉和自然语言理解方面取得的成就本身就令人兴奋了,但真正令人兴奋的是将二者结合起来。看看下面这个例子:

【温馨提示:本文内视频请翻墙打开】

视频:https://www.facebook.com/Engineering/videos/10153621574817200/

这个案例中的系统叫做VQA或者visual Q&A,你可以看到将MemNets和图像识别结合起来会发生什么:我们可以让人们提出照片中有什么的问题。试想一下,这种技术对世界上数以百万计有视觉障碍的人来说意味着什么。当在朋友之间分享照片时,他们并不会被冷落,而相反,他们能够参与其中进行互动。虽然这项技术还处于早期研发阶段,但是它的前景是明朗的。

预测和规划

我们在AI方面还有更大更长远的挑战。其中包括一些无监督和预测学习,系统可以通过观察(而不是通过直接指令,即监督学习)来学习,然后基于这些观察进行预测。这些都是你和我天生就会的——比如,没有人要到大学里才会学到如果将笔推下桌子它会掉落在地面上——并且人类大部分学习都是这样进行的。但是计算机仍然无法做到这一点——我们在计算机视觉和自然语言理解所取得的进展仍然由监督学习推动。

FAIR团队最近开始研究这些模型,你可以在下面的案例中看到我们一些早期成果。该团队已经开发了一套系统,它可以“看”一系列视觉测试用例——在此情况下,不可靠堆放的方块可能会也可能不会掉落——然后预测输出。在短短几个月的工作之后,这个系统的预测准确率达到了90%,比大部分人类的预测要准确。

视频:https://www.facebook.com/Engineering/videos

长远研究的另外一个领域是教系统进行规划。我们构建了一个系统来帮助实现这个目标,一个为棋盘游戏Go设计的AI玩家。使用游戏来训练机器在AI研究领域是很常见的做法。在过去的几十年中,AI系统在跳棋,国际象棋,甚至Jeopardy等方面超过了人类。但是,尽管在Go游戏AI玩家方面的研究已近50载,人类最好的棋手还是要比最好的AI玩家要更出色。这是部分因为Go中不同着子方法。比如,国际象棋中,在前两步着子之后,接下来会有400中可能的应对方法。在Go中,将会有近130000种。

视频:https://www.facebook.com/Engineering/videos/10153621562717200/

我们在Go玩家上工作了短短几个月,但是它已经能和一个已经发布的AI系统齐头并进了,并且它已经能和人类高手玩家相媲美。我们将传统的基于搜索的方法——随着游戏的进行对每个可能的着子方式建模——与我们计算机视觉团队开发的模式匹配系统相结合,以此来实现这个功能。最棒的人类Go玩家善于随着比赛的发展识别棋盘上的模式,使用这种技术,我们的AI玩家可以模拟人类的这种行为——可以得到非常准确的初步结果。

那么当你把这些全部聚集在一起会发生什么呢?Facebook最近正在运行一个小型的人工智能助手M的测试。不像其他的机器驱动服务,M考虑的更长远:它可以替你完成任务。它可以购物;安排礼品送到您心爱的人手中;预定餐厅,旅行安排,约会等等。这是一个巨大的技术挑战——这很难起步,M是一套人类训练的系统:人类操作员来评估AI给出的建议,然后他们对此进行回应,而AI则观察学习这些人类给出的回应。

我们最终希望将这套服务扩展到全球数十亿用户,但为了要做到这点,AI在没有人类帮助的情况下,需要能够自身处理大部分请求。要做到这一点,我们需要在M上建立上图中所有不同的功能——语言,视觉,预测和规划,这样它就能理解每个请求背后的上下文信息,然后未雨绸缪。这确实是一个巨大的挑战,而且我们才刚刚开始。但是早期研究结果是有希望的。比如,最近我们在M上部署了新开发的MemNets系统,促使M加快了学习:当有人要求M帮忙预定鲜花,M现在知道首先要问的两个问题是“你的预算是多少?”和“鲜花要送到哪?”

最后一点:有些人可能会这么认为,“那又怎样?人照样能够做这些事情”。当然,你说的没错——但我们大多数人没有专门的私人助理。而这就是类似于M服务提供的“强大能力”:我们可以为这世界上数十亿人提供他们自己的数字助理,这样他们就能够花费更少的时间在每天琐事上,而有更多时间处理真正重要的事务。我们的AI研究——探索连通性的全新方式以及使用Oculus VR身临其境地感受分享的经验——需要长期的努力。明白这一切技术原理,这将需要多年的艰苦工作,但如果我们能够正确理解这些新技术,我们离连通世界又近了一步。

想要了解更多关于我们人工智能研究以及已经产生的影响,那就看看这个视频。

视频:https://www.facebook.com/Engineering/videos/10153621590557200/

英文原文:Teaching machines to see and understand: Advances in AI research (译者/刘翔宇 审校/赵屹华、朱正贵 责编/仲浩) 

关于译者: 刘翔宇,中通软开发工程师,关注机器学习、神经网络、模式识别。 

原文发布于微信公众号 - CSDN技术头条(CSDN_Tech)

原文发表时间:2015-11-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Android 开发者

人工智能时代,如何做设计?

6848
来自专栏新智元

【重磅】谷歌人工智能帝国内幕大起底

【新智元导读】今天谷歌CEO在年度公开信中写道,我们将进入人工智能为先的世界,但并没有透露多少细节。本文详尽梳理了谷歌所有的——没错,是所有的——人工智能项目及...

38011
来自专栏新智元

【Nature】AlphaGo赢了围棋,但玩量子计算游戏人的直觉强过机器

? Quantum Moves游戏过程 来源:nature.com 【新智元导读】Nature日前刊发论文,丹麦奥胡斯大学的科学家设计了一款量子计算游戏,...

35210
来自专栏PPV课数据科学社区

数据分析师?程序能做的事还需要你吗?

数据分析在现实中,当一个数据分析师跟别人聊天的时候,经常会被问一些问题: Q:数据分析人员能做什么? A:从纷繁的数据里提炼出有价值的信息并给公司提供支持啊。...

3529
来自专栏AI研习社

AI 开发者高薪太诱人?请收下这份给国内开发者转型 AI 指南

如果你浏览 AI 相关的新闻,不难发现「高薪」、「百万年薪」等极具诱惑力的词汇的出现频率非常高。同样,在知乎中搜索「如何转型 AI?」、「AI 领域需要怎样的人...

1422
来自专栏新智元

【Google.AI+AutoML】谷歌I/O重磅发布第二代TPU,Pichai主旨演讲

【新智元导读】18日凌晨,谷歌一年一度的开发者大会I/O拉开帷幕,其CEO Sundar Pichai发表主旨演讲。重磅发布了谷歌第二代TPU和 Cloud T...

3697
来自专栏AI科技评论

动态 | Facebook 人工智能大揭秘:AI 如何变成这家社交巨头不可或缺的部分?

AI科技评论按:本文作者为 Backchannel 的 编辑 Steven Levy,AI科技评论编译发布。 当被问及是否想要用人工智能领导全球最大的社交网站时...

37016
来自专栏大数据挖掘DT机器学习

工程师回帖:求助各位数据挖掘前辈~~

求助各位数据挖掘前辈~~ 还有几天就马上研一了,我学的是数据挖掘方向,具体方向应该是微博文本类,这段时间学的挺乱的,一直没有个方向的感觉。假期期间把老师推荐的...

3475
来自专栏Material Design组件

About Face 4 第二章(3)访谈并观察用户

3377
来自专栏专知

【业界实战】小米大数据总监司马云瑞详解小米用户画像的演进及应用解读(附报告pdf下载)

【导读】2017年 11月4日,大数据系统与应用研讨会在中科院计算所举行。会议邀请了中科院计算所程学旗老师和其他来自联想、京东、美团点评、小米等一线互联网公司大...

1.2K7

扫码关注云+社区

领取腾讯云代金券