前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Facebook AI 野心与LeCun的小目标:拥有类人智能的对话助理

Facebook AI 野心与LeCun的小目标:拥有类人智能的对话助理

作者头像
新智元
发布2018-03-27 09:47:15
7400
发布2018-03-27 09:47:15
举报
文章被收录于专栏:新智元新智元

【新智元导读】 不同于以往的“深度好文”,这篇描写 Facebook AI发展的文章不仅仅聚焦在机器学习技术,更多地强调各种先进的机器学习模型与Facebook 本身的基础架构、大规模部署和产品管道之间的配合,并强调硬件的支撑能力。对于公司来说,得应用者才能得天下,文章列举了 Facebook 从2012年来在图像识别和视频识别等方面的技术应用,强调AI 技术的发展中学术实验与产业应用之间存在显著差异。不管是扎克伯格还是Yann LeCun,他们的目标都是打造具有类似人类智力的对话代理,AI 毫无疑问是Facebook的未来核心战略。

未来,Facebook 会有一个拥有类人智能的对话代理。Siri、Google Now 和 Cortana目前都在尝试变得更智能,但是一旦脱离既定情景,它们都失败了。这是为什么扎克伯格在2016年为自己的家庭打造私人AI 助手的一个原因——当下的产业发展情况并不能满足他的需求。

当然,Facebook也已经开始打造自己的AI 平台——M。M不会拥有跟人一样的智能,但是它会在一些狭窄的领域拥有智能,通过观察人类的行为进行学习。Facebook 希望让AI 成为公司的下一个大平台,M 只是其中的一个研究项目。

在通往打造类似人类的智能的道路上,Facebook将使用机器学习(ML) 来了解用户反馈给公司的基础设施的所有内容。 Facebook想要使用AI来让其平台理解贴文,故事,评论,图像和视频的意义。然后将这些信息存储为元数据,以改善广告定位并提高用户新闻流内容的相关性。元数据还可用作创建高级对话代理的原始材料。

这并不是一个遥不可及的目标:AI现在是Facebook的下一个平台。Facebook 正在悄悄地实现这一目标,与此前从网页到移动端的转变具有相同的优先级。(移动端目前占据了Facebook收入的84%。)虽然你目前不能通过发出“OK Facebook”或“Hey Facebook”的指令与之进行互动,但是,今天已经有大量的AI,能够让 Facebook 通过图像,视频,新闻流或其正在萌芽的聊天机器人,来增加对用户的吸引力。并且,如果他们的集体的工程设计能找到方法,那么自动化程度只会不断增加。

LeCun的小目标:专注10个科学问题,更好地模拟人类智力

在早期阶段,项目M作为基于文本的数字助理存在,通过将AI与人类训练者结合来理解用户意图(用户想要什么,例如呼叫 Uber),这一会话发生在使用机器学习训练的 Facebook Messenger 机器人和用户之间。当人类训练员介入以找到用户意图时,机器人倾听和学习,以便在下一次预测用户的意图时提高其准确性。

遇到一个问题时,如果机器计算出的概率较低,无法达到准确率要求,它会请求训练员的帮助。如果机器计算的概率足够高,则机器会对人类训练者没有注意到的用户进行回应。

这种交互是可能的,这要得益于创建于 Facebook 人工智能研究院(FAIR)建造的记忆网络(Memory Network)。一个记忆网络指的是带有内存的神经网络。虽然这并不是从人脑的研究获得启发,但是这一神经网络跟大脑皮层很相似,相关的网络内存就好像海马体,它通过长期、短期和空间导向的内存转换来搜集信息。当这些信息被送到皮层或者神经网络中,就会被转化成思考或者行动。

Facebook 的记忆网络技术已经通过开源社区开源。FAIR 主管Yann LeCun 把Facebook 未来的智能对话代理描述为一个高级版的M。

“它以M为基础,但是是完全自动化和个性化的”,他说,“所以,M是你的朋友,但不是所有人的朋友,它只是你的M,你可以跟它进行交互,它是完全个性化的,它了解你,你也了解它。并且,你能够与它进行的对话是有信息量的、有用的……这一个性化的助理,你能够把它带到任何地方,从理论上说,它也能在各个方面帮助你。从本质上看,这要求具有人类水平的智能。”

LeCun 是 AI 和 ML 研究的先驱。他被招到Facebook来建立和领导FAIR。正如一些先进研究所暗示的那样,目前的M项目的机器人并不是LeCun的终点,它们是实现智能会话代理长期目标的一个里程碑。 LeCun不能预测什么时候达到最终目标,甚至可能在他的职业生涯中都不会成功。但每个阶段式的里程碑都定义了需要构建的硬件和软件,以便未来的机器可以更像人类一样推理。在每次的迭代中,功能变得越来越好。

教计算机像人类一样推理面临的阻碍是巨大的。凭借在该领域30年的研究经验,LeCun相信Facebook可以专注于10个科学问题,以更好地模拟人类的智力。他在我们访问期间分享了其中的一些。

例如,在 3 到 5 个月的年纪,婴儿就学会了客体永久性的概念。客体永久性是指儿童理解到物体是作为独立实体而存在的,即使个体不能知觉到物体的存在,它们仍然是存在的。AI 研究人员还没有建立一个能理解客体永久性概念的ML模型。

另一个例子,对于人工智能系统来说,“奖杯不适合放在手提箱,因为它太小了”这样的句子歧义太多,难以理解。人类很容易分辨出“它”指代的对象是手提箱,但是计算机很难理解其具体意义。

这是一类被称为 Winograd Schema 的问题。去年夏天,在第一次年度Winograd Schema挑战赛中,经过最好训练的计算机翻译60句话,最后正确率为58%。作为对比,人类的准确率是 90%,完全随机猜测准确率是44% ,涉及到这些问题,计算机的能力目前更接近于猜测,而不是人类。

“事实证明,这种预测接下来会发生什么的能力是人工智能系统的一个重要部分,我们还不知道如何构建,”LeCun说, “你如何训练机器来预测本质上是不可预测的东西?这提出了一个非常具体的数学问题,那就是,当预测的东西不是单一的东西,而是一系列的可能性时,你怎么做ML?”

作为催化剂的硬件

如果这类的问题可以得到解决,那么10个科学问题也就能够找到答案,进而,像人类一样进行推理的ML模型就可以构建。但是,要运行非常、非常大的神经网络,需要新的硬件——使用一个分布式计算架构,由非常高速的网络进行连接,并且,要运行这些模型,还要有算法来进行高度的优化。这一切的基础是,要训练这些模型需要一个新的专用的超级计算机,它需要非常擅长处理数字运算。

过去10年间,DL的发展,要得益于新的、专用化的硬件催化。虽然ML研究的理论在多年前就已经得到验证,但是之前很少有研究者会追求ML。由于可以支撑研究的硬件能力总体上是不可用的,所以ML 在过去被视为“死胡同”。2011年,谷歌的大脑数据中心使用的16,000个CPU,通过观看YouTube视频识别猫和人的工作证明了ML的可行性,但这一配置也同时说明。谷歌以外,几乎没有研究团队能够拥有如此强大的硬件资源,可以在这一领域展开研究。

突破来自2011年,当时英伟达的研究者 Bryan Catanzaro 与斯坦福大学吴恩达的团队合作,一起证明了在深度学习上,12块GPU就能实现2000块CPU的性能。GPU硬件的商用加速了纽约大学、多伦多大学、蒙特利尔大学和瑞士AI实验室的研究,也证明了ML的实用性,重新唤起了研究者对这一领域的兴趣。

英伟达的GPU在训练和运行机器学习模型上性能更加强大,但是,还没有达到LeCun所展望的私人助理所需要的量级。另外,在实验室中运行ML模型,与在拥有17亿用户的 Facebook 中运行ML模型,二者还是有差别的。

学术上的可行性必须与在Facebook 大规模的生产基础设施上高效地运行ML模型的可行性相平衡。这一数据处理量有多大,Facebook 没有具体透露,但肯定是艾字节(exabytes)的。

虽然一些Facebook用户知道社交网络使用算法来选择他们在其时间线中看到的帖子和广告,但很少有人知道该公司已经将ML应用于与Facebook的许多交互中。对于每个用户、时间轴帖子、评论、搜索、广告、图像和一些视频,Facebook使用ML模型对用户最可能感兴趣的点击或评论的预测来动态地排序。

建立这样的神经网络,有两个阶段。在第一阶段使用大的标记的样本数据集或输入和期望的输出来训练神经网络。在部署神经网络的第二阶段中,使用其先前训练的参数来运行推理、分类、识别和有条件地处理诸如时间线帖子等未知输入。培训和推理可以在针对每个阶段优化的不同硬件平台上运行。

一切都起源于图像识别

Facebook AI 程序的起点在2012年,当时ML被用于理解用户帖子中图像的内容和背景。应用计算机视觉是一个非常广泛的研究领域,也是ML在学术界的早期应用示范。这是说服扎克伯格和 Facebook 的 CTO Mike Schroepfer(他在公司内部被称为“Schrep”)开始从研究到产品化地拓展 AI,将 AI 作为整个公司的平台,并增加对 ML 的投资的信号之一。这与 GPU 显著地提高图像识别精度是同时发生的,下图是年度的视觉识别挑战赛Imagenet的结果。

Manohar Paluri 于2012年作为实习生加入 Facebook 的应用计算机视觉团队,当时唯一在使用的图像识别是人脸识别。公司的搜索团队正在为 Facebook 的搜索引擎构建新的语法结构,当时的搜索引擎除了用户添加的标签外,无法理解图片的内容。根据 Paluri 的说法,应用视觉团队是为“理解图像中一切人类可以理解的东西,不需要让计算机记住特定的使用场景,而要建立这样一种方式,让产品组里的开发人员可以利用机器学习模型找到他们自己的答案。”

神经网络是由多个简单的、高度互连的单元(element)组成的计算系统,基于他们对外部输入的动态回应(dynamic-state response)来处理信息。神经网络被训练通过处理大量的标记数据来理解特定的应用情景。鸟的图像被标记为“bird”,汽车的图像被标记为“car”,等等。然后很快地,这个非常大的标记图像样本被压缩成像素处理。在这个训练阶段,通用的 ML 软件(例如 Torch 或 Tensorflow)被用于训练网络来识别图像中的物体。

在这种情况下,输入层是有标记图像的一个大型集合;输出层是将图像描述为“car”或“not car”之类的标签。处理单元(通常称为神经元)的隐藏层产生 ML 软件通过学习算法处理的中间值(权重),从而将权重与有标签的汽车图像相关联。然后,样本数据被重新处理为不带标签的数据,以测试模型预测标签的准确率。结果将被比较,然后校正误差并反馈到神经网络中以调整算法,利用反向传播过程来分配权重。这种迭代校正能得到更高的识别准确率,因此当图像识别模型被用于识别新图像中的内容时,模型在推理阶段能够更高效。

Paluri 的模型的第一个版本为 Facebook 用户上传的图像用一组标签进行标记,例如自拍、食物、室内、户外、风景等。这个图像元数据(metadata)被作为节点集成到 Facebook 的 Open Graph。Open Graph 是 Facebook 对其页面上共享的所有内容的一个动态对象存储库(dynamic object storage ),根据用户的隐私设置实行访问限制。用户信息、文章、照片、音乐等等,几乎所有的内容都是 Open Graph 的存储对象,并且与其他相关对象有链接。Paluri 的 ML 模型添加了元数据作为上传者的评论和标签的补充,并提供当没有评论时的理解。

这个添加的元数据改进了广告投放和搜索结果,并且基于用户的兴趣权衡帖子的重要程度,优化了新闻推送的发布顺序。这导致用户花更多时间浏览他们的时间线。

从公司的第一个图像理解项目以来,Facebook 的图像识别模型在识别照片中的物体,比如猫以外,获得了显著的提升,现在的图像识别技术包括:分类、探测、分割、图说(描述图像中的内容,比如照片中猫在哪个位置,旁边有什么)。

自应用计算机视觉团队开始工作以来,图像识别已经转移到一个称为 Lumos 的自助服务平台上(开发团队不再监督它)。今天,ML 图像识别训练模型和其他模型分布在整个 Facebook 的产品开发团队与 FB Learner 流程平台中。FBLearner Flow 目前由 Facebook 的 40 多个产品开发团队使用,包括搜索、广告和新闻源,用于训练由 FAIR 和应用机器学习团队创建的模型。

建模是一个专业领域,需要高等数学、概率、线性代数和 ML 理论训练,这些都是大多数软件开发人员没有学过的东西。然而,这并不妨碍开发人员训练模型来执行特定功能,例如使用新的分类器来创建和训练模型,具体说就是用各种潜水员图像训练机器识别具有标记的潜水者图像。一旦训练好以后,模型和元数据被处理,就可供整个 Facebook 内部的开发人员使用。

Facebook 图像识别工作现在主要用于区分两大类型的图片。一是暴力、仇恨言论和色情图片。过去,用户将这些图片标记为令人反感的,并将该信息汇入专门的信息管理小组。确认为不良的图像被管理团队成员删除。后来,Facebook 开始建立 ML 模型来识别和删除这些图像。2015 年,ML 模型检查并消除的这些图像,比人类标记的更多。现在,信息管理小组开始独立创建新的分类器,识别新类型的令人反感的材料,并重新训练模型实现自动响应。

另一个是出现在用户新闻源中的记忆,那些通常出现在周年纪念日的蒙太奇。很大程度上,Facebook 的机器学习模型推断的友谊关系和图像往往是准确的。

用神经网络进行视频识别

虽然图像识别蓬勃发展,但视频内容识别和实现处于早期发展阶段。 更高的理解视频的准确性在技术上是可能的,但是如果不改进基础设施架构性能,改进算法或两者同时改变,这是不可行的。 与大多数商业应用一样,ML模型的实现是成本效益、速度和高精度的折中。

尽管如此,FAIR 和应用计算机视觉团队还是实现了Facebook Live 视频的实时视频识别。

用户和明星将各自预计和临时想要发布的实时视频流从他们的智能手机摄像机使用 Facebook Live 广播到粉丝的新闻流。AI 推断可以对实况视频流进行排名,个性化用户的新闻流(newsfeed),消除视频发布和分发产生的延迟。实时视频个性化的服务非常有吸引力,这将再次增加用户在Facebook 应用中花费的时间。

用图像识别那么高的精度做视频识别,目前还做不到。整个 AI 研究圈还没有找到一组共同的特征描述符,也就是一个帧中的小区域,这个小区域能够用于精确检测对象,以便对大范围的视频类型进行分类。视频识别包括动作识别、显着性(人类观察者的注意力的焦点的识别)以及图说的等价物(称为视频摘要)。

让机器理解视频内容十分重要。为了加快这一领域的研究和开发,Facebook 与学界和开发者社区合作,开源其视频识别软件,发布一些研究成果并举办研讨会。

视频识别ML模型已经在 Facebook中 得到了其他的应用。 这些模型也被应用于优化视频压缩,提高重放质量,同时减少播放视频的带宽。

神经网络和基础设施:部署产业规模的低延迟 ML 模型

神经网络在研究和生产中的应用有很大不同,因此学术研究中的神经网络和在产业中应用的神经网络,面对的困难也有很大不同。在数以万计的机器上运行具有超低延迟的推理模型,准确地预测用户将点击哪些新闻故事与撰写研究论文,在书面上证明准确预测用户响应是可能的完全是两码事。

现有学术研究论文讨论的是使用具有标准化分布的大数据集训练神经网络,其方法和结果也在非常开放的氛围中由研究人员共享和协作。但是,Facebook的 Open Graph 的巨大规模对实际应用这些研究带来了问题。此外,要整个在现实中建造出类似大规模的基础设施,为 17 亿个人用户提供推理服务,也是一个非常艰巨的问题。正如 Facebook 核心机器学习工程总监 Hussein Mehanna 所说,“数据集变一下,你面对的几乎就是一个完全不同的程序了”。

2014 年,Mehanna 在 Facebook 的广告团队工作,使用 ML 预测用户会点击哪些广告。按照学术研究标准,这根本算不上是突破,但在 Facebook 的规模运行这种预测算法实际上是一项非凡的成就。

Facebook 以前的数据分布不适合于神经网络。因此,数据需要通过预处理来提高预测的准确性。但是,预测的准确性只是问题的一部分,在实际应用中,在让用户体验低延迟进行大规模数据预测才行,而这是 ML 理论和基础设施交叉的问题。通常,神经网络会简化为一层或两层,推理模型的软件堆栈用本地代码优化。Mehanna 十分看重推理结果与其对 Facebook 平台影响两者之间的权衡:“只要再增加这些机器数量的 5% 就可能需要英特尔花好几个月来完成。”

ML 预测平台的第一个产业版 V1,在实际使用中为 Facebook 广告团队带来了比不使用 ML 更好的结果。 Mehanna 具体解释了 AML(应用机器学习小组)这一成就对 Facebook 商业上的影响:将收入提高1%、2%、3%,用户的观看时间就要增加1%、2%、3%,而对 Facebook 来说,每一个百分点的提高都是巨大的影响。

也许比盈利的增长和用户新闻观看时间增长更重要的是,V1 让团队中很多对 ML 和神经网络抱有怀疑的人无话可说。作为一个平台,V1 在设计和建造时就是为了在公司的许多地方使用的,包括新闻源、搜索等各个产品团队。在首次使用成功后,下一个季度的时间里,Facebook 公司又使用了 15 种新的 ML 模型。如今,Facebook 产品团队中,有四分之一开发者在使用 V1 的升级版 V2 平台,每个月有超过 100 万个新的 ML 模型被测试。

V1 平台使 ML 扩展到广告团队之外,让 Zuckerberg 和 Schrep 意识到要增加对 AI 的投资。而优化学习平台又提高了建立和训练 ML 模型的迭代速度。这对研究人员来说无疑是一个大好的消息。Mehanna 解释说,研究人员有一个想法,一天内就可以做完但却要等一个月才能知道结果,没有什么比这更令人沮丧的了。

推理的优化是独立于模型的,因此它可以和其他模型一起使用。FAIR 和应用机器学习团队的人将 ML 抽象为模块,其他不了解 ML 的人也可以直接拿过来使用。因此,Facebook 内部,FAIR 和应用机器学习团队开发的 ML 模型也得到了越来越多的应用。

这就是从研究到产品化的多阶段 AI 管道的工作原理。模型是基于应用机器学习小组的经过验证的研究而构建,用于解决通用性的问题。模型通过专门的 ML 技术和技术优化在 Facebook 的基础架构上运行,然后将其抽象,以便产品团队开发人员可以使用这些模型。最后,这些模型被应用于 FBLearner Flow 的各种产品中。

在我们访问期间,Mehanna 经常谈论做研究并将其转换为这些可用的产品。他总结了抽象的 ML 平台在整个公司的影响,就像厨师 Emeril 说的那样。“真的,人们只要打开罩子、按下开关——BAM!好了,全部都是现成的。”

Facebook 副总裁:连续七年,最令我担忧的事情是行动速度在放缓

大多数大公司至少有一个创新副总裁;Linkedin上,你可以发现 IBM 有 34 名副总裁,头衔里有“创新”的字样。Facebook 一个也没有,因为创新已经是整个工程文化的一部分。Facebook 的创新模式可以总结为紧迫性、定期迭代和定量展示进度。新的开发项目可以使用实时数据进行测试,因为 Facebook 构建了一个屏障来保护用户体验不受实验的影响。扎克伯格那句代表性的话的前半部分——“动作快、有突破”(move fast and break things)在现实中得到了应验。只不过,现在的 Facebook 打破的事情要比以前少得多。

“连续七年,最令我担忧的事情就是行动速度在放缓,”Facebook 全球工程和基础设施副总裁 Jay Parikh 说。

基础设施、平台硬件和平台软件使开发人员能够快速行动。Facebook Live 在原型开发出来 3 个月后就发布了。“动作快”也被应用到 AI 这个具有相同紧急性的下一代平台,只是 AI 被给予了更长的时间。这是因为 AI 作为一个平台,与移动端相比还不那么成熟。实时视频内容理解、无监督学习和强化学习这些有前途的研究要投入到产业应用,还有一些问题需要解决。还需要设计、验证和构建新的硬件架构。

Facebook 属于一个非常小的队伍,这个队伍里的成员还有谷歌、IBM 和微软。这些公司都具有深厚的专业知识,并已开始大规模的应用 ML。虽然这些公司拥有巨大的人才和资源,AI 社区需要集体发展才能加快进步。所有这些公司都开源了他们的软件,公开研究,在会议上发言,与大学和研究机构合作。这种开源与协作是十分重要的,因此相互竞争的 Facebook 和谷歌才会有研究人员联合发表论文。

开放性对吸引人才也有用。Facebook 的平台吸引了很多 ML 工程师,因为他们在 Facebook 可以建立由10 亿人使用的 ML 系统。但是,开放性对研究人才招聘更为重要,因为发表的研究论文是衡量研究人员职业生涯的标准。工程师只有与外部同行自由沟通,才能快速完成他们的工作。

“哪家公司垄断都不好,你必须成为广大研发社区的一部分,”Facebook 人工智能研究总监 LeCun 说:“吸引人的是优秀的同事。实验室里有影响力的人越多,对他人的吸引力就越大。事情开始是最难的,你必须吸引几个人,这几个人必须要吸引其他年轻人。还好我们这个阶段很快就过去了。”

Facebook 基础设施建立在商用 X86 硬件上。Parikh 被委派了一个任务,辅助将大型基础设施公司和供应商(如 AT&T,高盛,谷歌,IBM,英特尔和微软)组织到一个称为“开放计算项目”的开源硬件社区当中。该组织促进标准化计算和通信硬件,满足平台公司非常具体的大规模需求,减少数据中心资本和运营成本。

去年 12 月,Facebook 通过发布商品硬件来源的 Big Sur AI 计算服务器规范,将开源硬件模型应用于 AI 硬件。Big Sur 采用 Nvidia的GPU构建,是第一个用于大规模生产数据中心工作负载的商用AI计算服务器,有 44 Teraflops 的 ML 计算能力。

Facebook 及其开源合作伙伴希望影响用于在智能手机和数据中心运行推理的AI优化硬件的开发,并优化ML培训阶段的基础设施。除非有像 X86 和 ARM架构一样的生态系统,一个速度更快的新型 AI 芯片也只能成为部分解决方案,短瞬即逝。因此,尽管 Facebook、谷歌、微软和 IBM 的数据中心是硬件供应商的重要业务,但 Facebook 还是希望让更多的成功 ML 开发者社群参与进来,激励英特尔、英伟达和 Qualcomm 优化硬件。

Facebook 应用机器学习小组主任 Joaquin Candela 喜欢用一个比喻描述 Facebook 迭代、学习和创新 AI 目标的速度。“如果你砍掉一个螺旋桨飞机的发动机,它会继续飞行,但砍掉一个发动机后,像 F16 这样的现代喷射机就不稳定了,”她说:“你需要两个发动机和一个控制系统将不稳定的系统变稳定。而且你还需要以超快的速度进行操作。在 F16 上面你能实现螺旋桨飞机永远也做不到的事情。”

在花了一些时间与 Facebook 的AI工程主管和管理高层打交道后,F16 的隐喻就感觉很自然了。这些人都深信,减缓创新的步伐,让今天的 Facebook 平台继续滑行,最终将会结束公司迄今为止连续 12 年的成功飞行。 他们必须重新创建 Facebook,让平台拥有类似人类的智能,为用户提供更灵活和更快的体验。

而实现这些需要在三个维度上努力:学术研究、产业部署和硬件基础设施。

“嘿,Facebook(对话代理唤醒指令),AI 创新是什么样子的?”

文章来源:http://arstechnica.com/information-technology/2017/01/the-origins-and-future-of-artificial-intelligence-at-facebook/

作者:Steven Max Patterson

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-01-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档