Facebook宣布机器翻译全面采用神经网络,现每日处理45亿次翻译

【新智元导读】Facebook 今天宣布,从使用基于短语的机器翻译模型改为使用神经网络系统来处理其社交网络后端每天的翻译请求,每天翻译超过 45 亿次。与基于短语的系统相比,BLEU 平均相对提升了 11%。通过使用 Facebook 开源的深度学习框架 Caffe2,基于 RNN 的翻译能够迅速扩展。

Facebook 今天宣布,已经开始使用神经网络系统来处理其社交网络后端每天的翻译请求,总的翻译数量超过 45 亿次。通过使用 Facebook 在今年4月份开源的深度学习框架 Caffe2,基于 RNN 的翻译能够迅速扩展。

“使用 Caffe2,我们显着提高了Facebook上机器翻译系统的效率和质量。 我们的效率提升了 2.5倍,这使得我们能够将神经机器翻译模型部署到生产中,“Caffe2团队在一篇博文中说。 “因此,Facebook上的所有机器翻译模型已经从基于短语的系统转换为所有语言的神经模型。

让我们看看研究团队是如何介绍这次意义重大的转变的——

从基于短语的机器翻译模型改为神经网络

给 Facebook 的 20 亿用户打造无缝、高度准确的翻译体验是个很有难度的任务。我们需要考虑上下文、俚语、打字错误、缩写和寓意。为了继续提高翻译质量,我们最近从使用基于短语的机器翻译模型改为使用神经网络,以支持我们所有在后端的翻译系统,这些翻译系统每天执行超过2000 种翻译方向(translation directions)和45 亿次翻译。这些新模型提供了更准确和流畅的翻译,改善了人们消费 Facebook 上非熟悉语言的内容的体验。

Sequence-to-sequence LSTM with attention:使用上下文

我们以前的基于短语的统计技术是有用的,但它们也有局限性。基于短语的系统的一个主要缺点是它们将句子分解成单个单词或短语,因此在生成翻译时,他们每次只能考虑几个单词。这导致难以翻译具有明显不同词序的语言。为了弥补这个问题,构建我们的神经网络系统,我们开始使用一种被称为序列到序列LSTM(long short-term memory)的循环神经网络。这样一个网络可以考虑源语句的整个上下文以及之前生成的一切内容,以创建更准确和流畅的翻译。这允许长距离重新排序(long-distance reordering),例如在英语和土耳其语对译时遇到的问题。下列土耳其语到英语的翻译是基于短语的系统:

与我们的新的基于神经网络的土耳其语到英语系统的翻译相比较:

使用新系统,与基于短语的系统相比,BLEU (一种机器翻译自动评价方法,是一种用于判断所有语言机器翻译准确性的广泛使用的度量标准)平均相对提高了11%。

处理未知词

在许多情况下,源语句中的词汇在目标词汇表中没有直接的对译。当发生这种情况时,神经系统将为未知词生成占位符。在这种情况下,我们利用注意力机制在源词和目标词之间产生的soft alignment,以便将原始源词传递到目标句子。然后,我们从利用我们的训练数据构建的双语词典中查找该词的翻译,并在目标句替换未知词。这种方法比使用传统词典更加强大,特别是对于噪音的输入。例如,在英语到西班牙语的翻译中,我们可以将“tmrw”(明天)翻译成“mañana”。虽然词典的增加只小幅改善了 BLEU 得分,但Facebook 上的用户评分却提高了。

词汇削减(Vocabulary reduction)

典型的神经机器翻译模型会计算目标词汇中所有词语的概率分布。我们在此分布中包含的词语数越多,计算所用的时间越多。我们使用一种称为词汇削减(Vocabulary reduction)的建模技术,在训练和推理时间上弥补这个问题。通过词汇削减,我们将目标词汇中最常出现的词语与给定句子的单个词语的一组翻译备选相结合,以减少目标词汇量的大小。过滤目标词汇会减少输出投影层的大小,这有助于使计算更快,而且不会使质量过多地降低。

调整模型参数

神经网络几乎总是具有可调参数,可以控制模型的学习速度等。选择这些超参数的最佳组合对于性能可能非常有益。然而,这对于大规模机器翻译提出了重大挑战,因为每个翻译方向(translation direction)由具有独特的一组超参数的唯一模型表示。由于每个模型的最优值可能不同,因此我们必须分别对每个系统进行调整。我们在数月内进行了数千次端对端翻译实验,利用FBLearner Flow platform微调超参数,如学习率,注意力类型和ensemble size。这对一些系统有重大影响。例如,仅仅是微调了模型超参数,英语到西班牙语翻译的BLEU 就相对提高了3.7%。

在 Caffe2 框架下神经机器翻译

过渡到神经系统的挑战之一是让模型以Facebook 这样规模的应用所需的速度和效率运行。我们在深度学习框架 Caffe2 下实施了我们的新翻译系统。它的灵活性使我们能够在我们的 GPU 和 CPU 平台上进行训练和推理,来调整翻译模型的性能。

对于训练,我们实施了内存优化,如 blob 回收和 blob 重新计算,这有助于我们进行更大批量的训练,训练时间也更快。对于推理,我们使用专门的向量数学库和权重量化来提高计算效率。旧有模型的 early benchmark 表明,支持2000 多个翻译方向的计算资源将会非常高。然而,Caffe2 的灵活性和我们实现的优化使我们的效率提高了 2.5 倍,从而使我们能够将神经机器翻译模型部署到生产中。

我们遵循在机器翻译中常用的在解码时使用 beamsearch 的做法,以改进我们根据模型对最高概率输出句子的评估。我们利用Caffe2 中的循环神经网络(RNN)abstraction 的 generality 来实现 beam search(直接作为单独的前向网络计算),这使我们实现了快速高效的推理。

在这项工作的过程中,我们开发了RNN 构建模块,如LSTM、multiplicative integration LSTM 和注意力。我们很高兴将这项技术作为 Caffe2 的一部分分享,提供给研究和开源社区。翻译的算法可以在Caffe2 GitHub 页面找到。

CNN 会更多地应用到翻译系统中

Facebook人工智能研究院(FAIR)最近发表了使用卷积神经网络(CNN)进行机器翻译的研究。我们与FAIR 密切合作,在不到3个月的时间内,将这项技术首次从研究带入了实际的产出系统(production system)。我们推出了英文到法文、英文到德文翻译的 CNN 模型,与以前的系统相比,新系统带来了 BLEU 12.0%(+4.3)和14.4%(+3.4)的质量提升。这些质量改进使CNN 成为一个令人兴奋的新发展道路,我们将继续努力,将 CNN 更多地应用到翻译系统中。

我们刚刚在翻译中开始使用更多的“语境”。神经网络开启了许多未来的发展路径,这些路径都与添加更多“语境”相关,例如伴随文本的照片,由此创建更好的翻译。

我们也开始探索可以翻译不同语言方向的多语种模型。这将有助于解决为每个特定语言对的系统进行微调的挑战,并且还可以通过共享训练数据从某些方向上带来质量提升。

完成从基于短语到神经机器翻译的过渡,是Facebook 改善用户翻译体验的里程碑。我们将继续推进神经机器翻译技术,目的是为Facebook 上的每个人提供更为人性化的翻译。

原文地址:https://code.facebook.com/posts/289921871474277

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-08-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【学库】用Python做深度学习

若是你对深度学习只有比较浅的认识,想知道深度学习是什么?深度学习的来龙去脉?为什么会出现深度学习这个说法和技术?作者在第一章做了回答。

23020
来自专栏量子位

推荐系统中的冷启动和探索利用问题探讨

作者:文辉 | 达观数据 量子位 已获授权编辑发布 1.前言 互联网技术和大数据技术的迅猛发展正在时刻改变我们的生活,视频网站、资讯app、电商网站对于推荐系统...

92470

如何研究机器学习算法

您需要了解哪些算法在那里,以及如何有效地使用它们。

33060
来自专栏木可大大

大数据是什么(续)

从亚马逊到Facebook,再到谷歌和微软,全球最顶尖、最有影响力的技术公司都将目光转向了人工智能(AI)。本文将介绍AI、机器学习以及深度学习,其中着重介绍深...

19520
来自专栏AI研习社

CVPR 2018摘要:第二部分

今天,我们继续推出最近的CVPR(计算机视觉和模式识别)会议系列,这是世界上计算机视觉的顶级会议。 Neuromation成功参加了DeepGlobe研讨会,现...

9820
来自专栏智能算法

深度学习入门之工具综述

原文:Getting Started with Deep Learning: A REVIEW OF AVAILABLE TOOLS 作者: MATTHEW R...

373130
来自专栏AI科技评论

有史以来最精彩的自问自答:OpenAI 转方块的机械手

AI 科技评论按:今年 2 月,OpenAI 发起了一组机械手挑战,他们在基于 MuJoCo 物理模拟器的 Gym 环境中新设计了含有机械臂末端控制、机械手拿取...

13030
来自专栏达观数据

技术干货 | 推荐系统中的冷启动问题和探索利用问题

冷启动和探索利用问题是推荐系统技术中的两个关键问题,本文结合达观数据的技术实战,对问题的解决方案进行了梳理和介绍。 1 前言 互联网技术和大数据技术的迅猛发展正...

36450
来自专栏量子位

谷歌有只AI,自动给黑白视频上色,走到哪它都认识你

13350
来自专栏机器之心

学界 | CoRL 2018最佳系统论文:如此鸡贼的机器手,确定不是人在控制?

与物体进行交互的操作是机器人技术中最大的开放问题之一:在开放的世界环境中智能地与以前没有见过的物体进行交互需要可以泛化的感知、基于视觉的闭环控制和灵巧的操作。强...

10820

扫码关注云+社区

领取腾讯云代金券