前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Facebook宣布机器翻译全面采用神经网络,现每日处理45亿次翻译

Facebook宣布机器翻译全面采用神经网络,现每日处理45亿次翻译

作者头像
新智元
发布2018-03-23 09:26:18
1K0
发布2018-03-23 09:26:18
举报
文章被收录于专栏:新智元新智元

【新智元导读】Facebook 今天宣布,从使用基于短语的机器翻译模型改为使用神经网络系统来处理其社交网络后端每天的翻译请求,每天翻译超过 45 亿次。与基于短语的系统相比,BLEU 平均相对提升了 11%。通过使用 Facebook 开源的深度学习框架 Caffe2,基于 RNN 的翻译能够迅速扩展。

Facebook 今天宣布,已经开始使用神经网络系统来处理其社交网络后端每天的翻译请求,总的翻译数量超过 45 亿次。通过使用 Facebook 在今年4月份开源的深度学习框架 Caffe2,基于 RNN 的翻译能够迅速扩展。

“使用 Caffe2,我们显着提高了Facebook上机器翻译系统的效率和质量。 我们的效率提升了 2.5倍,这使得我们能够将神经机器翻译模型部署到生产中,“Caffe2团队在一篇博文中说。 “因此,Facebook上的所有机器翻译模型已经从基于短语的系统转换为所有语言的神经模型。

让我们看看研究团队是如何介绍这次意义重大的转变的——

从基于短语的机器翻译模型改为神经网络

给 Facebook 的 20 亿用户打造无缝、高度准确的翻译体验是个很有难度的任务。我们需要考虑上下文、俚语、打字错误、缩写和寓意。为了继续提高翻译质量,我们最近从使用基于短语的机器翻译模型改为使用神经网络,以支持我们所有在后端的翻译系统,这些翻译系统每天执行超过2000 种翻译方向(translation directions)和45 亿次翻译。这些新模型提供了更准确和流畅的翻译,改善了人们消费 Facebook 上非熟悉语言的内容的体验。

Sequence-to-sequence LSTM with attention:使用上下文

我们以前的基于短语的统计技术是有用的,但它们也有局限性。基于短语的系统的一个主要缺点是它们将句子分解成单个单词或短语,因此在生成翻译时,他们每次只能考虑几个单词。这导致难以翻译具有明显不同词序的语言。为了弥补这个问题,构建我们的神经网络系统,我们开始使用一种被称为序列到序列LSTM(long short-term memory)的循环神经网络。这样一个网络可以考虑源语句的整个上下文以及之前生成的一切内容,以创建更准确和流畅的翻译。这允许长距离重新排序(long-distance reordering),例如在英语和土耳其语对译时遇到的问题。下列土耳其语到英语的翻译是基于短语的系统:

与我们的新的基于神经网络的土耳其语到英语系统的翻译相比较:

使用新系统,与基于短语的系统相比,BLEU (一种机器翻译自动评价方法,是一种用于判断所有语言机器翻译准确性的广泛使用的度量标准)平均相对提高了11%。

处理未知词

在许多情况下,源语句中的词汇在目标词汇表中没有直接的对译。当发生这种情况时,神经系统将为未知词生成占位符。在这种情况下,我们利用注意力机制在源词和目标词之间产生的soft alignment,以便将原始源词传递到目标句子。然后,我们从利用我们的训练数据构建的双语词典中查找该词的翻译,并在目标句替换未知词。这种方法比使用传统词典更加强大,特别是对于噪音的输入。例如,在英语到西班牙语的翻译中,我们可以将“tmrw”(明天)翻译成“mañana”。虽然词典的增加只小幅改善了 BLEU 得分,但Facebook 上的用户评分却提高了。

词汇削减(Vocabulary reduction)

典型的神经机器翻译模型会计算目标词汇中所有词语的概率分布。我们在此分布中包含的词语数越多,计算所用的时间越多。我们使用一种称为词汇削减(Vocabulary reduction)的建模技术,在训练和推理时间上弥补这个问题。通过词汇削减,我们将目标词汇中最常出现的词语与给定句子的单个词语的一组翻译备选相结合,以减少目标词汇量的大小。过滤目标词汇会减少输出投影层的大小,这有助于使计算更快,而且不会使质量过多地降低。

调整模型参数

神经网络几乎总是具有可调参数,可以控制模型的学习速度等。选择这些超参数的最佳组合对于性能可能非常有益。然而,这对于大规模机器翻译提出了重大挑战,因为每个翻译方向(translation direction)由具有独特的一组超参数的唯一模型表示。由于每个模型的最优值可能不同,因此我们必须分别对每个系统进行调整。我们在数月内进行了数千次端对端翻译实验,利用FBLearner Flow platform微调超参数,如学习率,注意力类型和ensemble size。这对一些系统有重大影响。例如,仅仅是微调了模型超参数,英语到西班牙语翻译的BLEU 就相对提高了3.7%。

在 Caffe2 框架下神经机器翻译

过渡到神经系统的挑战之一是让模型以Facebook 这样规模的应用所需的速度和效率运行。我们在深度学习框架 Caffe2 下实施了我们的新翻译系统。它的灵活性使我们能够在我们的 GPU 和 CPU 平台上进行训练和推理,来调整翻译模型的性能。

对于训练,我们实施了内存优化,如 blob 回收和 blob 重新计算,这有助于我们进行更大批量的训练,训练时间也更快。对于推理,我们使用专门的向量数学库和权重量化来提高计算效率。旧有模型的 early benchmark 表明,支持2000 多个翻译方向的计算资源将会非常高。然而,Caffe2 的灵活性和我们实现的优化使我们的效率提高了 2.5 倍,从而使我们能够将神经机器翻译模型部署到生产中。

我们遵循在机器翻译中常用的在解码时使用 beamsearch 的做法,以改进我们根据模型对最高概率输出句子的评估。我们利用Caffe2 中的循环神经网络(RNN)abstraction 的 generality 来实现 beam search(直接作为单独的前向网络计算),这使我们实现了快速高效的推理。

在这项工作的过程中,我们开发了RNN 构建模块,如LSTM、multiplicative integration LSTM 和注意力。我们很高兴将这项技术作为 Caffe2 的一部分分享,提供给研究和开源社区。翻译的算法可以在Caffe2 GitHub 页面找到。

CNN 会更多地应用到翻译系统中

Facebook人工智能研究院(FAIR)最近发表了使用卷积神经网络(CNN)进行机器翻译的研究。我们与FAIR 密切合作,在不到3个月的时间内,将这项技术首次从研究带入了实际的产出系统(production system)。我们推出了英文到法文、英文到德文翻译的 CNN 模型,与以前的系统相比,新系统带来了 BLEU 12.0%(+4.3)和14.4%(+3.4)的质量提升。这些质量改进使CNN 成为一个令人兴奋的新发展道路,我们将继续努力,将 CNN 更多地应用到翻译系统中。

我们刚刚在翻译中开始使用更多的“语境”。神经网络开启了许多未来的发展路径,这些路径都与添加更多“语境”相关,例如伴随文本的照片,由此创建更好的翻译。

我们也开始探索可以翻译不同语言方向的多语种模型。这将有助于解决为每个特定语言对的系统进行微调的挑战,并且还可以通过共享训练数据从某些方向上带来质量提升。

完成从基于短语到神经机器翻译的过渡,是Facebook 改善用户翻译体验的里程碑。我们将继续推进神经机器翻译技术,目的是为Facebook 上的每个人提供更为人性化的翻译。

原文地址:https://code.facebook.com/posts/289921871474277

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-08-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档