业界 | Facebook全面转为神经网络人工智能翻译

AI 科技评论按:语言翻译是一股能够让人们组建群体和使世界更加紧密的力量。 它可以帮助人们与在海外居住的家庭成员联系起来,或者可以更好地了解讲不同语言的人们的观点。 通过使用机器翻译,自动翻译文章和评论,以打破语言障碍,使得世界各地的人们可以相互沟通。

即便体量大如 Facebook,想要为20亿使用的用户创造无缝、高精确的翻译体验也是很困难的,这需要同时考虑上下文、俚语、打字错误、缩写和语意。 为了继续提高翻译质量,Facebook团队最近宣布从基于短语的机器翻译模型切换到基于神经网络的翻译模型,来支持所有的后端翻译系统。每个翻译系统每天翻译超过2000个翻译方向和45亿个翻译。 这些新模型能够提供更准确和更流畅的翻译体验,改善了人们在使用Facebook时,阅读由非常用语言撰写的内容时的阅读体验。

使用上下文

Facebook以前使用的基于短语的统计技术确实有效,但它们也有局限性。基于短语的翻译系统的一个主要缺点是它们将句子分解成单个单词或短语,因此在生成翻译时,他们每次只能考虑几个单词。 这种方法导致当翻译具有明显不同字词排序的语言时会出现翻译困难的情况。为了弥补这个问题并构建神经网络系统,Facebook开始使用一种被称为序列到序列LSTM(long short-term memory)的循环神经网络。 这种网络可以考虑源语句的整个上下文以及到目前为止生成的一切内容,以创建更准确和流畅的翻译。 这样当遇到例如在英语和土耳其语之间翻译字词排列不同时,可以重新排序。 当采用基于短语的翻译模型从土耳其语翻译到英语时,获得以下翻译:

与基于神经网络的从土耳其语到英语的翻译相比较:

当使用新系统时,与基于短语的系统相比,BLEU平均相对增长了11% - BLEU是广泛使用的用于判断所有语言的机器翻译准确性的度量标准。

处理未知词

在许多情况下,源语句中的单词在目标词汇表中并没有直接对应的翻译。 当发生这种情况时,神经系统将为未知词生成占位符。 在这种情况下,可以利用注意机制在源词和目标词之间产生的软校准,以便将原始的源词传递到目标句子。 然后,从培训数据中构建的双语词典中查找该词的翻译,并替换目标语句中的未知词。 这种方法比使用传统字典更加强大,特别是对于嘈杂的输入。 例如,在从英语到西班牙语的翻译中,可以将“tmrw”(明天)翻译成“mañana”。虽然增加了一个词典,BLEU得分只有小幅的改善,但是对于使用Facebook的人而言评分更高了。

词汇量减少

典型的神经机器翻译模型会计算目标词汇中所有单词的概率分布。 在这个分布中包含的字数越多,计算所用的时间越多。 通过使用一种称为词汇减少的建模技术,可以在训练和推理时间上弥补这个问题。 通过词汇减少,可以将目标词汇中最常出现的单词与给定句子的单个单词的一组翻译候选相结合,以减少目标词汇的大小。 过滤目标词汇会减少输出投影层的大小,这有助于更快的计算,而且不会使过大的降低质量。

调整模型参数

神经网络几乎通常具有可调参数,可以通过这些参数调节和控制模型的学习速度。 选择超参数的最佳集合对于性能是非常有帮助的。 然而,这对于大规模的机器翻译提出了重大的挑战,因为每个翻译方向是由其自己的一组超参数的唯一模型表示。 由于每个模型的最优值可能不同,因此必须分别对每个系统进行调整。 Facebook团队在数月内进行了数千次端对端翻译实验,利用FBLearner Flow平台对超参数进行微调,如学习率,注意力类型和总体大小。 这些超参数对一些系统有重大影响。 例如,仅基于调优模型超参数,就可以看到从英语到西班牙语系统的BLEU相对值提高了3.7%。

用Caffe2缩放神经机器翻译

过渡到神经系统的挑战之一是让模型以Facebook上的信息规模所需的速度和效率运行。 因此Facebook团队在深入学习框架Caffe2中实现了翻译系统。 由于它的灵活性,因此能够在GPU和CPU平台上进行训练和推理,来调整翻译模型的性能。

关于培训,该团队实施了内存优化,如blob回收和blob重新计算,这有助于更大批量的培训,并更快地完成培训。 关于推理,该团队使用专门的向量数学库和权重量化来提高计算效率。 现有模式的早期基准表明,支持2000多个翻译方向的计算资源将会非常高。 然而,Caffe2的灵活性和该团队使用的优化模型使计算提高了2.5倍的效率,因而能够将神经机器翻译模型应用到实际中去。

该团队还遵循在机器翻译中常用的在解码时使用波束搜索的做法,以根据模型改进对最可能输出的句子的估计。 利用Caffe2中的循环神经网络(RNN)抽象的一般性来实现波束搜索,直接作为单个前向网络计算,这样就实现了快速有效的推理。

在这项工作的过程中,该团队还开发了RNN构建块,如LSTM,乘法集成LSTM和注意。 这项技术将作为Caffe2的一部分分享出来,并为研究和开源社区提供学习素材。

正在进行的工作

Facebook人工智能研究(FAIR)团队最近发表了使用卷积神经网络(CNN)进行机器翻译的研究。 Facebook 代码团队与 FAIR 密切合作,在不到三个月的时间里,完成了将这项技术从研究到首次投入生产系统中使用的流程。 他们推出了从英文到法文和从英文到德文翻译的CNN模型,与以前的系统相比,BLEU的质量提升分别提高了12.0%(+4.3)和14.4%(+3.4)。 这些质量改进让该团队看到CNN将成为一个令人兴奋的新发展道路,后面他们还将将继续努力,利用CNN推出更多的翻译系统。

目前机器翻译刚刚开始使用更多的翻译语境。 神经网络开辟了许多与添加更多上下文相关的发展方向,以创建更好的翻译,例如伴随文章文本的照片。

该团队也开始同时探索可以翻译许多不同语言方向的多语种模式。 这将有助于解决与特定语言对相关的每个系统的微调的挑战,并且还可以通过共享培训数据为某些翻译方向带来质量提高。

对Facebook而言,完成从短语到神经机器翻译的过渡,是一个里程碑,代表了为所有人提供他们常用语言下的更优质的Facebook体验。 他们还将继续推进神经机器翻译技术,目的是为Facebook上的每个人提供人性化的翻译。

via code.facebook.com

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【Bengio一人署名论文】提出“意识RNN”,用4页纸进军通用AI

【新智元导读】深度学习三巨头之一的Yoshua Bengio昨天在arXiv上传论文,署名只有他一人。Bengio在文中提出了一种“意识先验”,认为在现有模型和...

1874
来自专栏新智元

人工智能五大能力水平:基于深度学习的人工智能分类

【新智元导读】本文作者基于深度学习提出人工智能的五大分类:1.仅分类(C);2.记忆分类(CM);3.知识分类(CK);4.不完全知识分类(CIK);5.协同不...

3507
来自专栏人工智能头条

谷歌语音转录背后的神经网络

1254
来自专栏PPV课数据科学社区

AI时代就业指南:机器学习工程师求职须知

什么是机器学习? 我们来看一下机器学习是做什么的,能解决什么问题。 首先我们来看机器学习的一个类型,监督学习。 蓝色箭头部分是训练一个机器学习模型的过程。首先有...

3277
来自专栏机器之心

观点 | 为什么深度学习仍未取代传统的计算机视觉技术?

选自zbigatron 作者:Zbigatron 机器之心编译 参与:张楚、黄小天 本文作者认为,深度学习只是一种计算机视觉工具,而不是包治百病的良药,不要因为...

3224
来自专栏新智元

【重磅】Google开源全球最精准自然语言解析器SyntaxNet

【新智元导读】Google Research今天宣布,世界准确度最高的自然语言解析器SyntaxNet开源。谷歌开源再进一步。据介绍,谷歌在该平台上训练的模型的...

3578
来自专栏AI科技大本营的专栏

硬货 | 分析完2017ACL论文和演讲,我发现了深度学习在NLP中的四个发展趋势

向AI转型的程序员都关注了这个号☝☝☝ ? 作者通过分析2017年ACL的论文,以及演讲内容,得出了四个NLP深度学习趋势: Linguistic Struct...

2944
来自专栏大数据挖掘DT机器学习

机器学习算法工程师需要掌握的技能

实话实说,目前大部分人上各种班来学习机器学习,学习大数据,归根到底还是希望能找到一个好的工作,拿到更高的薪水,当然还有一部分原因是自己对这一方面比较感兴趣,希望...

3006
来自专栏新智元

【CNN已老,GNN来了】DeepMind、谷歌大脑、MIT等27位作者重磅论文,图网络让深度学习也能因果推理

1382
来自专栏何俊林

【一】如果让我学习TensorFlow,我该怎么学?

熟悉我的读者知道,我一直以来就是做Android开发/音视频开发,对于什么人工智能,什么TensorFlow,什么机器学习,我也是小白,按照惯例,在学习一个新东...

2429

扫描关注云+社区