业界 | Facebook全面转为神经网络人工智能翻译

AI 科技评论按:语言翻译是一股能够让人们组建群体和使世界更加紧密的力量。 它可以帮助人们与在海外居住的家庭成员联系起来,或者可以更好地了解讲不同语言的人们的观点。 通过使用机器翻译,自动翻译文章和评论,以打破语言障碍,使得世界各地的人们可以相互沟通。

即便体量大如 Facebook,想要为20亿使用的用户创造无缝、高精确的翻译体验也是很困难的,这需要同时考虑上下文、俚语、打字错误、缩写和语意。 为了继续提高翻译质量,Facebook团队最近宣布从基于短语的机器翻译模型切换到基于神经网络的翻译模型,来支持所有的后端翻译系统。每个翻译系统每天翻译超过2000个翻译方向和45亿个翻译。 这些新模型能够提供更准确和更流畅的翻译体验,改善了人们在使用Facebook时,阅读由非常用语言撰写的内容时的阅读体验。

使用上下文

Facebook以前使用的基于短语的统计技术确实有效,但它们也有局限性。基于短语的翻译系统的一个主要缺点是它们将句子分解成单个单词或短语,因此在生成翻译时,他们每次只能考虑几个单词。 这种方法导致当翻译具有明显不同字词排序的语言时会出现翻译困难的情况。为了弥补这个问题并构建神经网络系统,Facebook开始使用一种被称为序列到序列LSTM(long short-term memory)的循环神经网络。 这种网络可以考虑源语句的整个上下文以及到目前为止生成的一切内容,以创建更准确和流畅的翻译。 这样当遇到例如在英语和土耳其语之间翻译字词排列不同时,可以重新排序。 当采用基于短语的翻译模型从土耳其语翻译到英语时,获得以下翻译:

与基于神经网络的从土耳其语到英语的翻译相比较:

当使用新系统时,与基于短语的系统相比,BLEU平均相对增长了11% - BLEU是广泛使用的用于判断所有语言的机器翻译准确性的度量标准。

处理未知词

在许多情况下,源语句中的单词在目标词汇表中并没有直接对应的翻译。 当发生这种情况时,神经系统将为未知词生成占位符。 在这种情况下,可以利用注意机制在源词和目标词之间产生的软校准,以便将原始的源词传递到目标句子。 然后,从培训数据中构建的双语词典中查找该词的翻译,并替换目标语句中的未知词。 这种方法比使用传统字典更加强大,特别是对于嘈杂的输入。 例如,在从英语到西班牙语的翻译中,可以将“tmrw”(明天)翻译成“mañana”。虽然增加了一个词典,BLEU得分只有小幅的改善,但是对于使用Facebook的人而言评分更高了。

词汇量减少

典型的神经机器翻译模型会计算目标词汇中所有单词的概率分布。 在这个分布中包含的字数越多,计算所用的时间越多。 通过使用一种称为词汇减少的建模技术,可以在训练和推理时间上弥补这个问题。 通过词汇减少,可以将目标词汇中最常出现的单词与给定句子的单个单词的一组翻译候选相结合,以减少目标词汇的大小。 过滤目标词汇会减少输出投影层的大小,这有助于更快的计算,而且不会使过大的降低质量。

调整模型参数

神经网络几乎通常具有可调参数,可以通过这些参数调节和控制模型的学习速度。 选择超参数的最佳集合对于性能是非常有帮助的。 然而,这对于大规模的机器翻译提出了重大的挑战,因为每个翻译方向是由其自己的一组超参数的唯一模型表示。 由于每个模型的最优值可能不同,因此必须分别对每个系统进行调整。 Facebook团队在数月内进行了数千次端对端翻译实验,利用FBLearner Flow平台对超参数进行微调,如学习率,注意力类型和总体大小。 这些超参数对一些系统有重大影响。 例如,仅基于调优模型超参数,就可以看到从英语到西班牙语系统的BLEU相对值提高了3.7%。

用Caffe2缩放神经机器翻译

过渡到神经系统的挑战之一是让模型以Facebook上的信息规模所需的速度和效率运行。 因此Facebook团队在深入学习框架Caffe2中实现了翻译系统。 由于它的灵活性,因此能够在GPU和CPU平台上进行训练和推理,来调整翻译模型的性能。

关于培训,该团队实施了内存优化,如blob回收和blob重新计算,这有助于更大批量的培训,并更快地完成培训。 关于推理,该团队使用专门的向量数学库和权重量化来提高计算效率。 现有模式的早期基准表明,支持2000多个翻译方向的计算资源将会非常高。 然而,Caffe2的灵活性和该团队使用的优化模型使计算提高了2.5倍的效率,因而能够将神经机器翻译模型应用到实际中去。

该团队还遵循在机器翻译中常用的在解码时使用波束搜索的做法,以根据模型改进对最可能输出的句子的估计。 利用Caffe2中的循环神经网络(RNN)抽象的一般性来实现波束搜索,直接作为单个前向网络计算,这样就实现了快速有效的推理。

在这项工作的过程中,该团队还开发了RNN构建块,如LSTM,乘法集成LSTM和注意。 这项技术将作为Caffe2的一部分分享出来,并为研究和开源社区提供学习素材。

正在进行的工作

Facebook人工智能研究(FAIR)团队最近发表了使用卷积神经网络(CNN)进行机器翻译的研究。 Facebook 代码团队与 FAIR 密切合作,在不到三个月的时间里,完成了将这项技术从研究到首次投入生产系统中使用的流程。 他们推出了从英文到法文和从英文到德文翻译的CNN模型,与以前的系统相比,BLEU的质量提升分别提高了12.0%(+4.3)和14.4%(+3.4)。 这些质量改进让该团队看到CNN将成为一个令人兴奋的新发展道路,后面他们还将将继续努力,利用CNN推出更多的翻译系统。

目前机器翻译刚刚开始使用更多的翻译语境。 神经网络开辟了许多与添加更多上下文相关的发展方向,以创建更好的翻译,例如伴随文章文本的照片。

该团队也开始同时探索可以翻译许多不同语言方向的多语种模式。 这将有助于解决与特定语言对相关的每个系统的微调的挑战,并且还可以通过共享培训数据为某些翻译方向带来质量提高。

对Facebook而言,完成从短语到神经机器翻译的过渡,是一个里程碑,代表了为所有人提供他们常用语言下的更优质的Facebook体验。 他们还将继续推进神经机器翻译技术,目的是为Facebook上的每个人提供人性化的翻译。

via code.facebook.com

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

专访乔治亚理工宋乐教授:用强化学习为图论组合优化问题寻找“元算法”

3892
来自专栏新智元

2016:深度学习统治人工智能?附深度学习十大顶级框架

2015 年结束了,是时候看看 2016 年的技术趋势,尤其是关于深度学习方面。新智元在 2015 年底发过一篇文章《深度学习会让机器学习工程师失业吗?》,引起...

3546
来自专栏数据科学与人工智能

【机器学习】机器学习和数据挖掘的推荐书单

《机器学习实战》:本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic...

2648
来自专栏PPV课数据科学社区

学习攻略 | 机器学习 学习路线图

1. 引言 也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;也习惯...

6218
来自专栏AI科技评论

业界丨人工智能哪些领域及公司值得关注?Playfair投资人为你阐述六大关注方向

AI科技评论按:有人将人工智能定义为“认知计算”或者是“机器智能”,有的人将 AI 与“机器学习”混为一谈。事实上,这些都是不准确的,因为人工智能不单单是指某一...

3555
来自专栏机器之心

专栏 | 情感计算是人机交互核心?谈深度学习在情感分析中的应用

竹间智能专栏 作者:竹间智能自然语言与深度学习小组 除自然语言理解(NLU)外,情感计算(Affective Computing)也成为近年来 AI 领域热门的...

3365
来自专栏AI科技大本营的专栏

翻译们又要失业?Facebook最新无监督机器翻译成果,BLEU提升10个点!

神经机器翻译(NMT)关注的是通过 AI 在不同人类语言之间进行翻译的过程。2015 年,蒙特利尔学习算法研究所的研究人员开发出了一项新的算法模型,最终让机器给...

1584
来自专栏人工智能头条

Hinton的小伙伴Charlie Tang:结构深度学习

1836
来自专栏机器人网

AI科学家李飞飞告诉我们:超越 ImageNet 的视觉智能

说起人工智能,孕育了卷积神经网络和深度学习算法的 ImageNet 挑战赛恐怕是世界上最著名的 AI 数据集。8 年来,在 ImageNet 数据集的训练下,人...

1283
来自专栏机器之心

Yoshua Bengio首次中国演讲:深度学习通往人类水平AI的挑战

11 月 7 日,Yoshua Bengio 受邀来到北京参加第二十届「二十一世纪的计算」国际学术研讨会。会上以及随后受邀前往清华时,他给出了题为「深度学习通往...

712

扫码关注云+社区