MIT开发新型无监督语言翻译模型,又快又精准

编译:chux

麻省理工学院的研究人员开发了一种新颖的“无监督”的语言翻译模型,这意味着它无需人工注释和指导即可运行,这可以使基于计算机的更多语言翻译更快,更高效。

谷歌,Facebook和亚马逊的翻译系统需要训练模型来查找数百万文档中的模式,例如法律和政治文档或新闻文章,这些文档已被人类翻译成各种语言。给定一种语言的新单词,然后他们就可以找到另一种语言中匹配的单词和短语。

但是这种翻译数据耗时且难以收集,并且对于全世界使用的7000种语言中的许多语言而言可能根本不存在。最近,研究人员一直在开发“单语”模型,这些模型使两种语言的文本之间进行翻译,但两者之间没有直接的翻译信息。

本周在自然语言处理经验方法会议上发表的论文中,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员描述了一种比这些单语模型运行得更快,更有效的模型。

该模型利用统计中的度量,Gromov-Wasserstein距离,本质上是测量一个计算空间中的点之间的距离,并将它们与另一个空间中的类似距离点进行匹配。他们将这种技术应用于两种语言的“单词嵌入”,这两种语言的词表示为向量(基本上是数字数组),具有相似含义的单词聚集在一起。在这样做时,模型在两个嵌入中快速对齐单词或向量,这两个嵌入通过相对距离最密切相关,这意味着它们可能是直接翻译。

在实验中,研究人员的模型与最先进的单语模型一样准确,有时更准确,重要的是速度更快,而且仅使用一小部分计算能力。

“该模型将两种语言中的单词视为一组向量,并通过基本保留关系将这些向量从一组映射到另一组,”该论文的共同作者,CSAIL研究员Tommi Jaakkola表示,“这种方法可以帮助翻译低资源语言或方言,只要它们有足够的单语内容。”

CSAIL博士生第一作者David Alvarez-Melis表示,该模型代表了机器翻译的主要目标之一,即完全无监督的单词对齐。“如果你没有任何与两种语言相匹配的数据,你可以映射两种语言,并使用这些距离测量,对齐它们。”

关系最重要

对于无监督的机器翻译来对齐字嵌入并不是一个新概念。最近的工作训练神经网络直接在两种语言的词嵌入或矩阵中匹配向量。但是这些方法在训练期间需要进行大量调整以使对准完全正确,这是低效且耗时的。

另一方面,基于关系距离测量和匹配矢量是一种更加有效的方法,不需要太多微调。无论单词向量落在给定矩阵中的哪个位置,单词之间的关系(即它们的距离)都将保持不变。例如,“父亲”的向量可能落在两个矩阵的完全不同的区域中。但“父亲”和“母亲”的载体很可能总是紧密相连。

“这些距离是不变的,”Alvarez-Melis说,“通过查看距离,而不是向量的绝对位置,那么你可以跳过对齐并直接匹配向量之间的对应关系。”

这就是为什么Gromov-Wasserstein能派上用场,该技术已被用于计算机科学,例如帮助在图形设计中对齐图像像素。但是这个指标看起来似乎是为词对齐量身定做的,Alvarez-Melis表示,“如果在一个空间中有一些点或词靠的很近,那么Gromov-Wasserstein会自动尝试在另一个空间找到相应的点集群。”

对于训练和测试,研究人员使用了一个公开可用的单词嵌入数据集,称为FASTTEXT,具有110种语言对。在这些嵌入和其他嵌入中,在类似上下文中越来越频繁出现的单词具有紧密匹配的向量。“母亲”和“父亲”通常会在一起,但距离“房子”更远。

提供“软翻译”

该模型注意到与其他向量密切相关但不同的向量,并且指定了在另一个嵌入中类似的距离向量将对应的概率。这有点像“软翻译”,Alvarez-Melis说,“因为它不是仅仅返回一个单词翻译,而是告诉你这个向量或单词与另一种语言中的单词有很强的对应关系。”

一个例子是一年中的月份,它们以多种语言紧密结合在一起。该模型将看到一组12个向量,这些向量在一个嵌入中聚类,在另一个嵌入中聚类非常相似,“该模型不知道这些是月份,”Alvarez-Melis说,“它只知道有一组12个点与另一种语言中的12个点对齐,但它们与其他单词不同,所以它们可能很好地结合在一起。通过找到每个单词的这些对应关系,它然后同时对齐整个空间。”

Jaakkola说,研究人员希望这项工作可以作为“可行性检查”,将Gromov-Wasserstein方法应用于机器翻译系统,以便更快,更高效地运行,并获得更多语言的访问权限。

另外,模型的一个可能的好处是它自动产生一个值,可以解释为在数字尺度上量化语言之间的相似性。研究人员表示,这可能对语言学研究有用。该模型计算两个嵌入中所有向量彼此之间的距离,这取决于句子结构和其他因素。如果向量都非常接近,它们的分数将接近0,并且它们越远,分数越高。例如,法语和意大利语等类似的浪漫语言得分接近1,而汉语与其他主要语言得分在6到9之间。

Alvarez-Melis说:“简单的数字可以说明语言之间的相似程度,并且可以用来描述语言之间的关系。”

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-10-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

专栏 | 用神经网络来判定量子纠缠?这里有一篇简单易懂的方法解读

纠缠态 (entangledstate) 是量子力学预言的一种叠加态,最早是为了批判量子力学所蕴含的哲学思想,而由爱因斯坦等三名科学家于 1935 年首先提出的...

14730
来自专栏新智元

【深度学习】深度学习的最新进展及诺亚方舟实验室的研究

深度学习是机器学习的一个领域,研究复杂的人工神经网络的算法、理论、及应用。自从2006年被Hinton等提出以来[1],深度学习得到了巨大发展,已被成功地应用到...

41050
来自专栏AI科技评论

干货 | 香港科技大学施行健:深度学习如何用于短临降雨预报

AI科技评论按:本文介绍了 NIPS 2017 论文: Deep Learning for Precipitation Nowcasting: A Benchm...

52270
来自专栏人工智能头条

深度学习常见问题、最新进展及诺亚方舟实验室的研究

16570
来自专栏数据科学与人工智能

【深度学习】深度学习的最新进展及诺亚方舟实验室的研究

摘要:本文首先回答关于深度学习的几个常见问题,介绍深度学习研究的最新进展,特别是一些代表性工作,同时概述华为诺亚方舟实验室的深度学习与自然语言处理的工作,最后总...

23960
来自专栏上善若水

0x01机器学习简史

about 全面介绍机器学习的发展史,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning。

23960
来自专栏ATYUN订阅号

【学术】一文带你了解深度学习中新衍生的技术——视觉问答(VQA)

AiTechYun 编辑:Yining 从某些角度上来看,建立一个能够回答自然语言问题的系统一直被认为是一个非常有野心的目标。根据下面给出的图像,想象一个可以回...

34550
来自专栏AI科技评论

大会 | AAAI 2018论文:视频语义理解的类脑智能

AI 科技评论按:近日,美图云视觉技术部门与中科院自动化所共同合作研发,提出一种基于类脑智能的无监督的视频特征学习和行为识别的方法 NOASSOM (Hiera...

39170
来自专栏AI科技大本营的专栏

DeepMind到底是如何教AI玩游戏的?这篇在Medium上获得1700个赞的文章,把里面的原理讲清楚了

一篇顶十篇!想入门强化学习,专心研读这篇对DeepMind经典论文的解析就够了 作者 | Aman Agarwal 编译 | Shawn 编辑 | 鸽子、焦燕...

43460
来自专栏腾讯大数据的专栏

腾讯数平精准推荐 | OCR技术之识别篇

本文介绍了腾讯数平精准推荐团队的OCR识别算法,包括识别算法的演进之路以及4个代表性方法。

6.7K120

扫码关注云+社区

领取腾讯云代金券