前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >无监督式训练方法或能解决小语种机器翻译难题

无监督式训练方法或能解决小语种机器翻译难题

作者头像
企鹅号小编
发布2018-02-24 14:27:52
1K0
发布2018-02-24 14:27:52
举报
文章被收录于专栏:企鹅号快讯

来源:Science

编译:Bing

得益于神经网络的发展,机器自动翻译已取得了很大的进步。但是训练这样的网络需要有大量的数据,要向计算机展示数以百万个人类翻译的例子。现在,有两篇新的论文表明,神经网络可以无需平行文本自学翻译。这个令人惊讶的进步能让多语言的文档更容易访问。有趣的是,这两篇论文提交的时间只相差一天。

论文一:Unsupervised Neural Machine Translation:https://arxiv.org/abs/1710.11041

论文二:Unsupervised Machine Translation Using Monolingual Corpora Only:https://arxiv.org/abs/1711.00043

Mikel Artetxe是西班牙巴斯克大学的计算机科学家,是第一篇论文的第一作者。他说:“如果你给一个人一摞中文书和一摞阿拉伯语书,却没有相同的内容,那让这个人把中文翻译成阿拉伯语几乎是不可能的。但现在,电脑可以做到了。”

大多数机器学习架构是“监督式的”,计算机先猜测一个结果,接收到正确答案后再调整其过程。用这种方法教给计算机在英法两种语言之间翻译时十分有效,因为目前已经有很多文本都有英法两种版本的了。但对于很多小语种、或者没有相应的平行文本的语言来说,这种方法就不见得奏效了。

这两篇新论文已提交至明年的ICLR中,但还没有经过同行评议。它们主张的是另一种无监督式的机器学习方法。首先,这两种方法都要在没有人类老师的监督下创建双语词典,即不会有人判断机器的结果是否正确。这是可以做到的,因为很多语言在词组的使用上都有相似性。例如,像桌子椅子这类词语就经常在一起使用。因此,如果一台计算机能够将这些共现词(co-occurences)统计起来,就像一张张地图,每个词语就像地图上的城市,那么不同语言最终形成的地图就会是相似的,只是上面“城市”的名称不同而已。然后再将地图叠加,就得到了一个双语词典了!

这两篇新的论文就是用类似的方式,也能做到在句子层面翻译。他们用了两种训练策略,称为“回译”(back translation)和“去噪”(denoising)。在回译过程中,机器先将一种语言的句子大致翻译成目标语言,然后再翻译成原来的语言。如果翻译后的句子和原文不一致,则需要调整神经网络,让其下一次表现得更好。去噪与其类似,不过不是讲一句话翻译之后再翻译回去,而是在翻译到目标语言后,在句子中添加噪声(重新排列或删除单词),再将其翻译回原文。两种方法结合,会教给神经网络更深层次的语言结构。

不过,这两篇论文中所阐述的技术略有差异。UPV系统在训练期间更多的使用“回译”,而另一种由Facebook计算机科学家Guillaume Lample和他的同事们一起合作的系统在翻译过程中增加了一个步骤。不过,这两个系统在将一种语言翻译成另一种语言之前,都会先编码为一种抽象的形式。而两篇论文的作者都表示,他们可以应用其他论文中的技术来改进他们的结果。

研究人员利用两种方法英法互译了同一组大约3000万条句子,结果表明这两种方法的双语评估分数(用来衡量翻译的准确性)都差不多在15分,远不及用监督式方法的谷歌翻译的40分,而人类的得分超过50。不过这个分数至少比词对词的翻译要好。不过,作者表示如果在他们的训练中增加几千个平行文本,成为半监督式训练方法,结果很容易就会改善。

这两种新技术除了可以应用在没有平行文本的多语言之间,还可以应用于其他领域。比如在英语和法语之间只有新闻报道,但是没有街头俚语或医学术语的相关翻译,所以就可以利用这两种工具。“不过,这项技术还处于初期。”Artetxe的合著者Eneko Agirre提醒道,“我们刚刚开始开辟一项新的研究,还不确定它会通往哪里。”

原文地址:www.sciencemag.org/news/2017/11/artificial-intelligence-goes-bilingual-without-dictionary

本文来自企鹅号 - 全球大搜罗媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - 全球大搜罗媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档