专栏首页企鹅号快讯无监督式训练方法或能解决小语种机器翻译难题

无监督式训练方法或能解决小语种机器翻译难题

来源:Science

编译:Bing

得益于神经网络的发展,机器自动翻译已取得了很大的进步。但是训练这样的网络需要有大量的数据,要向计算机展示数以百万个人类翻译的例子。现在,有两篇新的论文表明,神经网络可以无需平行文本自学翻译。这个令人惊讶的进步能让多语言的文档更容易访问。有趣的是,这两篇论文提交的时间只相差一天。

论文一:Unsupervised Neural Machine Translation:https://arxiv.org/abs/1710.11041

论文二:Unsupervised Machine Translation Using Monolingual Corpora Only:https://arxiv.org/abs/1711.00043

Mikel Artetxe是西班牙巴斯克大学的计算机科学家,是第一篇论文的第一作者。他说:“如果你给一个人一摞中文书和一摞阿拉伯语书,却没有相同的内容,那让这个人把中文翻译成阿拉伯语几乎是不可能的。但现在,电脑可以做到了。”

大多数机器学习架构是“监督式的”,计算机先猜测一个结果,接收到正确答案后再调整其过程。用这种方法教给计算机在英法两种语言之间翻译时十分有效,因为目前已经有很多文本都有英法两种版本的了。但对于很多小语种、或者没有相应的平行文本的语言来说,这种方法就不见得奏效了。

这两篇新论文已提交至明年的ICLR中,但还没有经过同行评议。它们主张的是另一种无监督式的机器学习方法。首先,这两种方法都要在没有人类老师的监督下创建双语词典,即不会有人判断机器的结果是否正确。这是可以做到的,因为很多语言在词组的使用上都有相似性。例如,像桌子椅子这类词语就经常在一起使用。因此,如果一台计算机能够将这些共现词(co-occurences)统计起来,就像一张张地图,每个词语就像地图上的城市,那么不同语言最终形成的地图就会是相似的,只是上面“城市”的名称不同而已。然后再将地图叠加,就得到了一个双语词典了!

这两篇新的论文就是用类似的方式,也能做到在句子层面翻译。他们用了两种训练策略,称为“回译”(back translation)和“去噪”(denoising)。在回译过程中,机器先将一种语言的句子大致翻译成目标语言,然后再翻译成原来的语言。如果翻译后的句子和原文不一致,则需要调整神经网络,让其下一次表现得更好。去噪与其类似,不过不是讲一句话翻译之后再翻译回去,而是在翻译到目标语言后,在句子中添加噪声(重新排列或删除单词),再将其翻译回原文。两种方法结合,会教给神经网络更深层次的语言结构。

不过,这两篇论文中所阐述的技术略有差异。UPV系统在训练期间更多的使用“回译”,而另一种由Facebook计算机科学家Guillaume Lample和他的同事们一起合作的系统在翻译过程中增加了一个步骤。不过,这两个系统在将一种语言翻译成另一种语言之前,都会先编码为一种抽象的形式。而两篇论文的作者都表示,他们可以应用其他论文中的技术来改进他们的结果。

研究人员利用两种方法英法互译了同一组大约3000万条句子,结果表明这两种方法的双语评估分数(用来衡量翻译的准确性)都差不多在15分,远不及用监督式方法的谷歌翻译的40分,而人类的得分超过50。不过这个分数至少比词对词的翻译要好。不过,作者表示如果在他们的训练中增加几千个平行文本,成为半监督式训练方法,结果很容易就会改善。

这两种新技术除了可以应用在没有平行文本的多语言之间,还可以应用于其他领域。比如在英语和法语之间只有新闻报道,但是没有街头俚语或医学术语的相关翻译,所以就可以利用这两种工具。“不过,这项技术还处于初期。”Artetxe的合著者Eneko Agirre提醒道,“我们刚刚开始开辟一项新的研究,还不确定它会通往哪里。”

原文地址:www.sciencemag.org/news/2017/11/artificial-intelligence-goes-bilingual-without-dictionary

本文来自企鹅号 - 全球大搜罗媒体

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 2017最火的五篇深度学习论文 总有一篇适合你

    【导读】最近,MIT博士生学生GREGORY J STEIN在博客中总结了2017年他最喜欢的深度学习论文,并且列出了这一年对他研究思考影响最深的五篇论文,其中...

    企鹅号小编
  • 该学哪门语言?4种编程语言详细对比

    Java、C、PHP、Python 的个人简历表 如果,你对各种编程语言还不太了解,那么本文分别介绍C、PHP、Java、Python四种语言的基本情况。 或许...

    企鹅号小编
  • 十大科学突破预示科学发展三大趋势

    新华社华盛顿12月21日电(记者林小春)每到年底,国际科学界公认的权威刊物美国《科学》杂志都会评选十大科学突破,这不仅是对年度科技大事的年终盘点,从中更能看出近...

    企鹅号小编
  • Microsoft Sync Framework 2.1 软件开发包 (SDK)

    Sync Framework 2.1 引入了新功能,这些功能支持您计算机上的 SQL Server 或 SQL Server Compact 数据库与 SQL ...

    张善友
  • Python 3.8这个新功能,让你每天能省出几秒钟陪女朋友

    导读:f-strings 是Python3.6中的新特性,Python3.8 中 f-strings 开始支持“=”操作,主要作用是方便用于调试。它的语法是:f...

    华章科技
  • 干货!CVPR2019论文已全面开放下载!附下载链接及方法

    CVPR(Computer Vision and Pattern Recognition)简介

    AI算法与图像处理
  • 这功能,每天能省出几秒钟时间陪女朋友

    这是Python3.8新特性1分钟系列的第三篇,第一篇介绍了Python3.8 新特性:赋值表达式,第二篇是Python3.8 新特性:仅位置参数。这篇文章介绍...

    生信宝典
  • 云计算的可迁移性为什么很难完美实现

    导语 可迁移性意味着企业可以将应用程序从一个主机环境迁移到另一个,其包括云平台之间的迁移。容器是一种将应用程序和操作系统封装到可以在支持Docker或Kuber...

    静一
  • 大数据趋势预测靠谱吗?德国研究者用1.7万篇arXiv论文预测机器学习和NLP研究趋势

    研究者使用的数据集来自 arXiv 上机器学习 (cs.LG) 和自然语言处理 (cs.CL) 两个类别,他们采用自下而上的方法基于这两个数据集检测研究趋势:首...

    机器之心
  • 大会前瞻 | 电价有望大幅降低!来看这家企业如何用区块链改造电力市场

    区块链大本营

扫码关注云+社区

领取腾讯云代金券