机器之心报道
参与:路雪、李泽南
近日,一家名为 DeepL 的创业公司发布了自己的神经翻译工具,引起了业内关注。据称在盲测与 BELU 分数测试中,这款全新翻译系统的性能远超来自谷歌、微软和 Facebook 三家巨头的同类产品。对于我们来说,DeepL 唯一的问题就是何时能够支持中文了。
谷歌、微软和 Facebook 等科技巨头已在机器翻译领域耕耘多年,但一家名为 DeepL 的创业公司最近推出的翻译工具又将这一领域向前推进了一步。DeepL 与它的竞争对手相比速度相同,而且更加准确而精密。
目前,DeepL 尚不支持对中文的翻译,但从德语、法语和英语的对翻试验中,我们可以发现 DeepL 的翻译器效果远超谷歌翻译与 Bing。
以下是 DeepL 和谷歌翻译对同一篇德文新闻稿的英语翻译效果:
对此,掌握多国语言的 Techcrunch 编辑 Frederic 表示:「谷歌翻译的风格非常直接,但却错过了一些细节和习语(或者把这些习语翻译错了),而 DeepL 经常可以提供更加自然的翻译效果,就像训练有素的人类翻译一样。」
DeepL 称,在盲测结果中,他们的翻译器表现远超谷歌、微软等竞争对手,而 BLEU 测试的结果也是如此。
现在,这款翻译器已经发布,我们也可以自行测试:https://www.deepl.com/translator。
DeepL 认为自己的翻译系统已经达到了全球领先水平,并给出了与谷歌翻译、微软 Bing 在 100 句话长度上的盲测对比结果,成绩由专业翻译进行打分,DeepL 的成绩遥遥领先。
另外,研究人员通常也会在数据集上对翻译系统进行 BLEU 分数测试,DeepL 神经网络翻译系统的分数超过了目前发布的所有系统(英-德翻译达到 31.1 分,超过谷歌翻译的 28.4 分;英-法翻译 44.7 分,超过此前最佳成绩 3 分)。
DeepL 从同样卓越的 Linguee 演变而来。Linguee 是一款出现多年的翻译工具,尽管 Linguee 使用广泛,但其翻译质量无法达到谷歌翻译的翻译水平,毕竟后者的品牌和地位都占据巨大优势。Linguee 的联合创始人 Gereon Frahling 之前在谷歌研究院工作,但于 2007 年离开,开始了新的征程。
该团队数年来一直致力于机器翻译,但是直到去年,他们才开始全力开发全新的系统,建设新公司,二者的名字都是 DeepL。
「我们的神经网络架构已经实现了多个显著改善。」Gereon Frahling 表示,「通过用不同的方式安排神经元及其连接,我们的网络比目前其他神经网络更全面地映射自然语言。」
超过 10 亿句翻译结果和查询的大型数据库,在网页上搜索相似片段的真实翻译的方法,二者为新模型的训练提供了强大的基础。DeepL 变革性的神经架构在冰岛的一台超级计算机上运行,该计算机的能力是 5.1 petaFLOPS(每秒 5100 万亿次操作,据称在全球超级计算机排行榜上名列 23 位),能够实现在不到一秒的时间内翻译 100 万单词。「冰岛可再生能源丰富,因此我们可以在这里用非常低廉的成本训练我们的神经网络。我们将继续专注于高性能硬件。」CTO Jaroslaw Kutylowski 说道。
大学、研究机构和 Linguee 的竞争对手发布的研究进展表明,卷积神经网络是机器翻译的正确道路,而非 DeepL 之前使用的循环神经网络。现在不是探讨二者区别的时候,必须要说对于相关词语的长、复杂字符串,卷积神经网络效果更好,只要你能够控制其弱点。
例如,CNN 可以一次处理一个单词。当句末单词决定句首单词的形成过程时,这成为一个问题。查找整个句子寻找句首单词,如果网络获取到的第一个单词是错误的,就太浪费了。然后还得使用该知识重新开始,因此 DeepL 和机器学习领域的其他机构在 CNN 转向下一个单词或词组时,使用能够监控此类潜在问题的「注意力机制」来解决问题。
DeepL 翻译器目前支持 42 种语言之间的互译,包括英语、德语、法语、西班牙语、意大利语、波兰语、荷兰语等。该神经网络正在训练以掌握更多语言,如中文、日语和俄语。DeepL 还计划在接下来几个月内发布 API,以使 DeepL 卓越的翻译结果能够提升其他产品的效果,如数字助理、字典、语言学习 app 和专业的翻译程序。
DeepL 成果目前已经可以用做翻译工具的首选了,而这家公司还在计划推出更多其他新产品。「DeepL 的目标不止于翻译任务,」DeepL 首席执行官 Gereon Frahling 说道。「我们的神经网络将从理解文本开始,开启更多可能性。」
本文为机器之心报道,转载请联系本公众号获得授权。