业界 | 神经翻译系统水平远超谷歌、微软,德国创业公司发布翻译器DeepL

机器之心报道

参与:路雪、李泽南

近日,一家名为 DeepL 的创业公司发布了自己的神经翻译工具,引起了业内关注。据称在盲测与 BELU 分数测试中,这款全新翻译系统的性能远超来自谷歌、微软和 Facebook 三家巨头的同类产品。对于我们来说,DeepL 唯一的问题就是何时能够支持中文了。

谷歌、微软和 Facebook 等科技巨头已在机器翻译领域耕耘多年,但一家名为 DeepL 的创业公司最近推出的翻译工具又将这一领域向前推进了一步。DeepL 与它的竞争对手相比速度相同,而且更加准确而精密。

目前,DeepL 尚不支持对中文的翻译,但从德语、法语和英语的对翻试验中,我们可以发现 DeepL 的翻译器效果远超谷歌翻译与 Bing。

以下是 DeepL 和谷歌翻译对同一篇德文新闻稿的英语翻译效果:

对此,掌握多国语言的 Techcrunch 编辑 Frederic 表示:「谷歌翻译的风格非常直接,但却错过了一些细节和习语(或者把这些习语翻译错了),而 DeepL 经常可以提供更加自然的翻译效果,就像训练有素的人类翻译一样。」

DeepL 称,在盲测结果中,他们的翻译器表现远超谷歌、微软等竞争对手,而 BLEU 测试的结果也是如此。

现在,这款翻译器已经发布,我们也可以自行测试:https://www.deepl.com/translator。

DeepL 认为自己的翻译系统已经达到了全球领先水平,并给出了与谷歌翻译、微软 Bing 在 100 句话长度上的盲测对比结果,成绩由专业翻译进行打分,DeepL 的成绩遥遥领先。

另外,研究人员通常也会在数据集上对翻译系统进行 BLEU 分数测试,DeepL 神经网络翻译系统的分数超过了目前发布的所有系统(英-德翻译达到 31.1 分,超过谷歌翻译的 28.4 分;英-法翻译 44.7 分,超过此前最佳成绩 3 分)。

Linguee 的演变

DeepL 从同样卓越的 Linguee 演变而来。Linguee 是一款出现多年的翻译工具,尽管 Linguee 使用广泛,但其翻译质量无法达到谷歌翻译的翻译水平,毕竟后者的品牌和地位都占据巨大优势。Linguee 的联合创始人 Gereon Frahling 之前在谷歌研究院工作,但于 2007 年离开,开始了新的征程。

该团队数年来一直致力于机器翻译,但是直到去年,他们才开始全力开发全新的系统,建设新公司,二者的名字都是 DeepL。

「我们的神经网络架构已经实现了多个显著改善。」Gereon Frahling 表示,「通过用不同的方式安排神经元及其连接,我们的网络比目前其他神经网络更全面地映射自然语言。」

超过 10 亿句翻译结果和查询的大型数据库,在网页上搜索相似片段的真实翻译的方法,二者为新模型的训练提供了强大的基础。DeepL 变革性的神经架构在冰岛的一台超级计算机上运行,该计算机的能力是 5.1 petaFLOPS(每秒 5100 万亿次操作,据称在全球超级计算机排行榜上名列 23 位),能够实现在不到一秒的时间内翻译 100 万单词。「冰岛可再生能源丰富,因此我们可以在这里用非常低廉的成本训练我们的神经网络。我们将继续专注于高性能硬件。」CTO Jaroslaw Kutylowski 说道。

大学、研究机构和 Linguee 的竞争对手发布的研究进展表明,卷积神经网络是机器翻译的正确道路,而非 DeepL 之前使用的循环神经网络。现在不是探讨二者区别的时候,必须要说对于相关词语的长、复杂字符串,卷积神经网络效果更好,只要你能够控制其弱点。

例如,CNN 可以一次处理一个单词。当句末单词决定句首单词的形成过程时,这成为一个问题。查找整个句子寻找句首单词,如果网络获取到的第一个单词是错误的,就太浪费了。然后还得使用该知识重新开始,因此 DeepL 和机器学习领域的其他机构在 CNN 转向下一个单词或词组时,使用能够监控此类潜在问题的「注意力机制」来解决问题。

DeepL 翻译器目前支持 42 种语言之间的互译,包括英语、德语、法语、西班牙语、意大利语、波兰语、荷兰语等。该神经网络正在训练以掌握更多语言,如中文、日语和俄语。DeepL 还计划在接下来几个月内发布 API,以使 DeepL 卓越的翻译结果能够提升其他产品的效果,如数字助理、字典、语言学习 app 和专业的翻译程序。

DeepL 成果目前已经可以用做翻译工具的首选了,而这家公司还在计划推出更多其他新产品。「DeepL 的目标不止于翻译任务,」DeepL 首席执行官 Gereon Frahling 说道。「我们的神经网络将从理解文本开始,开启更多可能性。」

本文为机器之心报道,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-08-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

个性化推荐十大挑战

还有读者觉得个性化推荐就等同于协同过滤,这可能是因为协同过滤应用比较广泛并且比较容易为大众理解。实际上协同过滤只是个性化推荐技术中的一个成员。它与很多更先进技术...

15930
来自专栏专知

【专知独家干货】-《科研写作之读论文》的一些心得体会

今天特别给大家分享下来自我们专知团队成员-钱胜胜博士最近在2017年中国多媒体大会上作的《撰写论文的一些心得体会》的报告。钱胜胜博士是中国科学院自动化研究所模式...

41660
来自专栏机器学习AI算法工程

知乎观点收集:关于机器学习和数据挖掘找工作

甲:数据挖掘 很多地方招聘还是挺喜欢这样专业的,但是前提是你得过笔试关。 为了笔试,学习C和数据结构 数据挖掘的时候学习算法和推理机制等,看看数据分析,神经网络...

48770
来自专栏ThoughtWorks

点之殇|TW洞见

今日洞见 文章作者、部分图片来自ThoughtWorks:冉冉。 本文所有内容,包括文字、图片和音视频资料,版权均属ThoughtWorks公司所有,任何媒体、...

38280
来自专栏量子位

香港科技大学教授冯雁:How to Build Empathetic Machines

主讲人:冯雁 | 香港科技大学 屈鑫 整理编辑 量子位 出品 | 公众号 QbitAI 本文为冯雁教授8月18日于北京创新工场的分享实录整理,分享主题为《How...

31960
来自专栏媒矿工厂

利用人工智能提升足球直播效果

人工智能技术代表着未来无限的可能性,已经在很多领域带来巨大的冲击。在足球直播这一领域,版权方需要提供更多更优质的内容以应对日益增长的多元化需求,因此急需提高运营...

62520
来自专栏大数据文摘

【综述】情感计算的“前世今生”

31460
来自专栏大数据文摘

关于人工智能的七大常见误解

15010
来自专栏机器之心

业界 | NovuMind异构智能核心技术引领智联网

32970
来自专栏腾讯技术工程官方号的专栏

腾讯AI Lab刘霁谈机器学习,异步计算和去中心化是两大杀器

本文转载自「AI科技评论」,搜索「aitechtalk」即可关注。 编者按:并行计算是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器...

445130

扫码关注云+社区

领取腾讯云代金券