【CNN超越RNN】DeepL机器翻译碾压谷歌、Facebook和微软

【新智元导读】一家名叫DeepL的公司声称他们的翻译工具已经超过谷歌、微软、Facebook等大公司的翻译工具,本文提供了作者亲测的评价。

谷歌、微软、Facebook等科技巨头都将机器学习应用于翻译,但是一家名叫DeepL的小公司已经超越它们。DeepL开发的翻译工具与谷歌等的竞争产品一样快,但其准确度和对翻译内容的微妙把握比我们尝试过的任何翻译工具都更好。

我除了英文,只会讲一些法语,但幸运的是,我的同事Frederic会讲很多国家的语言。我们都认为DeepL的翻译总体上优于谷歌翻译和Bing翻译。

我们找了几段德语的新闻,分别用DeepL翻译和谷歌翻译翻译成英文,结果如下:

上:DeepL的翻译结果;下:谷歌翻译的翻译结果

Frederic对这两段的翻译评价道:“谷歌的翻译往往是按字面意思非常直接地翻译,这会错过一些微妙的表达和成语(或把成语翻译错),DeepL通常能提供更自然的翻译结果,更接近一位受过训练的人类译者的翻译。”

第二句话的分析更自然;该措施是“旨在”完成某事而不仅仅是正在做某事;警察“在路上开着装甲车”,而不仅仅是在车上;“martial appearance”这个词虽然不够好,但远远优于“fighters”......

我自己用一些我很熟悉的法语文学作品进行了一些测试,同样,我认为DeepL的翻译结果优于其他。它在时态、意图、一致上犯错误更少,能更好地理解和翻译成语,因此翻译结果更具有可读性。DeepL自己的盲测也是如此。你可以在DeepL主页自己测试一下:https://www.deepl.com/translator

被选为最好的翻译的概率

BLEU 分数

确实,就算译文出现上文提到的那些类型的错误,意思还是可以成功地传达到的,正如我们用最烂的机器翻译程序也能够传达意思。

DeepL的诞生来自同样优秀的Linguee,这是一个已经有许多年头的翻译工具,虽然挺受欢迎,但从未达到谷歌翻译的受欢迎程度——后者毕竟在品牌和地位方面都具有巨大的优势。Linguee的联合创始人Gereon Frahling原来在Google Research工作,但在2007年离职创办Linguee。

该团队多年来一直研究机器学习与他们核心的机器翻译相关的任务,但去年,他们才开始认真研究一个全新的翻译系统,并创办一个新的公司,两者都被命名为DeepL。

Frahling在一封电子邮件中告诉我,现在时机已经成熟:“我们已经创建一个神经翻译网络,其中包含了大量最新的研究成果,我们也添加了自己的想法。”

在盲测中,翻译员更倾向于选择DeepL Translator的翻译结果,比例大概在3:1。

为了训练我们的神经网络,我们在冰岛搭建了超级计算机,每秒能执行5.1peta 浮点运算。在当前的TOP 500 超级计算机排名上排在23名。

随着计算能力在一秒内翻译100万字; DeepL Translator可以每天帮助世界各地的数百万人。

神经网络的性能取决于其训练的材料的质量。 DeepL的神经网络训练了搜索引擎Linguee提供的数十亿高质量翻译句子。这给了DeepL一个无可比拟的优势。

他们有超过包含10亿翻译和查询的巨大数据库,通过搜索网络上类似的文字片段,为新模型的训练提供了坚实的基础。他们拥有声称是世界上第23强大的超级计算机,位于冰岛。

大学、研究机构以及Linguee的竞争对手们发表的最新研究表明,卷积神经网络(CNN)是更好的途径,而不是该公司一直使用的循环神经网络(RNN)。这篇文章不是要说CNN和RNN之间的差异,只需说对于较长的、有较复杂相关性的句子来说,CNN是更好的选择。

一个CNN可以粗略地说是一次处理句子的一个词。例如,经常出现的情况是,句子的最后一个词决定了句子最开头的字的形式,这就会出问题。只是为了发现网络选择的第一个词是错误的,需要通过整句话,然后再重新处理一遍,这就造成了浪费。因此,DeepL和机器学习领域的其他人应用“注意力机制”来监控这种潜在的问题,在CNN移动到下一个单词或短语之前就解决这些问题。

当然,他们还有其他的秘密技巧,他们的结果是做出了这个翻译工具,我个人是打算用作我的默认翻译工具了。期待其他工具更进一步。

原文:https://techcrunch.com/2017/08/29/deepl-schools-other-online-translators-with-clever-machine-learning/

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-08-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

阿里深度学习实践

1924
来自专栏机器之心

观点 | 人工智能的三个阶段:我们正从统计学习走向语境顺应

选自DataScienceCentral 作者:William Vorhies 机器之心编译 参与:黄小天、微胖、李泽南 我们处在人工智能的哪个阶段?我们将要去...

3609
来自专栏大数据文摘

你应该知道的人工智能三大分类

2244
来自专栏人工智能

2 分钟论文:语音生成表情包背后的技术原理

AI 科技评论出品系列短视频《 2 分钟论文 》,带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。 来源 /Two Minute Papers 翻...

2505
来自专栏量子位

年薪百万的机器学习专家,为什么不产生价值?

本文转载自第四范式知乎专栏,量子位已获得授权。 ? 「范式大学系列课程」第 3 篇文章: 年薪百万的机器学习专家,为什么不产生价值? Part 1 一个朋友的企...

3566
来自专栏新智元

《主算法》作者 Pedro Domingos 谈机器学习十大误解

【新智元导读】机器学习热潮掀起,关于机器学习的误读也随之盛行。为此,机器学习专家、《主算法》作者、华盛顿大学计算机科学教授 Pedro Domingos 日前撰...

3485
来自专栏ATYUN订阅号

20世纪福克斯开发AI模型,通过电影预告片预测观众偏好

为了帮助确定展示出电影的最佳预告片,20世纪福克斯电影制片厂的研究人员开发了一种深度学习模型,可以根据电影的电影预告片预测观众偏好。

933
来自专栏PPV课数据科学社区

【观点】大数据与统计新思维

译著《大数据时代》( 英国 ViktorMayer-Schǒnberger,Kenneth Cukier 著) 和《驾驭大数据》( 美国 Bill Frank...

2937
来自专栏云市场·精选汇

如何细致地为用户提供业务知识服务?

近年随着深度学习及强化学习技术的进一步深入,智能问答机器人所依赖的知识库构建与维护成本也随之减少。大数据分析和智能语音技术在客服场景深入应用,AI正在变革客服行...

1113
来自专栏Python中文社区

数据挖掘入门与提升,从点数据到网络数据

提到社交网络分析,推荐系统、风控模型这些名词,相信你并不陌生,社交网络分析无非是 Pandas+Matplotlib,推荐系统大概率是余弦相似性、协同过滤,风控...

1112

扫码关注云+社区

领取腾讯云代金券