AI要抢“人类”饭碗?有道新推的人机翻译告诉你协作才能共赢

近日,有道发布了一项全新的翻译服务——人机翻译,通过自研的神经网络翻译技术(YNMT),让翻译的价格创了新低。

早在2011年,有道就推出了专业的人工翻译服务,这项服务由具有翻译资格的译员提供高质量的翻译结果。

而比起纯粹的人工翻译,此次发布的有道人机翻译最大的不同之处在于它把有道神经网络翻译(Youdao Neural Machine Translation,YNMT)和专业人工翻译结合在了一起,处理翻译需求时,首先由YNMT进行初步翻译,在机器翻译结果的基础上,由专业译员对初译结果进行编辑润色,大幅度提高了翻译效率,同时价格降低了50%。

有道人机翻译这项翻译模式上的创新,得益于有道在人工智能上的突破以及在人工翻译领域多年的积累。

事实上,网易有道研发两年之久的YNMT早已在有道翻译官及有道e读中上线。用户打开有道翻译官,在设置中选择神经网络翻译Beta版;或者下载有道e读,使用整句翻译功能,就可体验到神经网络翻译。

从技术角度来看,与传统的基于短语的翻译相比,YNMT能够对整个句子进行编码,更充分地利用上下文信息,判定多义词的词义,生成较高质量的译文。

传统机器翻译,就是把一个固定的字词或者词组翻译成目标语言。根据剑桥大学自然语言处理(NLP)组的陈村在一篇文章中的描述,传统机器翻译界的主流方法都是 Phrased-Based Machine Translation (PBMT),此前连 Google 翻译使用的也是基于这个框架的算法。所谓基于词组,就是将原语句中的话拆成词组,在对应词组进行逐一翻译,最后再把顺序汇总成目标语言的一句话。

比如说“今天我想吃蛋糕”,可能会被机器拆解成“今天”、“我”、“想”、“吃蛋糕”。PBMT 翻译模式会将这几个词逐一做翻译,然后根据自然语言处理重新排序,最后所呈现的结果让它看起来像一句话。所以这也解释了为什么在使用机器翻译的时候会出现大量的语序问题、以及对应词汇的翻译根本没有结合段落上下文的问题。

而基于神经网络的翻译模式是近年来发展的一个大方向,深度神经网络结构去直接学习拟合"源语言"到"目标语言"的概率。

通俗来说,传统统计机器翻译(SMT)的处理过程,更像一堆模块的组合、翻译、分词、调序等每条细分的“流水线”各司其职,最后把这些模块通过设定的机制组合起来,输出翻译结果;而神经网络翻译(NMT) 的框架会将需要翻译的原文看做一个整体,实现了以句子为整体的上下翻译环境,在单句中翻译结果更加具有逻辑性,尤其是当一个长句子出现时,这种翻译模型就比更传统的 PBMT 更加有序。

搞定了 NMT 结构框架,然后就要依赖数据喂养。比如传统通用模型可以选择中英文对照版本的书籍,而有道在新闻语料和英语学习类语料这两个方面来源数据更多,所以他们的模型训练在这方面更成熟。

与传统的基于短语的翻译相比,有道宣布 YNMT(Youdao-NMT) 翻译质量的提升是 SMT 过去两年累计提升的总和,YNMT(Youdao-NMT)在新闻类语料和英语学习类语料两方面的的盲测 BLEU 值(代表准确度)甚至超过了 GNMT(Google-NMT)。(备注:BLEU 值是一种代替人工的、针对翻译工作的自动评价方法。)

究其原因,词典是网易有道的传统优势,词条数据庞大,解释准确。借助这一优势,再加上有道有针对性的优化,YNMT对英语学习类语料的翻译结果更加精准。这一类的翻译需求的特点是,原文规整,句式不太复杂,对准确率要求很高。在该类数据上的盲测结果中,有道YNMT翻译的BLEU值超过GNMT 3.24个百分点。

新闻类语料翻译是另外一个常见的需求,它的特点是,长句经常出现,句子结构复杂而且夹杂着大量人名地名。在这类数据上,YNMT同样表现不俗,BLEU值能够达到34.72,比谷歌领先了2.27个百分点。这对于翻译结果,是非常大的提升,直接关乎读者能否理顺句子逻辑。

机器翻译仍是一个未解决的难题

网易有道首席科学家、YNMT技术带头人段亦涛也坦言,神经网络翻译在全球范围内,都属于非常尖端的技术,虽然已有一定成果,但还远未达到完善的地步。和机器学习其他领域类似,机器翻译的效果是和数据密切相关的。在一个场景下有作用的技术,在另外一个数据集合上不见得表现好。这对开发者来说,很多时间都是“摸着石头过河”。

有道YNMT目前的技术突破,的确让开发者们感到振奋,但要将这样高质量的神经网络翻译结果拓展到更多领域,还有很长的路要走。机器翻译作为AI的核心难题之一,还远没有达到被完全解决的地步。

随着有道人机翻译的推出,凭借其快速、准确以及高性价比已快速吸引到了一批优质用户,尤其是十万字以上需求的机构用户。有道人机翻译可以极大提高翻译速度,帮用户节约成本。例如,美国某医学论坛需翻译10万条医学问答,共计约400万英文单词,使用有道人机翻译服务,20天时间即完成稿件交付;而针对网易考拉这类跨境电商平台,有道人机翻译也能够迅速翻译海外商品介绍,且能保证翻译结果准确无误。


原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2017-02-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI2ML人工智能to机器学习

我也看看《为未来人工智能做好准备》

美国政府刚出台完《国家人工智能研究与发展规划》, 做完现阶段规划, 又开始着眼未来, 出台了《为未来人工智能做好准备》的展望。

6110
来自专栏AI科技评论

重磅丨直击“人机大战”第二轮:声纹识别百度小度1:1战平人类,比赛的背后究竟发生了什么?

如果说在上一轮人机大战的人脸识别对决中,由于小度对阵了并不擅长人脸识别的王峰,令比赛意义打了折扣,那么昨天进行的第二轮声音识别的人机大战,虽然最终只是战平,但对...

36550
来自专栏AI科技评论

CVPR 2016:这些黑科技在悄悄爆红

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人...

389120
来自专栏量子位

谷歌大脑全军出击!Jeff Dean领衔全面解答AI现状与未来

李林 允中 编译整理 量子位 出品 | 公众号 QbitAI 刚送走一年一度为苹果纳肾发布会,又迎来了一年一度Google Brain AMA。 这是Jeff ...

27470
来自专栏镁客网

拔刺 | 手机处理器真的会老化吗?

手机本身就是一个消耗品,任何电子产品用久了,性能会下降,就会出现卡顿,死机等现象。不过手机的处理器的集成度很高,想要老化也需要十年左右的时间,所以手机出现卡顿的...

9520
来自专栏IT派

2017年机器学习几大主要进展汇总!

摘要: 2017年注定是机器学习快速发展的一年,特别是机器学习商业化的成功是的更多的人积极的投入到机器学习的学习当中。机器学习一定会成为未来的技术,让我们看看这...

46290
来自专栏AI科技评论

前沿 | 引起巨大争议的新技术Face2Face:当科技先进到让人害怕

面部追踪技术并不是什么新鲜的技术,但是今年3月公布的Face2Face无疑彻底改变了它的意义。这项技术可以非常逼真的将一个人的面部表情、说话时面部肌肉的变化完美...

42290
来自专栏奇点大数据

什么是信息

说到这里,我的同事王小妹非常认真且煞有介事地跟我说:“我觉得数字、字母、图像,这些都是数据,跟信息不信息的没啥关系。”看着她认真地跟我抬杠,我觉得蛮好,至少在认...

272110
来自专栏ThoughtWorks

洗白“黑科技”深度学习|商业洞见

[摘要] 最近几年,深度学习备受关注。在2016年的每一项人工智能成就背后,几乎都能看到深度学习的影子。数据的获取、存储、计算能力的增强,以及算法的进步等因素合...

37660
来自专栏量子位

痴人、信徒、先驱:深度学习三巨头等口述神经网络复兴史

现代神经网络、机器学习等AI技术背后的思想,可以追溯到第二次世界大战行将结束之际。彼时,学者们开始构建计算系统,旨在以类似于人类大脑的方式存储和处理信息。

15020

扫码关注云+社区

领取腾讯云代金券