专访|网易有道段亦涛:丁磊亲自过问的神经网络翻译技术到底是什么?

AI科技评论按:很多读者在思考,“我和AI科技评论的距离在哪里?”答案就是:一封求职信。

近日,网易有道正式对外公布:由网易公司自主研发的神经网络翻译( Neural Machine Translation)技术正式上线,网易内部人士称,该项目受到了丁磊的亲自过问。

有道2008年诞生,诞生伊始的核心业务是搜索。在2013年剥离搜索业务之后,有道仅翻译业务(包括有道词典、有道翻译官等)就获得了7亿用户,体量庞大。

就此,AI科技评论独家专访了有道首席科学家段亦涛,聊了聊有道在机器翻译领域的研究和探索。

有道是国内第一批提供机器翻译服务的互联网公司,从2008年正式推出到现在,已近十年。十年时间里,有道一直聚焦于中文与其他外语之间的翻译,通过不断提升机器翻译的质量,吸引了大量用户,积累了海量的语料和数据。

即便如此,机器翻译的质量还是差强人意。随着人工智能技术的发展,深度学习逐渐应用在机器翻译领域,神经网络翻译模型开始得以运用,而有道也借此将其机器翻译能力提到了一个新的高度。用段亦涛的话来说就是:

神经网络翻译是人工智能及深度学习在机器翻译领域的具体应用,是目前最前沿的机器翻译技术,它带来的翻译质量提升是过去十年的总和。

通过机器来实现翻译一直是人类一个梦想,在计算机诞生之前,人类就设想过用自动化的方法将一种语言的文字翻译成另外一种语言。计算机诞生之后,人类开始希望做出一个能够实现自动翻译的程序。早期的尝试都不太成功,统计翻译模型的出现,给机器翻译领域带来了第一次飞跃。

统计翻译模型不依赖于人为设定的规则,而是从大量的平行语料里总结语言规律,从而得到翻译的结果。但它的问题也很多,最大的问题在于统计翻译模型是一个由很多组件组成的模型,比如分词、短语、对齐,调序等组件,这些组件独立存在,各司其职,每个组件完成自己的意向任务,最后“拼凑”起来,产生一个“还看得过去”的翻译结果,远远谈不上“满意”。但两年前,无论是我们熟知的谷歌翻译、百度翻译,还是其他翻译类产品,用的基本都是统计翻译模型。

当神经网络模型用于机器翻译之后,这一切有了改观。神经网络翻译能够对整个句子进行编码,更充分地利用上下文信息,判定多义词的词义,生成更自然的译文。最直观的一点,是神经网络翻译的译文句子结构完整,语序更符合人类语言使用习惯,翻译结果通顺。

神经网络翻译原理

如此评价,除了实际使用中用户的感知,还有一个更为理性的标准,由IBM在2002年建立,被称为BLEU(Bilingual Evaluation understudy)值。据维基百科介绍,BLEU是一种评价机器翻译文本质量的算法,该算法的核心价值观认为:机器翻译越接近专业翻译,质量越高。

BLEU的具体方法是将候选译文和参考答案做对比,把单个翻译片段(一般是句子)与一组良好的质量参考译文进行比较,判断词语、语序的重合部分,重合越多,得分越高,之后通过整个语料库平均得出翻译的总体质量的估计。

在机器翻译领域,神经网络翻译模型逐渐取代了统计翻译模型,其中一个重要原因就是,前者的BLEU值大幅度提升。

除了纵向对比,横向和其他同行比较的话,BLEU值也是一个重要参考标准。按照有道官方给出的数据显示,在英语学习场景中,有道神经网络翻译的英译中和中译英的BLEU值领先了同行7个百分点;而在新闻文章翻译场景中,其英译中BLEU值超同行6个百分点,而中译英超过了8个百分点。

神经网络翻译中译英对比

之所以能比同行高出6-8个百分点,段亦涛认为优势在于两个方面:

  • 以中文为核心,更加专注。针对中文特有的语言现象做了非常多的优化,包括中文的分词等;
  • 词典近十年积累了庞大数据,依托有道词典积累的语料和用户数据,能够在英语学习这种翻译场景下做到最好。

“效果不错”,但段亦涛也承认,“在缺乏完备的理论基础的情况下,实践中需要非常依赖经验和摸索。效果是最硬的指标,理论再完美,不起效果对我们来说就没有意义”。

在行业里曾经有人做过一个类比,“深度学习(包括神经网络模型)就像炼丹,把各种素材放在一起,然后掌握火候,在不断试炼中才能达到最好效果”,或许这也反映了,在行业缺乏完备的理论基础的情况下,现实的困难是——大家都只能摸索,这就存在非常大的不确定性。但对目前有道做出来的效果,段亦涛还是满意的。

当然,这离不开一个强大的技术团队。段亦涛表示,有道团队将会持续聚焦在机器翻译领域,未来将着力于三个方面:

  • 调整模型和算法
  • 获取更多数据
  • 不同领域适配

AI科技评论了解到,有道神经网络翻译技术已经在有道词典、有道翻译官、有道翻译网页版、有道e读等产品中应用,覆盖用户超过7亿。

小结

在采访的最后,还聊到了段亦涛加入网易有道的经历。段亦涛本硕专业读的是北航的飞机设计,专注研究"隐身技术",和计算机基本没关系。但去加州大学伯克利分校读博时,因为兴趣,转到了计算机科学,读的方向是分布式计算领域的隐私和加密。对于这种转变,段亦涛觉得难度没有想象那么大,因为在工程上都是相通的,其次他有数学的优势。

在伯克利读博期间,段亦涛结识了的周枫,也就是现在网易有道CEO。

当时,周枫受丁磊之邀,正在考虑加入网易开发有道项目。于是,周枫便邀请段亦涛一起加入了网易。从2008年到2017年,接近十年,段亦涛热情不减,他说"我还是挺喜欢的"。

很多业内人士,并不知道网易有道也在做 Al方面的研究。段方涛表示,希望有更多 Al人才加入进来。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-05-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT技术精选文摘

快消品图像识别丨无人店背后的商品识别技术

人工智能一浪接一浪地席卷全球,AI的其中一个重要分支——计算机视觉,也如雨后春笋,不断涌现出新的想法和应用。人脸识别已经逐渐渗透我们的日常生活,机器能够认准人脸...

2387
来自专栏CSDN技术头条

《机器学习实战》作者Peter Harrington:如何成为一位数据科学家

Peter Harrington,拥有电气工程学士和硕士学位,他曾经在美国加州和中国的英特尔公司工作7年。Peter拥有5项美国专利,在三种学术期刊上发表过文章...

1959
来自专栏新智元

【谷歌AI换帅】Jeff Dean正式接管,人工智能和搜索部门一分为二!

1214
来自专栏新智元

【吴恩达Quora最新问答】任何人都能成为机器学习专家

【新智元导读】吴恩达刚刚在Quora做了一次最新session,重点回答了如何学习机器学习/深度学习,以及如何从事机器学习方向工作的问题。吴恩达认为,复现他人发...

3406
来自专栏量子位

年薪百万的机器学习专家,为什么不产生价值?

本文转载自第四范式知乎专栏,量子位已获得授权。 ? 「范式大学系列课程」第 3 篇文章: 年薪百万的机器学习专家,为什么不产生价值? Part 1 一个朋友的企...

3336
来自专栏数据科学与人工智能

【数据挖掘】大数据知识之数据挖掘

从市场需求及应用的角度来看,通过对大数据的存储、挖掘和分析,大数据在管理、营销、数据标准化等领域大有可为,促使管理/服务水平提升、营销方式改进等。下面我们就来讲...

2049
来自专栏PPV课数据科学社区

【学习】写给新人数据挖掘基础知识介绍

一、数据挖掘技术的基本概念 随着计算机技术的发展,各行各业都开始采用计算机及相应的信息技术进行管理和运营,这使得企业生成、收集、存贮和处理数据的能力大大提高,数...

2946
来自专栏目标检测和深度学习

学术科普:A刊、B刊、C刊、核心,是什么意思?

许多人评职称、拿学位或者找工作的时候,有的单位有规定,必须有发表在A刊上的论文才行。那么A刊到底是什么意思呢?

1064
来自专栏AI科技评论

谷歌、微软、OpenAI等巨头七大机器学习开源项目 看这篇就够了

在人工智能行业,2015-2016 出现了一个不同寻常的趋势:许多重量级机器学习项目纷纷走向开源,与全世界的开发者共享。加入这开源大潮的,不仅有学界师生,更有国...

41411
来自专栏钱塘大数据

人工智能/数据挖掘/机器学习/统计学之间有什么区别?

时间过的真快,本期为“数据挖掘”专题推送的最后一期了,520这天,就给大家介绍个特有意思的文章,技术男们有福了,超级干货! 前段时间,作者在 stats.sta...

2694

扫描关注云+社区